1  Xác suất

TipMục tiêu
  • Hiểu các khái niệm và có thể chuyển một phép thử ngẫu nhiên từ ngôn ngữ nói sang biểu diễn bằng tập hợp toán học
  • Hiểu khái niệm và cách tính xác suất có điều kiện
  • Nắm rõ mối quan hệ giữa các biến cố: xung khắc, phụ thuộc, độc lập
  • Biết cách áp dụng các phép tính xác suất trong các vấn đề thực tế
  • Hiểu chính xác khái niệm biến ngẫu nhiên

1.1 Nguồn gốc

Lý thuyết xác suất ra đời để giải quyết một vấn đề trong cờ bạc. Vấn đề cụ thể khai sinh ra lĩnh vực này được gọi là “Bài toán Chia điểm” (Problem of Points).

Năm 1654, nhà văn kiêm tay cờ bạc Antoine Gombaud viết thư cho nhà toán học Blaise Pascal để hỏi cách giải quyết một ván bài dang dở:

  • Hai người A và B chơi một trò hoàn toàn may rủi (ví dụ tung đồng xu, kéo-búa-bao), ai thắng 3 ván trước sẽ là người chiến thắng cuối cùng
  • Mỗi người đặt 50$, tổng là 100$, ai thắng sẽ được toàn bộ tiền thưởng 100$
  • Trò chơi phải dừng đột ngột khi A đang dẫn trước 2-1

Câu hỏi: Làm sao chia 100$ cho công bằng?

Tại sao đây là một bài toán khó?

Vào thời đó, con người chưa biết cách xử lý “tương lai” bằng toán học. Có người đề nghị: “A được 2 điểm, B được 1 điểm. Vậy chia 100$ làm 3, A được 67$, B được 33$.” Cách này không công bằng vì chỉ nhìn vào quá khứ mà phớt lờ lợi thế của A: A chỉ cần thắng thêm đúng 1 ván là xong, trong khi B phải thắng liên tiếp 2 ván.

Pascal thấy bài toán này rất thú vị và gửi nó cho nhà toán học Pierre de Fermat. Họ giải quyết vấn đề bằng cách thay đổi góc nhìn. Thay vì nhìn vào quá khứ (những gì đã xảy ra trong ván bài), họ nhìn vào tương lai (các khả năng sẽ xảy ra của trò chơi).

Lời giải:

Fermat tưởng tượng xem trò chơi có thể diễn ra như thế nào nếu tiếp tục chơi cho đến cùng. Trò chơi sẽ kết thúc tối đa trong 2 ván nữa (vì A thắng 1 ván là xong, hoặc B thắng 2 ván là xong). Để cho công bằng, ta cho A và B chơi thêm 2 ván.

Có 4 kịch bản của 2 ván này:

Ván 1 Ván 2 Chung cuộc Tỉ số A:B
A thắng A thắng A thắng 4-1
B thắng A thắng 3-2
B thắng A thắng A thắng 3-2
B thắng B thắng 2-3

Kết quả:

Nếu tiếp tục chơi, chỉ có 4 kịch bản có thể xảy ra, trong đó A thắng 3 lần, B thắng 1 lần. Vậy khả năng A thắng là 3/4 trường hợp, và B thắng 1/4 trường hợp. Vậy A nên được chia 3/4 của 100$ là 75$, và B được chia 25$.

Nhu cầu “xử lý tương lai” là rất lớn. Khi đánh bài, nên bỏ bài, theo, hay cược hết (all-in) luôn? Nhà cái cần tính toán luật chơi sao cho họ luôn có lợi thế. Nếu mua mã cổ phiếu này thì sau 1 tháng, 3 tháng, 6 tháng có lên giá không? Vì tương lai chưa xảy ra nên không có câu trả lời chắc chắn, nhưng không có nghĩa là ta phải nhắm mắt làm liều. Xác suất ra đời để giải quyết vấn đề này, bằng cách gán một con số để phản ánh mức độ chắc chắn.

Note

Các nhà toán học và thống kê hiểu rõ xác suất. Họ biết các trò chơi ở sòng bài đều được thiết kế để có lợi cho nhà cái, vì vậy họ thường không chơi cờ bạc. Trừ khi họ tìm ra cách để tận dụng lỗ hổng của trò chơi, như một số trường hợp đặc biệt saư:

  • GS. Edward Thorp (MIT) nghĩ ra phương pháp đếm bài để thắng trò xì dách liên tục. Năm 1961, ông từng thắng 11,000 USD (115,000 USD theo giá trị hiện nay) trong một cuối tuần. Nhưng rồi ông bị các sòng bài cấm chơi, ông chuyển sang đầu tư chứng khoán và hiện có tài sản 800 triệu USD.

  • GS. Richard Jarecki (ĐH Heidelberg) tìm ra phương pháp để thắng trò roulette và đã kiếm được hơn 8 triệu USD. Ông cũng bị các sòng bài cấm chơi và họ phải thay thế toàn bộ thiết bị của trò chơi này.

  • TS. Joan Ginther (PhD ở ĐH Stanford) đã thắng xổ số 4 lần từ năm 1993-2010 với số tiền lên đến 20 triệu USD. Xác suất để xảy ra điều này là \(\frac{1}{18 \times 10^{24}}\) nên người ta tin rằng bà đã thu thập dữ liệu và tìm ra thuật toán để chiến thắng.

1.2 Định nghĩa

Trong “Bài toán Chia điểm” trên, khả năng thắng cuộc chính là xác suất.

Xác suất (Probability): là một con số nằm trong khoảng từ 0 đến 1, dùng để đo lường khả năng xảy ra của một sự kiện.

  • 0 = chắc chắn không xảy ra
  • 1 = chắc chắn sẽ xảy ra

Có 2 cách tiếp cận xác suất:

  1. Tần suất (frequentist):

\[\text{Xác suất} = \frac{\text{Số lần sự kiện xảy ra}}{\text{Tổng số lần quan sát}}\]

  1. Niềm tin (degree of belief, Bayesian): mức độ tin tưởng của người đánh giá về khả năng xảy ra của sự kiện.

1.3 Các khái niệm cơ bản

1.3.1 Phép thử ngẫu nhiên (random experiment)

Là một thử nghiệm mà chúng ta không biết trước kết quả cho đến khi nó thực sự diễn ra.

Ví dụ: tung đồng xu (không biết sẽ ra mặt sấp hay mặt ngửa), làm xét nghiệm cho một người (không biết là âm tính hay dương tính)

1.3.2 Không gian mẫu (sample space)

tập hợp chứa tất cả các kết quả có thể xảy ra của một phép thử ngẫu nhiên, mỗi kết quả liệt kê đúng một lần duy nhất. Không gian mẫu thường được kí hiệu là \(\Omega\).

Ví dụ: không gian mẫu của tung đồng xu là \(\Omega = \{ \text{sấp}, \text{ngửa} \}\)

Không gian mẫu là 1 tập hợp, nên có thể sử dụng các phép toán của tập hợp cho không gian mẫu (\(\cup\) hay \(\cap\)).

Có hai loại không gian mẫu:

  • Rời rạc (discrete): Là khi có “khoảng trống” giữa các giá trị. Ví dụ: 1, 2, 3…

  • Liên tục (continuous): Là khi không có khoảng trống giữa các giá trị. Ví dụ: \([0,1]\)

1.3.3 Điểm mẫu (sample point)

Là một phần tử của không gian mẫu.

Ví dụ: không gian mẫu của tung đồng xu là \(\Omega = \{ \text{sấp}, \text{ngửa} \}\) thì \(\{ \text{sấp} \}\) hoặc \(\{ \text{ngửa} \}\) là một điểm mẫu.

1.3.4 Kết quả (outcome)

Là điểm mẫu quan sát được, khi chúng ta cho thực hiện phép thử ngẫu nhiên.

1.3.5 Biến cố/Sự kiện (event)

Là một tập hợp con của không gian mẫu. Bất kỳ tập hợp nào chứa các kết quả đều tạo thành một biến cố.

Ví dụ: Tung một đồng xu hai lần. Không gian mẫu: \(\Omega = \{ SS, SN, NS, NN \}\).

Gọi biến cố \(A\) là “có đúng một mặt ngửa”, \(A = \{ SN, NS \}\).

\(A\) là một tập con của \(\Omega\) (\(A \subset \Omega\)).

Biến cố \(A\) được gọi là xảy ra (occurs) nếu chúng ta quan sát được một kết quả là phần tử của tập hợp \(A\).

1.3.6 Ví dụ

Phép thử ngẫu nhiên: “Tung một đồng xu hai lần”

Xác suất là con số thể hiện khả năng xảy ra của từng điểm mẫu hay biến cố trong \(\Omega\). Lưu ý: Xác suất luôn gắn liền với không gian mẫu. Xác suất sẽ thay đổi trong các không gian mẫu khác nhau.

NoteBài tập

Chọn ngẫu nhiên 3 bệnh nhân trong khu cách ly và xét nghiệm. Hãy mô tả các khái niệm đã học cho tình huống này:

  • Tên phép thử ngẫu nhiên là gì?
  • Không gian mẫu \(\Omega\) được viết như thế nào?
  • Tự định nghĩa 1 biến cố bất kỳ, biến cố này chứa những điểm mẫu nào?

1.4 Xác suất có điều kiện

Xác suất có điều kiện thực chất là thu nhỏ không gian mẫu.

Ví dụ, tại một ngôi trường có 3 lớp A, B, C với số lượng học sinh như sau:

Nam Nữ Tổng
Lớp A 30 10 40
Lớp B 20 20 40
Lớp C 15 25 40
Tổng 65 55 120

Chọn ngẫu nhiên 1 học sinh trong trường.

1. Xác suất không điều kiện

Tính xác suất học sinh này là Nữ?

Lúc này không gian mẫu là toàn bộ ngôi trường.

\[\mathbb{P}(\text{Nữ}) = \frac{\overbrace{55}^{\text{Tổng số Nữ toàn trường}}}{\underbrace{120}_{\text{Tổng số học sinh toàn trường}}} \approx 45.8\%\]

2. Xác suất có điều kiện

Biết rằng học sinh được chọn ở Lớp A. Tính xác suất học sinh này là Nữ?

Thông tin “Học sinh Lớp A” đã làm thu nhỏ không gian mẫu. Không gian mẫu lúc này chỉ là Học sinh lớp A thôi.

\[\mathbb{P}(\text{Nữ} \mid \text{Lớp A}) = \frac{\overbrace{10}^{\text{Số Nữ trong Lớp A}}}{\underbrace{40}_{\text{Tổng sĩ số Lớp A}}} = 25.0\%\]

1.5 Quan hệ giữa hai biến cố

1.5.1 Xung khắc (mutually exclusive)

Hai biến cố \(A\)\(B\) được gọi là xung khắc (mutually exclusive) khi không có điểm chung nào (\(A \cap B = \emptyset\)). Chúng không thể cùng xảy ra tại một thời điểm.

\[\mathbb{P}(A \cap B) = 0\]

Nếu \(A\) xảy ra thì chắc chắn \(B\) không xảy ra (và ngược lại).

\[\mathbb{P}(A \mid B) = 0\]

\[\mathbb{P}(B \mid A) = 0\]

1.5.2 Phụ thuộc (dependent)

Hai biến cố \(A\)\(B\) phụ thuộc nhau khi chúng có mối liên hệ với nhau (\(A \cap B \neq \emptyset\)). Việc biết biến cố này xảy ra sẽ làm thay đổi xác suất của biến cố kia.

\[\mathbb{P}(A \mid B) \neq \mathbb{P}(A)\]

\[\mathbb{P}(B \mid A) \neq \mathbb{P}(B)\]

Đây là trường hợp phổ biến nhất trong thực tế.

1.5.3 Độc lập (independent)

Hai biến cố \(A\)\(B\) độc lập nghĩa là việc biết \(B\) xảy ra không cung cấp thêm thông tin gì về khả năng xảy ra của \(A\) và ngược lại.

\[\mathbb{P}(A \mid B) = \mathbb{P}(A)\]

\[\mathbb{P}(B \mid A) = \mathbb{P}(B)\]

Quan hệ giữa hai biến cố có thể được minh họa bằng biểu đồ Venn như sau:

1.6 Các phép tính xác suất

1.6.1 Phép nhân (Và)

Xác suất để các biến cố cùng xảy ra đồng thời hoặc nối tiếp nhau (\(A\)\(B\)).

\[\mathbb{P}(A \cap B) = \mathbb{P}(A) \times \mathbb{P}(B|A)\]

(Xác suất \(A\) xảy ra, nhân với xác suất \(B\) xảy ra với điều kiện \(A\) đã xảy ra).

Khi hai biến cố là độc lập thì \(\mathbb{P}(B|A) = \mathbb{P}(B)\):

\[\mathbb{P}(A \cap B) = \mathbb{P}(A) \times \mathbb{P}(B)\]

1.6.2 Phép cộng (Hoặc)

Xác suất để ít nhất một trong các biến cố xảy ra (\(A\) hoặc \(B\))

\[\mathbb{P}(A \cup B) = \mathbb{P}(A) + \mathbb{P}(B) - \mathbb{P}(A \cap B)\]

(Tổng xác suất của \(A\)\(B\) trừ cho trường hợp chúng xảy ra cùng lúc).

Khi hai biến cố xung khắc (không thể xảy ra cùng lúc) thì \(\mathbb{P}(A \cap B) = 0\):

\[\mathbb{P}(A \cup B) = \mathbb{P}(A) + \mathbb{P}(B)\]

1.6.3 Phần bù (Không)

Xác suất để một biến cố không xảy ra.

\[\mathbb{P}(\bar{A}) = 1 - \mathbb{P}(A)\]

Chúng ta cũng có thể dùng biểu đồ Venn để minh họa các phép tính này:

1.6.4 Ứng dụng

1.7 Biến ngẫu nhiên

Trong các phép thử ngẫu nhiên, kết quả của không gian mẫu (\(\Omega\)) thường là những khái niệm mang tính mô tả.

Ví dụ:

  • Khi tung một đồng xu \(\Omega = \{\text{Sấp}, \text{Ngửa}\}\)

  • Khi làm một xét nghiệm \(\Omega = \{\text{Dương tính}, \text{Âm tính}\}\)

Về bản chất, hai ví dụ trên có chung đặc điểm là một phép thử có thể xảy ra hai trường hợp. Chúng ta có thể viết \(\Omega = \{0, 1\}\) để tổng quát hóa cả hai ví dụ trên.

Cái tên “Biến ngẫu nhiên” là một thuật ngữ lịch sử rất dễ gây hiểu lầm. Bản chất của nó không phải là một “biến” (như biến \(x\) trong phương trình đại số), và bản thân nó cũng không hề “ngẫu nhiên”.

Biến ngẫu nhiên một hàm số (function) có nhiệm vụ gán một số thực cho mỗi điểm mẫu trong không gian mẫu của một phép thử ngẫu nhiên.

\[X: \Omega \rightarrow \mathbb{R}\] Đo lường biến ngẫu nhiên

Biến ngẫu nhiên được chia thành 4 loại dựa theo loại phép tính được thực hiện mà không làm sai lệch ý nghĩa của dữ liệu (Stevens 1946; Daniel and Cross 2018).

Biến Phép toán cơ bản Ý nghĩa thống kê Ví dụ
Danh định (nominal) Xác định sự bằng nhau \(=, \ne\) Phân loại Giới tính, nhóm máu
Thứ bậc (ordinal) Xác định lớn hơn, nhỏ hơn \(>, <\) Xếp hạng Mức độ đau, thang Likert
Khoảng (interval) Xác định khoảng cách chênh lệch \(+, -\) Chênh lệch Nhiệt độ, điểm IQ
Tỉ số (ratio) Xác định gấp bao nhiêu lần \(\times, \div\) Gấp lần Số lượng bạch cầu, cân nặng, chiều cao

Thang đo cao hơn sẽ giữ lại tất cả đặc tính của thang đo thấp hơn và thêm vào đặc tính mới. Ví dụ: Khoảng thời gian là biến tỉ số, người A chạy mất 30 phút, người B chạy mất 10 phút:

  • 30 phút \(\neq\) 10 phút (danh định)
  • 30 phút \(>\) 10 phút (thứ bậc)
  • A chạy chậm hơn B 20 phút (khoảng)
  • A chạy chậm gấp 3 lần B (tỉ số)

Vì biến cấp cao hơn chứa mọi đặc tính của biến cấp thấp hơn, nên luôn có thể hạ cấp dữ liệu (biến đổi từ cao xuống thấp), nhưng không thể làm ngược lại.

Important

Luôn thu thập dữ liệu ở thang đo cao nhất có thể (tỉ số hoặc khoảng), vì từ thang cao có thể quy đổi xuống thấp tùy thích, nhưng không làm ngược lại được.

Ví dụ: Thu thập tuổi thay vì chia thành nhóm tuổi (0-5, 5-10, >10), hay danh định (trẻ em, người lớn).

1.8 Ứng dụng

Luật chơi:

  • Bàn cược có 6 ô: Bầu, Cua, Tôm, Cá, Gà, Nai.
  • Người chơi đặt tiền vào một hoặc nhiều ô dự đoán, nhà cái lắc 3 viên xí ngầu
  • Trả thưởng:
    • Ô đã chọn không xuất hiện: mất tiền cược
    • Xuất hiện 1 lần: hoàn vốn + thưởng x1
    • Xuất hiện 2 lần: hoàn vốn + thưởng x2
    • Xuất hiện 3 lần: hoàn vốn + thưởng x3
NoteCâu hỏi
  1. Đây có phải 1 trò chơi công bằng không? Tại sao?

  2. Nếu bắt đầu với 1 triệu đồng, mỗi ván cược 50K, thì sau bao nhiêu ván bạn sẽ mất toàn bộ 1 triệu hoặc thu được thêm 1 triệu đem về?

  3. Nếu nhà cái muốn thu hút người chơi hơn bằng cách tăng thưởng: Khi ra 3 con vật giống nhau, thay vì trả 1:3, nhà cái trả 1:10. Hỏi nhà cái có bị lỗ không?