3  Phân phối rời rạc

3.1 Phép thử Bernoulli (Bernoulli trial, hay binomial trial)

Là một lần thử nghiệm duy nhất, không gian mẫu chỉ có đúng 2 kết quả: Thành công (Success) hoặc Thất bại (Failure)

Ví dụ: tung đồng xu (mặt sấp, mặt ngửa), xét nghiệm một ca nghi ngờ (dương tính, âm tính)

Khi ta thực hiện phép thử Bernoulli nhiều lần liên tiếp (ví dụ: tung một đồng xu nhiều lần, dùng một loại xét nghiệm để test nhiều người), ta đang thực hiện 1 chuỗi Bernoulli (Bernoulli process). Chuỗi Bernoulli chuẩn cần thỏa 2 điều kiện:

  • Độc lập (Independent): Kết quả của lần thử này không ảnh hưởng đến lần thử khác.
  • Xác suất không đổi: Xác suất thành công (\(p\)) phải giống hệt nhau ở mọi lần thử.

Hầu hết các phân phối rời rạc đều xuất phát từ chuỗi Bernoulli với các mục tiêu khác nhau.

3.2 Đếm số lần thành công

Chúng ta xác định trước cỡ mẫu (\(n\) phép thử), sau đó đếm số biến cố mục tiêu thu được (\(k\) ca thành công). Nếu lấy \(\frac{k}{n}\) ta được tỉ lệ. Vì vậy các loại phân phối với mục tiêu này có thể được dùng để ước lượng tỉ lệ trong quần thể.

Hai phân phối đại diện cho nhóm này là Nhị thức (Binomial) và Siêu bội (Hypergeometric). Xét bài toán: Thực hiện một khảo sát ngẫu nhiên để ước lượng tỷ lệ tiêm chủng trong dân số:

  • Phân phối Siêu bội: Quần thể mục tiêu có quy mô xác định là \(N\) người, trong đó có \(K\) người đã tiêm chủng. Chúng ta tiến hành chọn mẫu khảo sát \(n\) người.

  • Phân phối Nhị thức: Quy mô quần thể là vô hạn (hoặc rất lớn). Giả định tỷ lệ tiêm chủng chung trong quần thể là \(p\), tương đương với xác suất chọn ngẫu nhiên được một người đã tiêm chủng là \(p\). Chúng ta tiến hành chọn mẫu khảo sát \(n\) người.

3.2.1 Phân phối Nhị thức (Binomial distribution)

Đếm số lần thành công (\(k\)) trong một số lượng cố định các phép thử Bernoulli độc lập (\(n\)).

Xác suất để đạt được đúng \(k\) lần thành công là:

\[\mathbb{P}(X = k) = \binom{n}{k} p^k (1-p)^{n-k}\]

Với:

  • \(n\): Tổng số lần thực hiện phép thử
  • \(p\): Xác suất thành công của mỗi lần thử (không đổi)
NoteGiải thích

\[\underbrace{\binom{n}{k}}_{\text{Số cách chọn}} \cdot \underbrace{p^k}_{k \text{ lần thành công}} \cdot \underbrace{(1-p)^{n-k}}_{n-k \text{ lần thất bại}}\]

3.2.1.1 Bảng Galton

Bảng Galton (Galton board) là một tấm bảng dựng đứng, được đóng các hàng đinh so le nhau theo hình tam giác. Ta thả những viên bi nhỏ từ đỉnh tháp. Khi một viên bi chạm vào một chiếc đinh, nó sẽ nảy sang trái hoặc sang phải. Sau khi đi hết các hàng đinh, viên bi sẽ rơi vào các ô chứa để hứng bi. Số lượng bi trong các ô chứa này tuân theo phân phối Nhị thức.

Tại sao lại là phân phối Nhị thức?

  • Mỗi lần viên bi chạm vào chiếc đinh, có hai trường hợp xảy ra: viên bi sẽ nảy sang trái hoặc sang phải, xác suất nảy sang mỗi bên là \(p = 0.5\), giống như tung đồng xu. Đây là một phép thử Bernoulli.
  • Nếu bảng có 10 hàng đinh, viên bi sẽ thực hiện chuỗi Bernoulli có 10 phép thử liên tiếp.
  • Các ô chứa tương ứng với số lần viên bi nảy về bên phải. Để vào ô giữa, viên bi phải nảy sang bên phải 5 lần (và bên trái 5 lần), để vào ô cuối cùng, viên bi phải nảy sang bên phải 10 lần (và bên trái 0 lần).

3.2.2 Phân phối Siêu bội (Hypergeometric distribution)

Nếu phân phối Nhị thức là việc tung đồng xu, thì Phân phối Siêu bội giống như việc chia bài.

Tình huống: Bạn có bộ bài 52 lá, trong đó có 4 lá Át. Bạn rút 10 lá và hỏi “Tôi rút được bao nhiêu lá Át?”.

Luật chơi:

  • Số lần thử cố định (\(n\))
  • Các lần thử phụ thuộc nhau
  • Lấy mẫu không hoàn lại từ một quần thể hữu hạn (\(N\))

Khi bạn rút được một lá Át ra khỏi bộ bài và giữ nó lại, xác suất rút được lá Át tiếp theo sẽ thay đổi (vì trong bộ bài giờ đây thiếu mất 1 lá Át và tổng số lá cũng giảm đi 1). Đây là đặc trưng của việc lấy mẫu không hoàn lại.

Phân phối Siêu bội mô tả xác suất lấy được đúng \(k\) phần tử thành công trong \(n\) lần lấy mẫu từ một quần thể hữu hạn gồm \(N\) phần tử, mà không có sự thay thế (không hoàn lại).

\[\mathbb{P}(X=k) = \frac{\binom{K}{k} \binom{N-K}{n-k}}{\binom{N}{n}}\]

  • \(N\): Tổng kích thước quần thể (Ví dụ: 52 lá bài)
  • \(n\): Kích thước mẫu lấy ra (Ví dụ: Rút 5 lá trên tay)
  • \(K\): Tổng số phần tử thành công có trong quần thể (Ví dụ: 4 lá Át)
  • \(k\): Số lượng thành công mong muốn trong mẫu (Ví dụ: Muốn có đúng 2 lá Át)
  • \(N-K\): Số lượng phần tử thất bại trong quần thể (Ví dụ: 48 lá bài còn lại)
  • \(n-k\): Số lượng thất bại phải lấy trong mẫu (Ví dụ: 3 lá còn lại trong tay phải là lá thường).
NoteGiải thích

\[\frac{ \overbrace{\binom{K}{k}}^{\text{Chọn } k \text{ thành công}} \cdot \overbrace{\binom{N-K}{n-k}}^{\text{Chọn } n-k \text{ thất bại}} }{ \underbrace{\binom{N}{n}}_{\text{Tổng số cách chọn ra } n \text{ mẫu}} }\]

3.3 Đếm số lần thử

Chúng ta quyết định trước phần thưởng mình muốn đạt được (\(k\) thành công), và đếm xem phải tốn bao nhiêu công sức (\(n\) lần thử) để đạt được nó. Nhánh này mô hình hóa sự “kiên trì” hoặc “sức chịu đựng”.

3.3.1 Phân phối hình học (geometric distribution)

Tình huống: Một gia đình phong kiến trọng nam khinh nữ muốn có một đứa con trai, họ cứ sinh con cho đến khi có con trai thì thôi

Câu hỏi: Họ phải sinh bao nhiêu con cho đến khi có con trai?

Đặc tính: Không có bộ nhớ (Memoryless). Dù đã sinh 10 con gái liên tiếp, xác suất đứa tiếp theo là trai vẫn y như lúc bắt đầu.

3.3.2 Phân phối Nhị thức âm (negative binomial distribution)

Tình huống: Gia đình phong kiến đã sinh được con trai nhưng vẫn muốn có con trai nữa, thầy bói nói nhà phải có 3 đứa con trai mới giàu được

Câu hỏi: Họ sẽ sinh bao nhiêu con trước khi có được đứa con trai thứ 3?

Về lý thuyết, đây là tổng của \(k\) biến thuộc phân phối hình học.

Trong sinh học thực tế (ví dụ: đếm số ký sinh trùng, ấu trùng muỗi), phương sai thường lớn hơn trung bình rất nhiều (do hiện tượng tụ đám/clumping). Phân phối Nhị thức Âm khớp với kiểu dữ liệu này tốt hơn nhiều so với Poisson hay Nhị thức.

3.4 Đếm sự kiện khi biết tốc độ trung bình

3.4.1 Phân phối Poisson

Khác với những phân phối kể trên, phân phối Poisson không dựa trên chuỗi Bernoulli, mà dựa trên quá trình Poisson (Poisson process).

Quá trình Poisson là 1 cơ chế xảy ra biến cố với các điều kiện:

  • Các biến cố xảy ra độc lập nhau (independent): biến cố này xảy ra không ảnh hưởng đến xác suất xảy ra của biến cố tiếp theo
  • Các biến cố xảy ra với 1 tốc độ trung bình không đổi: Số lượng sự kiện trung bình trên một đơn vị thời gian là hằng số (ví dụ: trung bình có 5 chiếc xe chạy trên con đường này mỗi giờ)
  • Các biến cố không xảy ra cùng 1 lúc

Phân phối Poisson dùng để đếm số lượng biến cố ngẫu nhiên xảy ra trong 1 khoảng thời gian cố định (với điều kiện \(\lambda\) không thay đổi trong khoảng thời gian này) của quá trình Poisson.

\[P(X=k) = \frac{e^{-\lambda} \lambda^k}{k!}\]

Trong đó:

  • \(\lambda\): Tốc độ trung bình (kỳ vọng) số sự kiện trong khoảng thời gian đó.
  • \(k\): Số sự kiện muốn tính xác suất.

3.4.2 Ví dụ

Tại một phòng cấp cứu, trung bình cứ 1 giờ lại có 3 bệnh nhân đến khám (\(\lambda = 3\)). Xác suất để trong 1 giờ tới có chính xác 5 ca đến khám là bao nhiêu?

Áp dụng công thức với \(\lambda = 3\)\(k = 5\):

\[P(X=5) = \frac{e^{-3} \cdot 3^5}{5!} = \frac{0.0498 \times 243}{120} \approx 0.1008 \quad (\approx 10\%)\]

Poisson là giới hạn của Nhị thức khi \(n \to \infty\) và xác suất thành công \(p \to 0\), sao cho \(np = \lambda\)

Hãy tưởng tượng bạn đang ngồi đợi tin nhắn điện thoại trong 1 giờ. Dựa vào kinh nghiệm, trung bình bạn nhận được \(\lambda = 5\) tin nhắn/giờ. Xác suất trong 1 giờ tới bạn chỉ nhận được 2 tin nhắn là bao nhiêu?

  • Bạn chia 1 giờ thành 60 phút. Mỗi phút là một phép thử Bernoulli (có tin nhắn/không tin nhắn). Bạn có \(n = 60\) phép thử liên tiếp.
  • Bạn chia nhỏ thời gian ra nữa. Lúc này số phép thử \(n\) trở nên vô cùng lớn, và xác suất có tin nhắn trong một khoảnh khắc siêu nhỏ (\(p\)) trở nên vô cùng nhỏ. Càng chia nhỏ, bạn sẽ thấy phân phối nhị thức càng gần với Poisson.

3.5 Ứng dụng

Dữ liệu dạng đếm (ví dụ: số ca bệnh trong 1 tuần):

  • Poisson
  • Negative binomial

Dữ liệu là tỉ lệ:

Các phân phối phức tạp có thể được tạo ra bằng cách cộng các phân phối đơn giản:

Nếu cộng Sẽ có Điều kiện
Nhiều Bernoulli Nhị thức Cùng \(p\).
Nhiều Nhị thức Nhị thức \(X+Y \sim \text{Bin}(n+m, p)\)
Nhiều Hình học Nhị thức âm Chờ \(k\) thành công thực chất là chờ 1 thành công, lặp lại \(k\) lần
Nhiều Nhị thức âm Nhị thức âm \(X+Y \sim \text{NB}(r_1+r_2, p)\)
Nhiều Poisson Poisson \(X+Y \sim \text{Pois}(\lambda_1 + \lambda_2)\)