2  Phân phối xác suất

2.1 Định nghĩa

Phân phối xác suất (probability distribution) là một hàm số (function) thể hiện xác suất của mọi biến cố (tập hợp con) nằm trong không gian mẫu \(\Omega\).

Phân phối xác suất thỏa 3 điều kiện sau:

  • \(\mathbb{P}(\Omega) = 1\)

  • \(0 \leq \mathbb{P}(A) \leq 1\) với mọi biến cố \(A\)

  • Nếu các biến cố \(A_1\), \(A_2\), …, \(A_n\) xung khắc, thì:

\[\mathbb{P}(A_1 \cup A_2 \cup \cdots \cup A_n) = \mathbb{P}(A_1) + \mathbb{P}(A_2) + \cdots + \mathbb{P}(A_n)\]

Trong thực tế ứng dụng, để tổng quát hóa, phân phối xác suất thường được hiểu là hàm số để tính xác suất của biến ngẫu nhiên. Mỗi biến ngẫu nhiên có một phân phối xác suất. Do có 2 loại biến rời rạc và liên tục, nên phân phối xác suất cũng được phân loại thành phân phối rời rạc và liên tục tương ứng.

2.2 Các hàm phân phối xác suất

2.2.1 Hàm khối/mật độ xác suất

Là một hàm số để tính xác suất cho từng giá trị của biến ngẫu nhiên. Hàm này có hai thành phần:

\[f(\underbrace{X = x}_{\text{Giá trị biến ngẫu nhiên}} \mid \underbrace{\theta}_{\text{Tham số}})\]

  1. Giá trị của biến ngẫu nhiên: nằm trên trục hoành của đồ thị

  2. Tham số: là một hoặc nhiều yếu tố quy định xác suất của các giá trị của biến ngẫu nhiên

Với biến rời rạc thì gọi là hàm khối xác suất (probability mass function, pmf). Với biến liên tục thì gọi là hàm mật độ xác suất (probability density function, pdf).

Ví dụ: Hàm khối xác suất của phân phối nhị thức được viết như sau

\[f(\underbrace{X = k}_{\text{Giá trị biến ngẫu nhiên}} \mid \underbrace{n, p}_{\text{Tham số}}) = \binom{n}{k} p^k (1-p)^{n-k}\]

Phân phối nhị thức dùng để đếm số lần thành công trong một số lượng cố định các phép thử Bernoulli độc lập.

Nếu phép thử là tung một đồng xu 10 lần, chúng ta quan tâm có bao nhiêu lần ra mặt ngửa. Hai thành phần của hàm pmf này là:

  1. Giá trị của biến ngẫu nhiên (\(k\)): là số lần ra mặt ngửa mà ta muốn tính xác suất. \(k\) có thể có các giá trị từ 0 đến 10.

  2. Tham số: có 2 yếu tố quy định xác suất của các giá trị \(k\)

  • Tổng số lần tung đồng xu (\(n = 10\)): vì tổng xác suất luôn bằng 1, càng tung đồng xu nhiều lần thì xác suất để xảy ra mỗi trường hợp nhất định sẽ nhỏ đi
  • Xác suất ra mặt ngửa của mỗi lần tung đồng xu \(p = 0.5\): vì khả năng mỗi lần ra mặt ngửa càng lớn thì tổng số mặt ngửa \(k\) ra càng nhiều và ngược lại

Chúng ta gắn các tham số \(n\)\(p\) mà mình muốn vào hàm pmf. Sau đó lần lượt gắn \(k = 0, 1, 2...\) vào để tính ra xác suất của từng giá trị của biến ngẫu nhiên.

2.2.2 Hàm phân phối tích lũy

Là một hàm số để tính tổng xác suất cộng dồn từ giá trị nhỏ nhất có thể có cho đến một giá trị giới hạn của biến ngẫu nhiên. Hàm phân phối tích lũy (cumulative distribution function, cdf, kí hiệu là \(F(x)\)) cũng có hai thành phần giống với hàm pmf/pdf:

\[F(\underbrace{X \le x}_{\text{Giá trị biến ngẫu nhiên}} \mid \underbrace{\theta}_{\text{Tham số}})\]

Hàm cdf đơn giản là phép cộng dồn tất cả các xác suất của pmf/pdf, từ đầu đến giá trị giới hạn \(x\).

Với biến rời rạc, cdf được tính bằng tổng (\(\sum\)) của pmf:

\[F(x) = \mathbb{P}(X \le x) = \sum_{x_i \le x} f(x_i)\]

Với biến liên tục, cdf được tính bằng tích phân (\(\int\)) của pdf:

\[F(x) = \mathbb{P}(X \le x) = \int_{-\infty}^{x} f(t) \, dt\]

Khi lấy đạo hàm bậc nhất của cdf thì chúng ta có pdf:

\[F'(x) = f(x)\]

2.2.3 Hàm phân vị

Hàm phân vị (quantile function, kí hiệu là \(Q(p)\)) là hàm ngược của hàm phân phối tích lũy (cdf).

Sử dụng cùng một đường cong được định hình bởi tham số \(\theta\):

Ta dùng cdf để tìm xác suất cộng dồn \(p\) khi đã biết mốc giá trị \(x\):

\[\underbrace{p}_{\text{Xác suất cần tìm}} = F(\underbrace{x}_{\text{Đầu vào giá trị}} \mid \underbrace{\theta}_{\text{Tham số}})\]

Ngược lại, ta dùng hàm phân vị để tìm mốc giá trị \(x\) nhằm đạt được một xác suất mục tiêu \(p\) cho trước:

\[\underbrace{x}_{\text{Mốc giá trị cần tìm}} = Q(\underbrace{p}_{\text{Đầu vào xác suất}} \mid \underbrace{\theta}_{\text{Tham số}})\]

Giá trị \(1.96\) trong công thức tính khoảng tin cậy 95% \(\text{Ước lượng} \pm 1.96 \times \text{Sai số chuẩn (SE)}\) là mốc giá trị tính được từ hàm phân vị trên phân phối chuẩn tắc (standard normal distribution, là phân phối chuẩn với trung bình \(\mu = 0\) và độ lệch chuẩn \(\sigma = 1\)).

2.2.4 Hệ thống hàm phân phối xác suất trong R

Ngôn ngữ R viết các hàm này theo quy luật:

[Tiền tố] + [Tên phân phối]

Tiền tố (Chức năng) Tên phân phối (Viết tắt) Ví dụ ghép hàm trong R
d: pmf/pdf binom: Nhị thức dbinom(), pbinom(), qbinom()
p: cdf norm: Chuẩn dnorm(), pnorm(), qnorm()
q: quantile gamma: Gamma dgamma(), pgamma(), qgamma()

Bài tập:

Giả sử cân nặng của trẻ sơ sinh đủ tháng tại một quần thể tuân theo phân phối chuẩn với trung bình (\(\mu\)) là 3200 gram và độ lệch chuẩn (\(\sigma\)) là 400 gram.

  • Dùng hàm nào trong R để lấy giá trị 1.96 từ phân phối chuẩn tắc khi tính khoảng tin cậy 95%?

  • Dùng R để tính giá trị khoảng tin cậy 95% cân nặng trẻ sơ sinh của quần thể này

  • Tính tỷ lệ trẻ sinh ra bị xếp vào nhóm nhẹ cân (từ 2500 gram trở xuống)

2.2.5 Ứng dụng

Quyết định số ngày cách ly COVID-19

Tại sao trong thời gian đại dịch, chúng ta cách ly các ca tiếp xúc hoặc nhập cảnh trong 14 ngày? Phương pháp để tính ra con số này là sử dụng hàm phân vị dựa trên phân phối thời gian ủ bệnh. Thời gian cách ly là khoảng thời gian đủ dài để 99% người nhiễm virus bộc lộ triệu chứng.

Thời gian ủ bệnh (incubation period) của SARS-CoV-2 là một biến ngẫu nhiên thường được ước lượng bằng phân phối Gamma. Dựa theo bài báo của tác giả Backer cùng cộng sự, thời gian ủ bệnh khi được ước lượng bằng phân phối Gamma có trung bình \(\mu = 6.5\) và độ lệch chuẩn \(\sigma = 2.6\) (Backer, Klinkenberg, and Wallinga 2020).

Bài tập:

Hãy dùng các biểu đồ pdf và cdf bên dưới để tái hiện lại kết quả của các tác giả đã viết trong bài báo:

  • Nhập các giá trị tham số shape và rate phù hợp với phân phối thời gian ủ bệnh được báo cáo trong bài

  • Kéo thanh phân vị đến các mốc 95%, 97.5%, 99% và so sánh với kết quả trong bài báo

  • Dùng hàm qgamma trong R để kiểm tra kết quả

NoteGợi ý

Phân phối Gamma có hai tham số là shape và rate có thể được tính từ giá trị trung bình và độ lệch chuẩn theo công thức:

  • Shape: \(\alpha = \frac{\mu^2}{\sigma^2}\)
  • Rate: \(\beta = \frac{\mu}{\sigma^2}\)

Một số ứng dụng khác trong y tế công cộng:

  • Thời gian để công bố hết dịch của một số bệnh như Ebola, sốt Lassa… được WHO xác định là không có ca mới sau “2 lần thời gian ủ bệnh tối đa” (Djaafara et al. 2020)

  • Ngưỡng cảnh báo dịch là \(Q(0.95 \text{ hoặc } 0.99 \mid \theta)\) của phân phối số ca theo dữ liệu lịch sử

2.3 Moment

Hình dạng của một phân phối được xác định bởi các giá trị gọi là moment. Thuật ngữ này được mượn từ vật lý: mô-men (hay mô-men lực) là đại lượng đo khả năng làm quay của một lực quanh một điểm tựa.

Trong vật lý, moment (\(M\)) được tính bằng:

\[M = \underbrace{d}_{\text{Khoảng cách đến điểm tựa}} \times \underbrace{F}_{\text{Lực tác dụng}}\]

Trong thống kê, hãy tưởng tượng trục số như một cái bập bênh. Mỗi giá trị \(x\) là một vị trí trên thanh đòn, và “sức nặng” tại điểm đó chính là xác suất xảy ra của nó. Khi đó, ta thấy sự tương đồng với moment trong vật lý:

  • Lực (\(F\)): Tương ứng với Xác suất \(f(x)\) (hoặc \(\mathbb{P}(X=x)\)). Giá trị nào có xác suất càng cao thì “lực” đè xuống càng nặng.

  • Khoảng cách đến điểm tựa (\(d\)): Tương ứng với \((x - a)\) là khoảng cách từ giá trị dữ liệu \(x\) tới một điểm mốc \(a\) (ví dụ: gốc 0 hoặc giá trị trung bình).

Tổng hợp lại, moment chính là tổng (hoặc tích phân) của các tích số giữa khoảng cách và xác suất. Trong ngôn ngữ thống kê, phép tổng có trọng số này chính là Kỳ vọng (\(E\)).

Công thức moment bậc \(n\) quanh điểm \(a\) được viết là:

\[E[(X - a)^n] = \begin{cases} \sum \underbrace{(x_i - a)^n}_{\text{Khoảng cách đến điểm tựa}} \overbrace{\mathbb{P}(x_i)}^{\text{Lực tác dụng}} & \text{(Rời rạc)} \\ \int_{-\infty}^{\infty} \underbrace{(x - a)^n}_{\text{Khoảng cách đến điểm tựa}} \overbrace{f(x)}^{\text{Lực tác dụng}} dx & \text{(Liên tục)} \end{cases}\]

Important

Ký hiệu \(E[g(X)]\) chính là định nghĩa toán học của việc lấy giá trị \(g(X)\) nhân với xác suất rồi cộng lại. Bất cứ khi nào thấy “Lấy một giá trị, nhân với xác suất của nó, rồi cộng hết lại”, thì đó chính là Kỳ vọng (\(E\)).

Một cách tổng quát, với một biến ngẫu nhiên \(X\), moment bậc \(n\) quanh điểm \(a\) (the \(n\)-th moment about \(a\)) là:

\[E[(X - a)^n]\]

Có 2 loại moment:

  • Moment gốc (raw moment, lấy mốc là điểm 0): khi \(a = 0\), moment là \(E[X^n]\).
  • Moment tập trung (central moment, lấy mốc là giá trị trung bình): khi \(a = E[X]\), moment là \(E[(X - E[X])^n]\).

Bậc của moment có thể từ 0 đến \(\infty\). Chúng ta thường quan tâm tới 4 loại moment sau:

Loại moment Kí hiệu Tên thường gọi Ý nghĩa
Gốc bậc 1 \(E[X]\) Trung bình (Mean) Vị trí (tâm của phân phối)
Tập trung bậc 2 \(E[(X - E[X])^2]\) Phương sai (Variance) Độ phân tán (dữ liệu biến động thế nào)
Tập trung bậc 3 \(E[(X - E[X])^3]\) Độ lệch (Skewness)* Tính bất đối xứng (bên nào có đuôi dài hơn)
Tập trung bậc 4 \(E[(X - E[X])^4]\) Độ nhọn (Kurtosis)* Độ dày của đuôi

*Độ lệch và Độ nhọn thường được chuẩn hóa (standardised) bằng cách chia cho độ lệch chuẩn \(\sigma\), ý nghĩa là gấp bao nhiêu lần độ lệch chuẩn.

2.3.1 Moment gốc bậc 1

Cho biết vị trí trọng tâm của phân phối nằm ở đâu so với điểm 0.

\[E[X] = \frac{\sum^N_{i = 1}x_i}{N} = \sum^N_{i = 1}x_i \mathbb{P}(x_i)\]

2.3.2 Moment tập trung bậc 2

Cho biết khoảng cách của từng giá trị trong phân phối so với giá trị trung bình. Phép bình phương giúp ngăn chặn các độ lệch âm và dương triệt tiêu lẫn nhau.

\[E[(X - E[X])^2] = E[X^2] - (E[X])^2\]

2.3.3 Moment tập trung bậc 3

Thường được gọi là Độ lệch (Skewness). Nó phản ánh sự không đối xứng.

\[E\left[\left(\frac{X - E[X]}{\sigma}\right)^3\right]\]

Lũy thừa bậc 3 giữ nguyên dấu (số âm mũ 3 vẫn là âm)

2.3.4 Moment tập trung bậc 4

Thường được gọi là Độ nhọn (Kurtosis). Tên gọi này bắt nguồn từ tiếng Hy Lạp: κυρτός - kyrtos, nghĩa là “cong, vòm”.

\[E\left[\left(\frac{X - E[X]}{\sigma}\right)^4\right]\]

Lũy thừa bậc 4 làm cho những giá trị nhỏ (gần trung bình) trở nên siêu nhỏ, và những giá trị lớn (xa trung bình - outliers) trở nên lớn hơn nhiều lần. Moment này càng lớn thì đuôi của phân phối càng dày, nghĩa là xác suất xảy ra các sự kiện cực đoan càng lớn.

2.3.5 Ứng dụng

Một số kiểm định phân phối chuẩn đánh giá hình dáng dữ liệu thông qua độ lệch \(S\) và độ nhọn \(K\). Theo lý thuyết, phân phối chuẩn có độ lệch bằng 0 và độ nhọn bằng 3. Kiểm định Jarque-Bera (JB) sử dụng công thức sau để đo lường xem sự xê dịch của hai đại lượng này so với mức chuẩn có nằm trong mức độ chấp nhận được hay không:

\[JB = \frac{n}{6} \left( S^2 + \frac{(K-3)^2}{4} \right)\]

Chỉ số JB càng lớn nghĩa là độ lệch và độ nhọn càng không chuẩn. Chỉ số này tuân theo phân phối Chi bình phương (\(\chi^2\)) với 2 độ tự do. Chúng ta có thể xem cách nó hoạt động ở hình sau:

Một ứng dụng khác của moments là phương pháp “method of moments” dùng để xác định điểm bắt đầu của tham số ước lượng khi chúng ta sử dụng maximum likelihood estimation (Bolker 2008). Sẽ được hướng dẫn chi tiết và áp dụng ở bài likelihood.