7  Bayesian

7.1 Định lý Bayes

Trong ví dụ chọn ngẫu nhiên 1 học sinh trong trường, chúng ta có hai câu hỏi trái ngược nhau:

  • Nếu đã biết là học sinh Lớp A, xác suất đó là Nữ là bao nhiêu?

\[\begin{aligned} \mathbb{P}(\text{Nữ} \mid \text{Lớp A}) &= \frac{\text{Số Nữ trong Lớp A}}{\text{Tổng sĩ số Lớp A}} \\[10pt] \Leftrightarrow \text{Số Nữ trong Lớp A} &= \mathbb{P}(\text{Nữ} \mid \text{Lớp A}) \times \text{Tổng sĩ số Lớp A} \quad (1) \end{aligned}\]

  • Nếu đã biết là Nữ, xác suất đó là học sinh Lớp A là bao nhiêu?

\[\begin{aligned} \mathbb{P}(\text{Lớp A} \mid \text{Nữ}) &= \frac{\text{Số Nữ trong Lớp A}}{\text{Tổng số Nữ toàn trường}} \\[10pt] \Leftrightarrow \text{Số Nữ trong Lớp A} &= \mathbb{P}(\text{Lớp A} \mid \text{Nữ}) \times \text{Tổng số Nữ toàn trường} \quad (2) \end{aligned}\]

Từ \((1)\)\((2)\) ta thấy vế trái đều là \(\text{Số Nữ trong Lớp A}\), vậy:

\[\begin{aligned} \mathbb{P}(\text{Lớp A} \mid \text{Nữ}) \times \text{Tổng Nữ} &= \mathbb{P}(\text{Nữ} \mid \text{Lớp A}) \times \text{Tổng Lớp A} \\[10pt] \Leftrightarrow \mathbb{P}(\text{Lớp A} \mid \text{Nữ}) &= \frac{\mathbb{P}(\text{Nữ} \mid \text{Lớp A}) \times \text{Tổng Lớp A}}{\text{Tổng Nữ}} \end{aligned}\]

Chia cả Tử số và Mẫu số cho Tổng số học sinh toàn trường:

\[\begin{aligned} \mathbb{P}(\text{Lớp A} \mid \text{Nữ}) &= \frac{\mathbb{P}(\text{Nữ} \mid \text{Lớp A}) \times \text{Tổng Lớp A}}{\text{Tổng Nữ}} \\ &= \frac{\mathbb{P}(\text{Nữ} \mid \text{Lớp A}) \times \frac{\text{Tổng Lớp A}}{\text{Tổng HS}}}{\frac{\text{Tổng Nữ}}{\text{Tổng HS}}} \\ &= \frac{\mathbb{P}(\text{Nữ} \mid \text{Lớp A}) \times \mathbb{P}(\text{Lớp A})}{\mathbb{P}(\text{Nữ})} \quad (3) \end{aligned}\]

Đặt \(A = \text{Lớp A}\), \(B = \text{Nữ}\). Thay vào \((3)\), ta có Định lý Bayes:

\[\mathbb{P}(A \mid B) = \frac{\mathbb{P}(B \mid A) \times \mathbb{P}(A)}{\mathbb{P}(B)}\]

7.2 Ví dụ

Bạn đang muốn tìm một đối tượng để hẹn hò nghiêm túc. Bạn có 2 ứng viên mập mờ tiềm năng: A và B. Bạn cần quyết định chọn ai trong 2 người để thực sự nghiêm túc.

Trước khi đi hẹn hò, bạn đã có sẵn một thiên kiến ban đầu. Có thể bạn hơi nghiêng về A vì cả hai có nhiều sở thích chung hơn, hoặc có thể bạn hoàn toàn trung lập.

  • Hãy hình dung một hình vuông lớn đại diện cho 100% niềm tin của bạn
  • Hình vuông này được chia làm 2 phần, bên trái dành cho A bên phải dành cho B
  • Chiều rộng của mỗi ô là thiên kiến ban đầu, trong thống kê Bayesian gọi là Xác suất tiên nghiệm (Prior) của bạn đối với mỗi người

Bạn quyết định đi date với từng người để thu thập dữ liệu thực tế. Sau khi đi date, bạn chấm điểm buổi date đó.

  • Phần được tô màu là điểm buổi date của từng người, trong thống kê Bayesian gọi là Hàm khả năng (Likelihood)

Sau khi đã đi date với từng người, bạn muốn tính xác suất mình nên chọn A \(\mathbb{P}(A|Date)\)

  • Tư duy Bayes: Chúng ta so sánh Diện tích tô màu của A so với B. Đây là Xác suất hậu nghiệm (Posterior).

Biểu đồ này được tạo theo phương pháp trong video Bayes theorem, the geometry of changing beliefs của kênh 3Blue1Brown.

7.3 Ứng dụng

Giả sử một bệnh nhân nhận kết quả xét nghiệm dương tính với một căn bệnh. Các thông số của xét nghiệm như sau:

  • Độ nhạy (Sensitivity): 95%
  • Độ đặc hiệu (Specificity): 90%
  • Tỉ lệ hiện mắc: Căn bệnh này chiếm 10% dân số

Xác suất thực sự người đó bị bệnh khi cầm kết quả dương tính \(\mathbb{P}(B|D)\) là bao nhiêu?

Cách khác để đặt câu hỏi này là: Trong số những người cầm tờ giấy xét nghiệm Dương tính, có bao nhiêu phần trăm là Dương tính thật? Để trả lời, ta cần tìm Tổng diện tích Dương tính, rồi lấy Diện tích Dương tính thật chia cho tổng số đó.

Chúng ta sẽ áp dụng phương pháp “Hình vuông niềm tin” để giải quyết:

  • Hãy hình dung một hình vuông lớn đại diện cho 100% dân số
  • Hình vuông này được chia làm 2 phần, bên trái là tỉ lệ người bệnh trong dân số, bên phải là tỉ lệ người không bệnh
  • Trong cột người bệnh, độ nhạy là 95%, tô màu 95% chiều cao của cột này, đây là phần dương tính thật, diện tích là \(0.10 \times 0.95 = 0.095\)
  • Trong cột người không bệnh, độ đặc hiệu là 90%, tô màu 10% chiều cao của cột này, đây là phần dương tính giả, diện tích là \(0.90 \times 0.10 = 0.09\)

Bây giờ, hãy nhìn vào toàn bộ phần được tô màu trên hình vuông.

  • Tổng diện tích màu (tổng dương tính) là \(0.095 \text{ (Thật)} + 0.09 \text{ (Giả)} = 0.185\)
  • Phần bị chiếm bởi dương tính thật chính là xác suất thực sự mắc bệnh khi có kết quả dương tính

7.4 Xấp xỉ lưới

Chúng ta đã

7.5 Markov chain Monte Carlo