Giới thiệu Tính cỡ mẫu cho Hồi quy Logistic

Trong các nghiên cứu mà biến phụ thuộc là nhị phân (ví dụ: có bệnh/không bệnh, đạt/không đạt), hồi quy logistic được sử dụng để mô hình hóa xác suất xảy ra của sự kiện. Tính cỡ mẫu phù hợp cho hồi quy logistic giúp đảm bảo kết quả có độ tin cậy thống kê (power) và mô hình ước lượng ổn định.

Có hai phương pháp phổ biến (và một quy tắc kinh nghiệm):

1. Phương pháp Xấp xỉ Hsieh et al. (1989)

Phương pháp này cung cấp một công thức xấp xỉ cho cỡ mẫu cần thiết để phát hiện một hệ số hồi quy $\beta_1$ khác 0 trong mô hình hồi quy logistic đơn biến:

$$\text{logit}(p) = \beta_0 + \beta_1 X$$

Trong đó:

Công thức xấp xỉ của Hsieh

Công thức sẽ khác nhau tùy thuộc vào biến độc lập $X$ là nhị phân hay liên tục.

Trường hợp 1: Biến độc lập $X$ là nhị phân (Binary)

Áp dụng khi $X$ chỉ có hai giá trị (ví dụ: có/không, nhóm can thiệp/nhóm chứng).

$$N = \frac{(Z_{1-\alpha/2} + Z_{1-\beta})^2} {p_0 (1 - p_0) (\ln(OR))^2 \, [P(X=1)(1 - P(X=1))]}$$

Trong đó:

Ví dụ minh họa (X nhị phân)

Giả sử một nghiên cứu so sánh 2 nhóm ($P(X=1) = 0.5$):

Khi đó:

$$N = \frac{(1.96 + 0.84)^2}{0.2(1-0.2)(\ln 2)^2(0.5)(1-0.5)} \approx 197$$

Vậy, cần khoảng 197 quan sát (khoảng 99 người ở mỗi nhóm).

Trường hợp 2: Biến độc lập $X$ là liên tục (Continuous)

Áp dụng khi $X$ là một biến liên tục (ví dụ: tuổi, huyết áp, điểm số).

$$N = \frac{(Z_{1-\alpha/2} + Z_{1-\beta})^2} {p_0 (1 - p_0) (\beta_1)^2 \, \sigma_X^2}$$

Trong đó:

2. Phân tích Công suất qua Mô phỏng

Khi mô hình phức tạp (nhiều biến, tương tác hoặc phân phối phi chuẩn), phương pháp mô phỏng là lựa chọn đáng tin cậy nhất. Ý tưởng là:

  1. Giả định các giá trị thật của $\beta_0$, $\beta_1$, ... và phân phối của các biến $X$.
  2. Tạo dữ liệu giả lập cho $N$ quan sát.
  3. Chạy mô hình logistic và ghi nhận p-value của $\beta_1$.
  4. Lặp lại bước 2-3 nhiều lần (ví dụ 1000 lần) và đếm tỷ lệ p-value < $\alpha$. Tỷ lệ này chính là công suất (power) thống kê.

Sau đó điều chỉnh $N$ cho đến khi công suất đạt mức mong muốn (ví dụ 0.8).

3. Quy tắc Kinh nghiệm (Rule of Thumb)

Nếu không có thông tin chi tiết về $OR$ hay $p_0$, có thể dùng quy tắc kinh nghiệm "10 sự kiện trên mỗi biến" (10 Events Per Variable - EPV):

$$N \ge \frac{10 \times m}{p_{event}}$$

Trong đó:

Ví dụ: Nếu bạn có 5 biến độc lập ($m=5$) và tỷ lệ bệnh trong mẫu là 20% ($p=0.2$), thì $p_{event} = 0.2$. Cỡ mẫu cần là: $N \ge \frac{10 \times 5}{0.2} = 250$.


Kết luận: Khi có đủ thông tin (odds ratio, baseline risk, phương sai của X), nên dùng phương pháp Hsieh hoặc phân tích mô phỏng. Nếu không, quy tắc “10 sự kiện mỗi biến” là lựa chọn an toàn cho thiết kế ban đầu.