Trong các nghiên cứu mà biến phụ thuộc là nhị phân (ví dụ: có bệnh/không bệnh, đạt/không đạt), hồi quy logistic được sử dụng để mô hình hóa xác suất xảy ra của sự kiện. Tính cỡ mẫu phù hợp cho hồi quy logistic giúp đảm bảo kết quả có độ tin cậy thống kê (power) và mô hình ước lượng ổn định.
Có hai phương pháp phổ biến (và một quy tắc kinh nghiệm):
Phương pháp này cung cấp một công thức xấp xỉ cho cỡ mẫu cần thiết để phát hiện một hệ số hồi quy $\beta_1$ khác 0 trong mô hình hồi quy logistic đơn biến:
$$\text{logit}(p) = \beta_0 + \beta_1 X$$
Trong đó:
Công thức sẽ khác nhau tùy thuộc vào biến độc lập $X$ là nhị phân hay liên tục.
Áp dụng khi $X$ chỉ có hai giá trị (ví dụ: có/không, nhóm can thiệp/nhóm chứng).
$$N = \frac{(Z_{1-\alpha/2} + Z_{1-\beta})^2} {p_0 (1 - p_0) (\ln(OR))^2 \, [P(X=1)(1 - P(X=1))]}$$
Trong đó:
Giả sử một nghiên cứu so sánh 2 nhóm ($P(X=1) = 0.5$):
Khi đó:
$$N = \frac{(1.96 + 0.84)^2}{0.2(1-0.2)(\ln 2)^2(0.5)(1-0.5)} \approx 197$$
Vậy, cần khoảng 197 quan sát (khoảng 99 người ở mỗi nhóm).
Áp dụng khi $X$ là một biến liên tục (ví dụ: tuổi, huyết áp, điểm số).
$$N = \frac{(Z_{1-\alpha/2} + Z_{1-\beta})^2} {p_0 (1 - p_0) (\beta_1)^2 \, \sigma_X^2}$$
Trong đó:
Khi mô hình phức tạp (nhiều biến, tương tác hoặc phân phối phi chuẩn), phương pháp mô phỏng là lựa chọn đáng tin cậy nhất. Ý tưởng là:
Sau đó điều chỉnh $N$ cho đến khi công suất đạt mức mong muốn (ví dụ 0.8).
Nếu không có thông tin chi tiết về $OR$ hay $p_0$, có thể dùng quy tắc kinh nghiệm "10 sự kiện trên mỗi biến" (10 Events Per Variable - EPV):
$$N \ge \frac{10 \times m}{p_{event}}$$
Trong đó:
Ví dụ: Nếu bạn có 5 biến độc lập ($m=5$) và tỷ lệ bệnh trong mẫu là 20% ($p=0.2$), thì $p_{event} = 0.2$. Cỡ mẫu cần là: $N \ge \frac{10 \times 5}{0.2} = 250$.
Kết luận: Khi có đủ thông tin (odds ratio, baseline risk, phương sai của X), nên dùng phương pháp Hsieh hoặc phân tích mô phỏng. Nếu không, quy tắc “10 sự kiện mỗi biến” là lựa chọn an toàn cho thiết kế ban đầu.