Mục tiêu của việc tính cỡ mẫu cho một xét nghiệm chẩn đoán là ước lượng hoặc kiểm chứng độ nhạy (sensitivity), độ đặc hiệu (specificity), và các chỉ số liên quan (PPV, NPV) với độ chính xác/công suất mong muốn. Trong bối cảnh y tế công cộng, điều này rất quan trọng để đảm bảo xét nghiệm đủ tin cậy trước khi triển khai quy mô lớn.
Đầu tiên ước tính số người có sự kiện (bệnh) cần để ước lượng Sensitivity với khoảng sai số ±d:
$$n_{disease} = \frac{Z_{1-\alpha/2}^2 \, Se(1-Se)}{d^2}$$
Và tổng cỡ mẫu cần (ước tính) là:
$$N \approx \frac{n_{disease}}{\text{Prev}}$$
Tương tự, để ước lượng Specificity, ta cần số người không bệnh:
$$n_{non-disease} = \frac{Z_{1-\alpha/2}^2 \, Sp(1-Sp)}{d^2}, \qquad N \approx \frac{n_{non-disease}}{1-\text{Prev}}$$
Giả sử bạn muốn ước lượng độ nhạy $Se=0.85$ với sai số chấp nhận được $d=0.05$, $\alpha=0.05$ (Z=1.96), và prevalence = 10%:
$$n_{disease} = \frac{1.96^2 \times 0.85 \times (1-0.85)}{0.05^2} \approx 196$$
$$N \approx \frac{196}{0.10} \approx 1959$$
Vậy bạn cần khoảng 196 bệnh nhân có biến cố quan sát được, tức khoảng 1,960 người tổng cộng nếu prevalence là 10%.
Nếu muốn kiểm tra giả thuyết:
$H_0: Se \le Se_0 \quad$ vs $\quad H_1: Se = Se_1 (>Se_0)$
một xấp xỉ thường dùng (khi số mẫu lớn) cho số cá thể có bệnh là:
$$n_{disease} \approx \frac{\big(Z_{1-\alpha}\sqrt{Se_0(1-Se_0)} + Z_{1-\beta}\sqrt{Se_1(1-Se_1)}\big)^2} {(Se_1 - Se_0)^2}$$
Tiếp tục chia cho prevalence để ước tính tổng $N$.
Để so sánh hai độ nhạy (hoặc hai độ đặc hiệu) dùng công thức ước lượng cho hai tỉ lệ:
$$n_{per\ group} \approx \frac{\Big(Z_{1-\alpha/2}\sqrt{2\bar p(1-\bar p)} + Z_{1-\beta}\sqrt{p_1(1-p_1)+p_2(1-p_2)}\Big)^2} {(p_1-p_2)^2}$$
với $\bar p=(p_1+p_2)/2$. Ở đây $n_{per\ group}$ là số bệnh cần trong mỗi nhóm nếu so sánh trên mẫu bệnh, rồi chia cho prevalence nhóm tương ứng để ra tổng N.
epiR
(ước lượng khoảng CI & cỡ mẫu), powerMediation
, pROC
(ROC/AUC related).