Equivalence trials (thử nghiệm tương đương) được thiết kế để chứng minh rằng hiệu quả của hai can thiệp (hoặc một can thiệp mới và chuẩn) không khác biệt đáng kể nhau hơn một biên nhỏ đã định trước về cả hai phía — tức là hiệu quả nằm trong khoảng chấp nhận được. Trong bối cảnh y tế công cộng, các thử nghiệm tương đương thường dùng khi muốn thay thế phương pháp chuẩn bằng giải pháp rẻ hơn, dễ tiếp cận hơn hoặc an toàn hơn mà vẫn giữ hiệu lực.
Với độ đo là tỉ lệ (hoặc trung bình) ta định nghĩa sai số tương đương hai phía bằng một biên $\Delta_E > 0$. Mục tiêu là chứng minh:
$$H_0: |\Delta| \ge \Delta_E \quad\text{(không tương đương)}$$ $$H_1: |\Delta| < \Delta_E \quad\text{(tương đương)}$$
Trong đó $\Delta = \theta_T - \theta_C$ (ví dụ $p_T - p_C$ hoặc $\mu_T - \mu_C$). Khác với non-inferiority (một phía), equivalence là kiểm định hai phía.
Để chứng minh hai tỉ lệ tương đương với biên ±$\Delta_E$, một công thức xấp xỉ cho mỗi nhóm là:
$$n_{per\ group} \approx \frac{2\left(Z_{1-\alpha/2}\sqrt{2\bar p(1-\bar p)} + Z_{1-\beta}\sqrt{p_T(1-p_T)+p_C(1-p_C)}\right)^2} {\Delta_E^2}$$
với $\bar p=(p_T+p_C)/2$, $\alpha$ là mức ý nghĩa hai phía (thường 0.05), và $\beta$ là mức lỗi loại II. Nếu giả định $p_T \approx p_C \approx p$, biểu thức đơn giản hơn:
$$n \approx \frac{2 (Z_{1-\alpha/2} + Z_{1-\beta})^2 p(1-p)}{\Delta_E^2}$$
Khi quan tâm đến chênh lệch trung bình $\mu_T - \mu_C$ với biên ±$\Delta_E$, công thức là:
$$n = \frac{2\sigma^2 (Z_{1-\alpha/2} + Z_{1-\beta})^2}{\Delta_E^2}$$
Trong đó $\sigma^2$ là phương sai chung ước tính. Đây là công thức chuẩn cho thiết kế hai phía (equivalence).
Ví dụ 1 — Tỉ lệ (y tế công cộng): mong muốn chứng minh hai chương trình can thiệp có tỉ lệ khỏi bệnh tương đương trong biên ±0.05 (5%). Giả sử $p\approx 0.8$, $\alpha=0.05$ (hai phía), power=0.8.
$$n \approx \frac{2 (1.96 + 0.84)^2 \times 0.8(1-0.8)}{0.05^2} \approx 246$$ mỗi nhóm.
Ví dụ 2 — Trung bình (biến liên tục): muốn chứng minh thay đổi huyết áp trung bình tương đương trong ±3 mmHg. Giả sử $\sigma=10$, $\alpha=0.05$, power=0.9 ($Z_{1-\beta}=1.28$):
$$n = \frac{2\times 10^2 \times (1.96 + 1.28)^2}{3^2} \approx 392$$ mỗi nhóm.
TOSTER
(TOST cho nhiều trường hợp), Samplesize
, powerTOST
(bioequivalence), power.prop.test
+ điều chỉnh.Tóm tắt: Equivalence là kiểm định hai phía nhằm chứng minh chênh lệch giữa can thiệp và chuẩn nằm trong biên chấp nhận được ±$\Delta_E$. - Chọn $\Delta_E$ dựa trên cơ sở lâm sàng và bằng chứng; - Dùng kiểm định hai phía (TOST) và $Z_{1-\alpha/2}$ trong công thức cỡ mẫu; - Điều chỉnh cho cluster, attrition và phân tích ITT/PP khi báo cáo kết quả.