Hồi quy Cox (Mô hình Tỷ lệ rủi ro Cân xứng)
1. Giới thiệu về Hồi quy Cox
Mô hình hồi quy Cox, hay mô hình tỷ lệ rủi ro cân xứng (Proportional Hazards Model), là công cụ cơ bản trong phân tích sống còn (survival analysis).
Mục tiêu là đánh giá mối liên hệ giữa các yếu tố dự báo (ví dụ: phơi nhiễm, điều trị, đặc điểm cá nhân) và thời gian xảy ra biến cố (như tử vong, tái phát bệnh, phục hồi...).
Mô hình Cox là bán tham số (semi-parametric) – nghĩa là không cần giả định về dạng phân phối của thời gian sống, mà chỉ xem xét mối quan hệ giữa biến độc lập và nguy cơ xảy ra biến cố.
Công thức mô hình
Mô hình Cox biểu diễn hàm rủi ro (hazard function) $h(t)$ tại thời điểm $t$ cho một cá thể có bộ biến dự báo $\mathbf{X} = (X_1, X_2, \dots, X_k)$ như sau:
$$
h(t | \mathbf{X}) = h_0(t) \times \exp\left(\sum_{i=1}^{k} \beta_i X_i\right)
$$
Trong đó:
- $h(t | \mathbf{X})$: Hàm rủi ro tại thời điểm $t$ cho cá thể có các đặc điểm $\mathbf{X}$.
- $h_0(t)$: Hàm rủi ro nền (baseline hazard) – phần phi tham số của mô hình.
- $\beta_i$: Hệ số hồi quy của từng biến độc lập $X_i$.
- $\exp(\beta_i)$: Tỷ số rủi ro (Hazard Ratio, HR) – cho biết mức thay đổi tương đối của rủi ro khi $X_i$ tăng một đơn vị.
Diễn giải: Nếu $HR = 1$, biến không ảnh hưởng đến rủi ro;
nếu $HR > 1$, biến làm tăng rủi ro;
nếu $HR < 1$, biến có tác dụng bảo vệ.
2. Tính cỡ mẫu cho Hồi quy Cox
Theo công thức của Schoenfeld (1983), số biến cố cần thiết ($E$) để đạt được công suất mong muốn là:
$$
E = \frac{(Z_{1-\alpha/2} + Z_{1-\beta})^2}{p_1 p_2 [\ln(HR)]^2}
$$
Trong đó:
- $Z_{1-\alpha/2}$: Giá trị Z tương ứng với mức ý nghĩa $\alpha$ (ví dụ: 1.96 khi $\alpha = 0.05$).
- $Z_{1-\beta}$: Giá trị Z ứng với công suất mong muốn (ví dụ: 0.84 khi power = 0.8).
- $p_1, p_2$: Tỷ lệ của hai nhóm (ví dụ: nhóm phơi nhiễm và không phơi nhiễm).
- $HR$: Tỷ số rủi ro kỳ vọng giữa hai nhóm.
Tổng cỡ mẫu cần thiết được ước lượng là:
$$
N = \frac{E}{P_e}
$$
Trong đó $P_e$ là xác suất xảy ra biến cố trong quần thể nghiên cứu (ước tính từ nghiên cứu trước).
3. Ứng dụng trong Y tế Công cộng
Trong nghiên cứu y tế công cộng, mô hình Cox được dùng rộng rãi để:
- Phân tích thời gian sống còn sau điều trị (ví dụ: sau phẫu thuật ung thư).
- Đánh giá yếu tố nguy cơ gây tử vong hoặc tái phát bệnh.
- So sánh hiệu quả giữa các phương pháp can thiệp trong cùng quần thể.
- Dự đoán xác suất sống còn theo nhóm bệnh nhân có đặc điểm khác nhau.
Ví dụ thực tế:
Một nghiên cứu muốn đánh giá tác động của việc hút thuốc đến nguy cơ tử vong do bệnh tim trong 5 năm.
Giả sử:
- Tỷ lệ hút thuốc trong quần thể là 40% → $p_1 = 0.4$, $p_2 = 0.6$
- Tỷ số rủi ro kỳ vọng giữa hai nhóm là $HR = 1.8$
- Xác suất tử vong trong 5 năm là $P_e = 0.15$
- Mức ý nghĩa $\alpha = 0.05$, công suất 80% → $Z_{1-\alpha/2}=1.96$, $Z_{1-\beta}=0.84$
Khi đó:
$$
E = \frac{(1.96 + 0.84)^2}{(0.4)(0.6)[\ln(1.8)]^2} \approx 125
$$
$$
N = \frac{125}{0.15} \approx 834
$$
👉 Như vậy, cần ít nhất 834 người tham gia (trong đó kỳ vọng có khoảng 125 biến cố tử vong) để có đủ công suất phát hiện tác động của hút thuốc đối với nguy cơ tử vong do bệnh tim.
Cỡ mẫu hợp lý giúp nghiên cứu phát hiện được mối liên hệ thật (tránh âm tính giả) và giảm lãng phí nguồn lực trong các thử nghiệm can thiệp hoặc theo dõi đoàn hệ.