Hồi quy Poisson (Poisson Regression – Đơn biến)
1. Giới thiệu
Hồi quy Poisson được sử dụng khi biến phụ thuộc là biến đếm
(số ca mắc, số lần nhập viện, số tai nạn, số tử vong, v.v.).
Mô hình này mô tả số lượng sự kiện trung bình xảy ra trong một khoảng thời gian hoặc không gian nhất định.
2. Mô hình toán học
Mô hình Poisson giả định rằng:
$$ Y_i \sim \text{Poisson}(\lambda_i) $$
$$ \log(\lambda_i) = \beta_0 + \beta_1 X_i $$
Trong đó:
- \(Y_i\): Số lần xảy ra sự kiện ở quan sát thứ \(i\).
- \(\lambda_i\): Giá trị kỳ vọng (mean rate) của số sự kiện.
- \(X_i\): Biến độc lập (như nhóm phơi nhiễm, tuổi, giới, v.v.).
- \(\beta_0\): Hệ số chặn (log của tỷ suất trung bình khi \(X=0\)).
- \(\beta_1\): Hệ số hồi quy, cho biết sự thay đổi log(tỷ suất) khi \(X\) tăng 1 đơn vị.
3. Diễn giải kết quả
Khi mô hình Poisson được ước lượng, ta thường diễn giải hệ số hồi quy \(\beta_1\) thông qua:
$$ \text{Rate Ratio (RR)} = e^{\beta_1} $$
- Nếu \(RR = 1\): Không có khác biệt về tỷ suất sự kiện giữa các nhóm.
- Nếu \(RR > 1\): Nhóm có giá trị \(X\) cao hơn có tỷ suất sự kiện cao hơn.
- Nếu \(RR < 1\): Nhóm có giá trị \(X\) cao hơn có tỷ suất sự kiện thấp hơn.
Ví dụ: Nếu \(RR = 1.5\), có nghĩa là nhóm phơi nhiễm có tỷ suất mắc bệnh cao hơn 1.5 lần so với nhóm không phơi nhiễm.
4. Kiểm định giả thuyết
$$
H_0: \beta_1 = 0 \quad \text{(không có mối liên quan)} \\
H_a: \beta_1 \neq 0 \quad \text{(có mối liên quan giữa X và tỷ suất sự kiện)}
$$
Nếu giá trị p < 0.05, ta bác bỏ \(H_0\) và kết luận rằng có mối liên quan giữa \(X\) và tỷ suất sự kiện.
5. Tính cỡ mẫu
Việc tính cỡ mẫu trong hồi quy Poisson đơn biến thường dựa trên so sánh hai tỷ suất mắc (incidence rates).
Một công thức gần đúng được sử dụng khi muốn kiểm định sự khác biệt giữa hai nhóm có tỷ suất mắc khác nhau:
$$
n = \frac{(Z_{1-\alpha/2} + Z_{1-\beta})^2 \times (\lambda_1 + \lambda_2)}
{(\lambda_1 - \lambda_2)^2}
$$
Trong đó:
- \(\lambda_1, \lambda_2\): Tỷ suất sự kiện trung bình ở hai nhóm.
- \(Z_{1-\alpha/2}\): Giá trị Z tương ứng với mức ý nghĩa (ví dụ: 1.96 cho \(\alpha = 0.05\)).
- \(Z_{1-\beta}\): Giá trị Z tương ứng với công suất mong muốn (ví dụ: 0.84 cho power = 0.8).
Trong thực tế, khi dữ liệu có thời gian theo dõi khác nhau, cần tính đến thời gian phơi nhiễm
và sử dụng biến offset = log(thời gian quan sát)
để hiệu chỉnh mô hình.
Lưu ý: Nếu dữ liệu có phương sai lớn hơn trung bình (overdispersion), cần xem xét sử dụng
mô hình Hồi quy Quasi-Poisson hoặc Negative Binomial Regression.
6. Ứng dụng trong Y tế công cộng
- Phân tích tỷ suất mắc bệnh giữa hai nhóm dân cư (ví dụ: có và không phơi nhiễm).
- So sánh số ca bệnh theo các khu vực, năm hoặc nhóm tuổi.
- Ước tính tác động của một yếu tố nguy cơ lên số lần xảy ra sự kiện.
Ví dụ: Trong nghiên cứu về bệnh lao, hồi quy Poisson có thể dùng để so sánh số ca mắc giữa khu vực đô thị và nông thôn. Nếu mô hình cho \(RR = 2.0\), ta có thể kết luận rằng tỷ suất mắc ở đô thị cao gấp 2 lần so với nông thôn.
Kết luận: Hồi quy Poisson đơn biến là công cụ hữu ích để mô hình hóa dữ liệu đếm, giúp so sánh tỷ suất sự kiện giữa các nhóm và đánh giá yếu tố nguy cơ trong nghiên cứu y tế công cộng.