diff --git a/sample_size_site_full/reg_cox.html b/sample_size_site_full/reg_cox.html index 13ddbaa..c566379 100644 --- a/sample_size_site_full/reg_cox.html +++ b/sample_size_site_full/reg_cox.html @@ -1,11 +1 @@ - - - - - reg_cox.html - - -

reg_cox.html

-

This is a placeholder page for Reg Cox module.

- - + diff --git a/sample_size_site_full/reg_cox_guide.html b/sample_size_site_full/reg_cox_guide.html index bd55e76..1a26c7d 100644 --- a/sample_size_site_full/reg_cox_guide.html +++ b/sample_size_site_full/reg_cox_guide.html @@ -1,11 +1,187 @@ - + - reg_cox_guide.html + + Hồi quy Cox và Tính cỡ mẫu + + + + + + + -

reg_cox_guide.html

-

This is a placeholder guide page for Reg Cox Guide.

+ +

Hồi quy Cox (Mô hình Tỷ lệ rủi ro Cân xứng)

+ +

1. Giới thiệu về Hồi quy Cox

+

+ Mô hình hồi quy Cox, hay mô hình tỷ lệ rủi ro cân xứng (Proportional Hazards Model), là công cụ cơ bản trong phân tích sống còn (survival analysis). + Mục tiêu là đánh giá mối liên hệ giữa các yếu tố dự báo (ví dụ: phơi nhiễm, điều trị, đặc điểm cá nhân) và thời gian xảy ra biến cố (như tử vong, tái phát bệnh, phục hồi...). +

+

+ Mô hình Cox là bán tham số (semi-parametric) – nghĩa là không cần giả định về dạng phân phối của thời gian sống, mà chỉ xem xét mối quan hệ giữa biến độc lập và nguy cơ xảy ra biến cố. +

+ +

Công thức mô hình

+

+ Mô hình Cox biểu diễn hàm rủi ro (hazard function) $h(t)$ tại thời điểm $t$ cho một cá thể có bộ biến dự báo $\mathbf{X} = (X_1, X_2, \dots, X_k)$ như sau: +

+
+ $$ + h(t | \mathbf{X}) = h_0(t) \times \exp\left(\sum_{i=1}^{k} \beta_i X_i\right) + $$ +
+

Trong đó:

+ + +
+ Diễn giải: Nếu $HR = 1$, biến không ảnh hưởng đến rủi ro; + nếu $HR > 1$, biến làm tăng rủi ro; + nếu $HR < 1$, biến có tác dụng bảo vệ. +
+ +

2. Tính cỡ mẫu cho Hồi quy Cox

+

+ Theo công thức của Schoenfeld (1983), số biến cố cần thiết ($E$) để đạt được công suất mong muốn là: +

+ +
+ $$ + E = \frac{(Z_{1-\alpha/2} + Z_{1-\beta})^2}{p_1 p_2 [\ln(HR)]^2} + $$ +
+ +

+ Trong đó: +

+ + +

Tổng cỡ mẫu cần thiết được ước lượng là:

+
+ $$ + N = \frac{E}{P_e} + $$ +
+

Trong đó $P_e$ là xác suất xảy ra biến cố trong quần thể nghiên cứu (ước tính từ nghiên cứu trước).

+ +

3. Ứng dụng trong Y tế Công cộng

+

+ Trong nghiên cứu y tế công cộng, mô hình Cox được dùng rộng rãi để: +

+ + +
+ Ví dụ thực tế:
+ Một nghiên cứu muốn đánh giá tác động của việc hút thuốc đến nguy cơ tử vong do bệnh tim trong 5 năm.

+ Giả sử: + + + Khi đó: +
+ $$ + E = \frac{(1.96 + 0.84)^2}{(0.4)(0.6)[\ln(1.8)]^2} \approx 125 + $$ +
+
+ $$ + N = \frac{125}{0.15} \approx 834 + $$ +
+ +

+ 👉 Như vậy, cần ít nhất 834 người tham gia (trong đó kỳ vọng có khoảng 125 biến cố tử vong) để có đủ công suất phát hiện tác động của hút thuốc đối với nguy cơ tử vong do bệnh tim. +

+
+ +

+ Cỡ mẫu hợp lý giúp nghiên cứu phát hiện được mối liên hệ thật (tránh âm tính giả) và giảm lãng phí nguồn lực trong các thử nghiệm can thiệp hoặc theo dõi đoàn hệ. +

+ diff --git a/sample_size_site_full/reg_linear_multi.html b/sample_size_site_full/reg_linear_multi.html index 150e423..6ff968e 100644 --- a/sample_size_site_full/reg_linear_multi.html +++ b/sample_size_site_full/reg_linear_multi.html @@ -1,11 +1 @@ - - - - - reg_linear_multi.html - - -

reg_linear_multi.html

-

This is a placeholder page for Reg Linear Multi module.

- - + diff --git a/sample_size_site_full/reg_linear_multi_guide.html b/sample_size_site_full/reg_linear_multi_guide.html index 7a05f31..8f1e4c5 100644 --- a/sample_size_site_full/reg_linear_multi_guide.html +++ b/sample_size_site_full/reg_linear_multi_guide.html @@ -1,11 +1,219 @@ - + - - reg_linear_multi_guide.html + + Giới thiệu Hồi quy Tuyến tính Đa biến + + + + + + + -

reg_linear_multi_guide.html

-

This is a placeholder guide page for Reg Linear Multi Guide.

+
+

Tìm hiểu về Hồi quy Tuyến tính Đa biến (Multiple Linear Regression)

+ +

1. Hồi quy Tuyến tính Đa biến là gì?

+

+ Hồi quy Tuyến tính Đa biến (MLR) là một kỹ thuật thống kê cơ bản và mạnh mẽ. Nó là phiên bản mở rộng của hồi quy tuyến tính đơn, được sử dụng để kiểm tra và mô hình hóa mối quan hệ giữa một biến phụ thuộc (kết quả) liên tụcnhiều hơn một biến độc lập (yếu tố dự báo). +

+

+ Mục tiêu chính của MLR là: +

+ + +

2. Công thức Mô hình

+

Công thức toán học tổng quát của mô hình MLR là:

+

+ $$Y = \beta_0 + \beta_1 X_1 + \beta_2 X_2 + \dots + \beta_m X_m + \epsilon$$ +

+

Trong đó:

+ + +

3. Hướng dẫn Diễn giải Kết quả

+

+ Phần quan trọng nhất khi sử dụng MLR là diễn giải đúng các hệ số \(\beta\). +

+
+

+ Diễn giải \(\beta_i\) (Ví dụ \(\beta_1\)): "Khi biến \(X_1\) tăng lên 1 đơn vị, giá trị trung bình của \(Y\) được dự đoán sẽ thay đổi \(\beta_1\) đơn vị, với điều kiện tất cả các biến độc lập khác (\(X_2, \dots, X_m\)) được giữ không đổi." +

+
+

+ Khả năng "giữ không đổi" các biến khác chính là sức mạnh của MLR, cho phép chúng ta "cô lập" và "điều chỉnh" ảnh hưởng của các yếu tố gây nhiễu (confounders). +

+ + +

4. Tính Cỡ mẫu cho Hồi quy Tuyến tính Đa biến

+

+ Để mô hình hồi quy của bạn đáng tin cậy, bạn cần đảm bảo cỡ mẫu (số lượng quan sát, $N$) đủ lớn. Một cỡ mẫu đủ lớn sẽ cung cấp đủ công suất (power) thống kê để phát hiện ra các mối quan hệ có ý nghĩa (tức là $R^2 > 0$). +

+ +

a. Phương pháp Phân tích Công suất (Power Analysis)

+

+ Đây là phương pháp tiêu chuẩn vàng, được khuyến nghị nhất. Nó yêu cầu bạn phải ước tính trước một số tham số: +

+ +

Công thức chuyển đổi từ $R^2$ sang $f^2$ là:

+

+ $$f^2 = \frac{R^2}{1 - R^2}$$ +

+

Bạn có thể sử dụng các phần mềm chuyên dụng như G*Power hoặc các thư viện (như pwr trong R) để thực hiện tính toán này.

+ +

b. Các Quy tắc Kinh nghiệm (Rules of Thumb)

+

+ Khi khó ước tính $R^2$, các nhà nghiên cứu đôi khi dùng các quy tắc kinh nghiệm để ước tính nhanh. Tuy nhiên, hãy thận trọng khi sử dụng chúng. +

+
+ +
+

Khuyến nghị: Luôn ưu tiên phương pháp Phân tích Công suất (mục a) vì nó cung cấp ước tính cỡ mẫu chính xác và có cơ sở lý luận vững chắc hơn.

+ +

5. Phạm vi ứng dụng trong Y tế Công cộng

+

+ Trong Y tế Công cộng và Dịch tễ học, MLR là một trong những công cụ được sử dụng thường xuyên nhất. Nó đặc biệt hữu ích khi các kết quả sức khỏe (biến $Y$) thường bị ảnh hưởng bởi rất nhiều yếu tố (nhiều biến $X$) cùng một lúc. +

+ +

Ví dụ 1: Xác định các yếu tố dự báo Huyết áp

+ + +

Ví dụ 2: Nghiên cứu Cân nặng Trẻ sơ sinh

+ + +

Ví dụ 3: Đánh giá Chi phí Y tế

+ + +
+

+ Kết luận: Hồi quy Tuyến tính Đa biến là một công cụ thiết yếu trong y tế công cộng để dự đoán các kết quả sức khỏe liên tục và hiểu các mối quan hệ phức tạp, đặc biệt là khi cần điều chỉnh các yếu tố gây nhiễu. +

+
+ + - + \ No newline at end of file diff --git a/sample_size_site_full/reg_logistic_multi.html b/sample_size_site_full/reg_logistic_multi.html index 09a822a..9b542a9 100644 --- a/sample_size_site_full/reg_logistic_multi.html +++ b/sample_size_site_full/reg_logistic_multi.html @@ -1,11 +1 @@ - - - - - reg_logistic_multi.html - - -

reg_logistic_multi.html

-

This is a placeholder page for Reg Logistic Multi module.

- - + diff --git a/sample_size_site_full/reg_logistic_multi_guide.html b/sample_size_site_full/reg_logistic_multi_guide.html index 9f9182c..f46b166 100644 --- a/sample_size_site_full/reg_logistic_multi_guide.html +++ b/sample_size_site_full/reg_logistic_multi_guide.html @@ -1,11 +1,241 @@ - + - - reg_logistic_multi_guide.html + + Giới thiệu Hồi quy Logistic Đa biến + + + + + + + -

reg_logistic_multi_guide.html

-

This is a placeholder guide page for Reg Logistic Multi Guide.

+
+

Tìm hiểu về Hồi quy Logistic Đa biến (Multiple Logistic Regression)

+ +

1. Hồi quy Logistic Đa biến là gì?

+

+ Hồi quy Logistic Đa biến (MLR) là một kỹ thuật thống kê được sử dụng để dự đoán một kết quả nhị phân (binary) hoặc phân loại (categorical) dựa trên nhiều hơn một biến độc lập (yếu tố dự báo). +

+

+ Không giống như hồi quy tuyến tính (dự đoán một giá trị liên tục như huyết áp), hồi quy logistic dự đoán xác suất (probability) để một "sự kiện" (event) xảy ra, ví dụ: xác suất mắc bệnh (Có/Không), xác suất tái nhập viện (Có/Không). +

+

+ Mục tiêu chính của MLR là: +

+ + +

2. Công thức Mô hình

+

Hồi quy logistic không mô hình hóa biến \(Y\) (0 hoặc 1) một cách trực tiếp. Thay vào đó, nó mô hình hóa log-odds (logit) của xác suất \(P\) (xác suất $Y=1$).

+

+ $$ \text{logit}(P) = \ln\left(\frac{P}{1-P}\right) = \beta_0 + \beta_1 X_1 + \beta_2 X_2 + \dots + \beta_m X_m $$ +

+

Trong đó:

+ + +

3. Hướng dẫn Diễn giải Kết quả

+

+ Việc diễn giải trực tiếp hệ số \(\beta\) (log-odds) thường không trực quan. Thay vào đó, chúng ta diễn giải Tỷ số chênh (Odds Ratio - OR), được tính bằng cách lấy lũy thừa của \(\beta\). +

+

+ $$ \text{OR}_i = e^{\beta_i} $$ +

+
+

+ Diễn giải \(\text{OR}_i\) (Ví dụ $e^{\beta_1}$): "Khi biến \(X_1\) tăng lên 1 đơn vị, tỷ số chênh (Odds) của 'event' (\(Y=1\)) xảy ra được dự đoán sẽ thay đổi (nhân) \(e^{\beta_1}\) lần, với điều kiện tất cả các biến độc lập khác (\(X_2, \dots, X_m\)) được giữ không đổi." +

+
+ + + +

4. Tính Cỡ mẫu cho Hồi quy Logistic Đa biến

+

+ Đối với logistic đa biến, việc tính "công suất" (power) rất phức tạp. Thay vào đó, phương pháp phổ biến nhất là sử dụng các quy tắc kinh nghiệm để đảm bảo sự ổn định (stability) của mô hình và tránh hiện tượng overfitting. +

+ +

a. Quy tắc "Events Per Variable" (EPV)

+

+ Đây là quy tắc được trích dẫn rộng rãi nhất. Nó không dựa trên công suất mà dựa trên số lượng 'event' (kết quả ít gặp) so với số lượng tham số trong mô hình. +

+ +
+ Quy tắc (Peduzzi, 1996): Cần ít nhất 10 'event' cho mỗi tham số (EPV $\ge$ 10). +

Nhiều nhà thống kê (như Frank Harrell) khuyến nghị EPV $\ge 15$ hoặc $\ge 20$ để đảm bảo an toàn hơn.

+
+ +

Công thức tính cỡ mẫu $N$ tối thiểu:

+

+ $$ N_{\text{tối thiểu}} = \frac{m \times \text{EPV}}{P_{\text{event}}} $$ +

+

Trong đó:

+ +

Ví dụ: Cần 5 tham số ($m=5$), dùng EPV=10, và tỉ lệ bệnh là 20% ($P_{\text{event}}=0.20$):

+

1. Số 'event' cần: $5 \times 10 = 50$ ca bệnh.

+

2. Tổng cỡ mẫu $N$: $50 / 0.20 = 250$ người.

+ +

b. Hậu quả của việc không tuân thủ EPV (EPV quá thấp)

+

+ Sử dụng cỡ mẫu quá nhỏ (EPV < 10) có thể dẫn đến các vấn đề nghiêm trọng: +

+ + +

5. Phạm vi ứng dụng trong Y tế Công cộng

+

+ Hồi quy Logistic là một trong những mô hình được sử dụng nhiều nhất trong Y tế Công cộng, vì rất nhiều kết quả sức khỏe được quan tâm là dạng nhị phân (Mắc bệnh/Không, Tử vong/Sống, Tái phát/Không). +

+ +

Ví dụ 1: Xác định các yếu tố nguy cơ của Tăng huyết áp

+ + +

Ví dụ 2: Nghiên cứu Trẻ nhẹ cân khi sinh

+ + +

Ví dụ 3: Dự đoán Tái nhập viện

+ + +
+

+ Kết luận: Hồi quy Logistic Đa biến là công cụ cốt lõi trong y tế công cộng để dự đoán nguy cơ (xác suất) của các kết quả sức khỏe nhị phân và lượng hóa ảnh hưởng của các yếu tố (thông qua Odds Ratios) sau khi đã điều chỉnh các yếu tố gây nhiễu. +

+
+ + - + \ No newline at end of file diff --git a/sample_size_site_full/reg_poisson.html b/sample_size_site_full/reg_poisson.html index 8a35b8b..8a5bfc9 100644 --- a/sample_size_site_full/reg_poisson.html +++ b/sample_size_site_full/reg_poisson.html @@ -1,11 +1 @@ - - - - - reg_poisson.html - - -

reg_poisson.html

-

This is a placeholder page for Reg Poisson module.

- - + diff --git a/sample_size_site_full/reg_poisson_guide.html b/sample_size_site_full/reg_poisson_guide.html index 325e193..421df0d 100644 --- a/sample_size_site_full/reg_poisson_guide.html +++ b/sample_size_site_full/reg_poisson_guide.html @@ -1,11 +1,184 @@ - + - - reg_poisson_guide.html + + Giới thiệu Hồi quy Poisson (Đơn biến) + + + + + + + -

reg_poisson_guide.html

-

This is a placeholder guide page for Reg Poisson Guide.

+
+

Hồi quy Poisson (Poisson Regression – Đơn biến)

+ +

1. Giới thiệu

+

+ Hồi quy Poisson được sử dụng khi biến phụ thuộc là biến đếm + (số ca mắc, số lần nhập viện, số tai nạn, số tử vong, v.v.). + Mô hình này mô tả số lượng sự kiện trung bình xảy ra trong một khoảng thời gian hoặc không gian nhất định. +

+ +

2. Mô hình toán học

+

+ Mô hình Poisson giả định rằng: +

+

+ $$ Y_i \sim \text{Poisson}(\lambda_i) $$ + $$ \log(\lambda_i) = \beta_0 + \beta_1 X_i $$ +

+ +

Trong đó:

+ + +

3. Diễn giải kết quả

+

+ Khi mô hình Poisson được ước lượng, ta thường diễn giải hệ số hồi quy \(\beta_1\) thông qua: +

+

+ $$ \text{Rate Ratio (RR)} = e^{\beta_1} $$ +

+

+

+

+ +
+ Ví dụ: Nếu \(RR = 1.5\), có nghĩa là nhóm phơi nhiễm có tỷ suất mắc bệnh cao hơn 1.5 lần so với nhóm không phơi nhiễm. +
+ +

4. Kiểm định giả thuyết

+

+ $$ + H_0: \beta_1 = 0 \quad \text{(không có mối liên quan)} \\ + H_a: \beta_1 \neq 0 \quad \text{(có mối liên quan giữa X và tỷ suất sự kiện)} + $$ +

+

+ Nếu giá trị p < 0.05, ta bác bỏ \(H_0\) và kết luận rằng có mối liên quan giữa \(X\) và tỷ suất sự kiện. +

+ +

5. Tính cỡ mẫu

+

+ Việc tính cỡ mẫu trong hồi quy Poisson đơn biến thường dựa trên so sánh hai tỷ suất mắc (incidence rates). + Một công thức gần đúng được sử dụng khi muốn kiểm định sự khác biệt giữa hai nhóm có tỷ suất mắc khác nhau: +

+ +

+ $$ + n = \frac{(Z_{1-\alpha/2} + Z_{1-\beta})^2 \times (\lambda_1 + \lambda_2)} + {(\lambda_1 - \lambda_2)^2} + $$ +

+ +

Trong đó:

+ + +

+ Trong thực tế, khi dữ liệu có thời gian theo dõi khác nhau, cần tính đến thời gian phơi nhiễm và sử dụng biến offset = log(thời gian quan sát) để hiệu chỉnh mô hình. +

+ +
+ Lưu ý: Nếu dữ liệu có phương sai lớn hơn trung bình (overdispersion), cần xem xét sử dụng + mô hình Hồi quy Quasi-Poisson hoặc Negative Binomial Regression. +
+ +

6. Ứng dụng trong Y tế công cộng

+ + +
+ Ví dụ: Trong nghiên cứu về bệnh lao, hồi quy Poisson có thể dùng để so sánh số ca mắc giữa khu vực đô thị và nông thôn. Nếu mô hình cho \(RR = 2.0\), ta có thể kết luận rằng tỷ suất mắc ở đô thị cao gấp 2 lần so với nông thôn. +
+ +
+

Kết luận: Hồi quy Poisson đơn biến là công cụ hữu ích để mô hình hóa dữ liệu đếm, giúp so sánh tỷ suất sự kiện giữa các nhóm và đánh giá yếu tố nguy cơ trong nghiên cứu y tế công cộng.

+
+ +