diff --git a/SH/redis/flush.sh b/SH/redis/flush.sh new file mode 100644 index 0000000..a47ea76 --- /dev/null +++ b/SH/redis/flush.sh @@ -0,0 +1,20 @@ +#!/bin/bash +# Script chay nhu dich vu de xoa Redis cache moi 2 phut +# CẢNH BÁO: CHỈ DÙNG ĐỂ TEST KHẨN CẤP. SẼ ĐĂNG XUẤT TOÀN BỘ USER. + +# Tim duong dan chinh xac cua redis-cli +REDIS_CLI_PATH=$(which redis-cli) + +if [ -z "$REDIS_CLI_PATH" ]; then + logger -t redis-flusher "LOI: Khong tim thay redis-cli. Thoat." + exit 1 +fi + +while true +do + logger -t redis-flusher "Thuc hien FLUSHALL..." + $REDIS_CLI_PATH FLUSHALL + + # Doi 120 giay (2 phut) + sleep 120 +done diff --git a/SH/redis/flush_redis_service.sh b/SH/redis/flush_redis_service.sh new file mode 100644 index 0000000..a47ea76 --- /dev/null +++ b/SH/redis/flush_redis_service.sh @@ -0,0 +1,20 @@ +#!/bin/bash +# Script chay nhu dich vu de xoa Redis cache moi 2 phut +# CẢNH BÁO: CHỈ DÙNG ĐỂ TEST KHẨN CẤP. SẼ ĐĂNG XUẤT TOÀN BỘ USER. + +# Tim duong dan chinh xac cua redis-cli +REDIS_CLI_PATH=$(which redis-cli) + +if [ -z "$REDIS_CLI_PATH" ]; then + logger -t redis-flusher "LOI: Khong tim thay redis-cli. Thoat." + exit 1 +fi + +while true +do + logger -t redis-flusher "Thuc hien FLUSHALL..." + $REDIS_CLI_PATH FLUSHALL + + # Doi 120 giay (2 phut) + sleep 120 +done diff --git a/sample_size_site_full/adv_crossover.html b/sample_size_site_full/adv_crossover.html index 63770de..0d910ab 100644 --- a/sample_size_site_full/adv_crossover.html +++ b/sample_size_site_full/adv_crossover.html @@ -1,11 +1 @@ - - -
- -This is a placeholder page for Adv Crossover module.
- - + diff --git a/sample_size_site_full/adv_crossover_guide.html b/sample_size_site_full/adv_crossover_guide.html index eb9655c..c13c7cb 100644 --- a/sample_size_site_full/adv_crossover_guide.html +++ b/sample_size_site_full/adv_crossover_guide.html @@ -1,11 +1,213 @@ - + - -This is a placeholder guide page for Adv Crossover Guide.
++ Thiết kế chéo (Crossover Design) là một loại thiết kế nghiên cứu can thiệp + vô cùng hiệu quả. Trong thiết kế này, mỗi người tham gia sẽ lần lượt nhận + TẤT CẢ các can thiệp (ví dụ: đầu tiên dùng thuốc A, sau đó dùng thuốc B). +
++ Ưu điểm lớn nhất là mỗi bệnh nhân tự làm đối chứng cho chính mình. + Điều này giúp loại bỏ "biến thiên giữa các cá nhân" (inter-patient variability) - + vốn là nguồn "nhiễu" (noise) lớn nhất trong các nghiên cứu song song + (parallel-group trials). +
+ ++ Một thiết kế chéo 2x2 (hai can thiệp, hai giai đoạn) điển hình bao gồm: +
++ Việc ngẫu nhiên hóa thứ tự (sequence) giúp chúng ta kiểm soát một yếu tố + gây nhiễu quan trọng gọi là "hiệu ứng giai đoạn" (period effect), + tức là sự thay đổi tự nhiên của bệnh theo thời gian. +
+ ++ Thiết kế này không thể dùng cho mọi loại bệnh. Nó có các điều kiện áp dụng nghiêm ngặt: +
++ Đây là điều kiện bắt buộc. Giữa Giai đoạn 1 và Giai đoạn 2, + phải có một giai đoạn "rửa trôi" đủ dài để đảm bảo tác dụng của can thiệp đầu tiên + đã biến mất hoàn toàn trước khi bắt đầu can thiệp thứ hai. +
++ Nếu giai đoạn này quá ngắn, "hiệu ứng tồn dư" (carryover effect) + sẽ xảy ra, làm sai lệch kết quả của Giai đoạn 2 và khiến phân tích trở nên vô nghĩa. +
+ ++ Đây là trường hợp phổ biến nhất, ví dụ so sánh mức giảm huyết áp, nồng độ HbA1c, v.v. + Vì mỗi bệnh nhân ($i$) có hai kết quả ($\text{Giá_trị}_{i,A}$ và $\text{Giá_trị}_{i,B}$), + chúng ta phân tích dựa trên hiệu số bên trong từng bệnh nhân: + $$d_i = \text{Giá_trị}_{i,A} - \text{Giá_trị}_{i,B}$$ +
++ Bài toán trở thành kiểm định T-test một mẫu (one-sample t-test) + để xem trung bình của các hiệu số ($\mu_d$) có khác 0 hay không. + Công thức tính tổng cỡ mẫu $n$ là: +
++ $$n = \frac{\sigma_d^2 (Z_{\alpha/2} + Z_{\beta})^2}{\Delta^2}$$ +
++ Tham số $\sigma_d$ (Độ lệch chuẩn của hiệu số) rất khó tìm trong y văn. Thay vào đó, + chúng ta thường tìm được $\sigma_p$ (Độ lệch chuẩn "chung" từ nghiên cứu song song) + và $\rho$ (Hệ số tương quan giữa 2 lần đo trên cùng một bệnh nhân). +
++ Chúng có mối liên hệ qua công thức: +
++ $$\sigma_d^2 = 2\sigma_p^2 (1-\rho)$$ +
++ Thay vào công thức cỡ mẫu ở trên, ta có công thức thực tế hơn: +
++ $$n = \frac{2\sigma_p^2 (1-\rho) (Z_{\alpha/2} + Z_{\beta})^2}{\Delta^2}$$ +
+ ++ So sánh 2 thuốc hạ huyết áp (A vs B) với các tham số: + $\Delta = 5 \text{ mmHg}$, $\sigma_p = 15 \text{ mmHg}$ + (độ lệch chuẩn chung), $\alpha=0.05$, power=80%. +
++ 1. Nếu dùng Thiết kế Song song (Parallel): + $$n_{\text{mỗi nhóm}} = \frac{2\sigma_p^2 (Z_{\alpha/2} + Z_{\beta})^2}{\Delta^2} + = \frac{2(15^2)(1.96 + 0.84)^2}{5^2} \approx 141.12$$ + $\rightarrow$ Cần 142 người/nhóm $\times$ 2 nhóm = Tổng 284 người. +
++ 2. Nếu dùng Thiết kế Chéo (Crossover): + Giả sử có tương quan $\rho = 0.4$ giữa 2 lần đo. + $$n_{\text{tổng}} = \frac{2(15^2)(1 - 0.4)(1.96 + 0.84)^2}{5^2} + = \frac{2(225)(0.6)(7.84)}{25} \approx 84.67$$ + $\rightarrow$ Cần Tổng 86 người (43 người/nhóm trình tự). +
++ Kết luận: Thiết kế chéo chỉ cần 86 bệnh nhân, + so với 284 của thiết kế song song, để đạt cùng một công suất. +
++ Khi kết quả là nhị phân (ví dụ: có/không có triệu chứng), + phân tích dựa trên kiểm định McNemar và + tập trung vào các cặp bất đồng (discordant pairs): +
++ Công thức tính tổng cỡ mẫu $n$ (theo Chow et al., 2008) là: +
++ $$n = \frac{\left( Z_{\alpha/2}\sqrt{p_{10} + p_{01}} + Z_{\beta}\sqrt{p_{10} + p_{01} - (p_{10} - p_{01})^2} \right)^2}{(p_{10} - p_{01})^2}$$ +
+Việc ước tính $p_{10}$ và $p_{01}$ (tỷ lệ bất đồng) thường khó hơn + so với việc ước tính $\sigma_d$ và đòi hỏi nghiên cứu thí điểm.
+ ++ Tóm tắt: + - Thiết kế chéo cực kỳ hiệu quả về cỡ mẫu. + - Chỉ dùng cho bệnh mạn tính, ổn định và can thiệp không chữa khỏi. + - Phải có giai đoạn "rửa trôi" (washout) đủ dài để tránh "hiệu ứng tồn dư". + - Phân tích dựa trên kiểm định bắt cặp (paired test). + - Luôn ngẫu nhiên hóa thứ tự (A-B vs B-A) để kiểm soát "Hiệu ứng Giai đoạn". +
+This is a placeholder page for Adv Multilevel module.
- - + diff --git a/sample_size_site_full/adv_multilevel_guide.html b/sample_size_site_full/adv_multilevel_guide.html index 3da8978..fb92141 100644 --- a/sample_size_site_full/adv_multilevel_guide.html +++ b/sample_size_site_full/adv_multilevel_guide.html @@ -1,11 +1,246 @@ - + - -This is a placeholder guide page for Adv Multilevel Guide.
++ Trong thực tế, dữ liệu thường được tổ chức theo cấu trúc phân cấp (hierarchical) + hay lồng ghép (nested). Ví dụ, trong y tế công cộng, dữ liệu + về bệnh nhân (cấp 1) được lồng trong các bệnh viện (cấp 2), và các bệnh viện + lại được lồng trong các tỉnh thành (cấp 3). +
++ Vấn đề cốt lõi là: các cá nhân trong cùng một nhóm (ví dụ: bệnh nhân cùng một bệnh viện, + học sinh cùng một lớp học) thường có xu hướng giống nhau hơn + so với các cá nhân từ các nhóm khác. +
+ ++ Sự tương đồng này vi phạm giả định quan trọng nhất của hồi quy cổ điển + (như OLS): tính độc lập của các quan sát. +
++ Nếu chúng ta bỏ qua cấu trúc lồng ghép này (ví dụ, "gộp" tất cả bệnh nhân lại + và chạy một mô hình hồi quy đơn giản), chúng ta sẽ đánh giá thấp + (underestimate) các sai số chuẩn. Điều này dẫn đến tăng nguy cơ + mắc sai lầm loại I (bác bỏ H0 sai, hay "false positive"), + nghĩa là chúng ta kết luận can thiệp có hiệu quả trong khi thực tế là không. +
++ Mô hình Đa cấp (MLM), hay còn gọi là Mô hình Hỗn hợp (Mixed-Effects Models), + được thiết kế để giải quyết vấn đề này. Nó phân tích đồng thời sự biến thiên + ở nhiều cấp độ. +
++ Mục tiêu của MLM là tách bạch phương sai (sự biến thiên) của kết quả thành: +
++ Đây là dạng MLM đơn giản nhất. Hãy tưởng tượng chúng ta muốn dự đoán kết quả + $Y_{ij}$ (ví dụ: huyết áp) của người $i$ trong bệnh viện $j$. +
++ Cấp 1 (Cá nhân): + $$Y_{ij} = \beta_{0j} + \beta_{1}X_{ij} + e_{ij}$$ +
++ Cấp 2 (Bệnh viện): + $$\beta_{0j} = \gamma_{00} + u_{0j}$$ +
++ Kết hợp lại, chúng ta có Mô hình hỗn hợp (Mixed Model): +
++ $$Y_{ij} = \underbrace{(\gamma_{00} + \beta_{1}X_{ij})}_{\text{Phần cố định (Fixed Effects)}} + \underbrace{(u_{0j} + e_{ij})}_{\text{Phần ngẫu nhiên (Random Effects)}}$$ +
+ ++ Từ phần ngẫu nhiên, chúng ta có hai nguồn phương sai: +
++ Hệ số Tương quan Nội cụm (ICC), ký hiệu là $\rho$, là tỷ lệ phần trăm của + tổng phương sai mà được giải thích bởi sự khác biệt GIỮA các nhóm. +
++ $$\rho = ICC = \frac{\tau_0^2}{\tau_0^2 + \sigma^2}$$ +
++ Diễn giải: Một ICC = 0.05 (hay 5%) có nghĩa là 5% + sự khác biệt về kết quả (ví dụ: huyết áp) là do sự khác biệt + giữa các bệnh viện, và 95% còn lại là do sự khác biệt giữa các + bệnh nhân trong cùng một bệnh viện. ICC càng cao, các cá nhân trong + cùng một cụm càng giống nhau. +
+ ++ Vì các cá nhân trong cùng một cụm có tương quan (với mức $\rho$), + việc thêm một người mới từ cùng một cụm không cung cấp nhiều thông tin "mới" + bằng việc thêm một người từ một cụm hoàn toàn khác. +
++ Do đó, chúng ta cần "lạm phát" (inflate) cỡ mẫu tính toán từ + phương pháp Chọn mẫu Ngẫu nhiên Đơn giản (SRS) + để bù đắp cho sự mất mát thông tin này. + Hệ số lạm phát đó được gọi là Hệ số Thiết kế (Design Effect - DEFF). +
++ $$DEFF = 1 + (m - 1) \times \rho$$ +
++ Tổng cỡ mẫu cuối cùng bạn cần (đã điều chỉnh cho hiệu ứng cụm) là: +
++ $$N_{\text{cluster}} = N_{\text{srs}} \times DEFF$$ +
++ Bối cảnh: Một nghiên cứu can thiệp cộng đồng nhằm giảm tỷ lệ + suy dinh dưỡng. Tính toán ban đầu (dùng công thức SRS) cho thấy cần + $N_{\text{srs}} = 384$ trẻ. +
++ Thiết kế: Nghiên cứu sẽ chọn mẫu theo cụm (chọn ngẫu nhiên các xã, + rồi trong mỗi xã chọn ngẫu nhiên trẻ). + Dự kiến thu thập trung bình $m = 20$ trẻ mỗi xã. + Y văn cho thấy ICC ($\rho$) về tình trạng dinh dưỡng tại các xã là $0.05$. +
++ 1. Tính Hệ số Thiết kế (DEFF): + $$DEFF = 1 + (m - 1) \times \rho = 1 + (20 - 1) \times 0.05$$ + $$DEFF = 1 + (19 \times 0.05) = 1 + 0.95 = 1.95$$ + $\rightarrow$ Cỡ mẫu cần phải tăng lên 1.95 lần. +
++ 2. Tính Tổng cỡ mẫu đã điều chỉnh (Lý thuyết): + $$N_{\text{cluster}} = N_{\text{srs}} \times DEFF = 384 \times 1.95 = 748.8$$ + $\rightarrow$ Cần khoảng 749 trẻ. +
++ 3. Tính số cụm (Số xã) cần thiết: + $$\text{Số cụm (J)} = \frac{N_{\text{cluster}}}{m} = \frac{748.8}{20} = 37.44$$ + $\rightarrow$ Phải làm tròn LÊN, vậy cần 38 xã. +
++ 4. Tính Tổng cỡ mẫu Thực tế: + $$N_{\text{final}} = J \times m = 38 \times 20 = 760$$ +
++ Kết luận: Thay vì 384 trẻ (nếu dùng SRS), nghiên cứu này + cần thu thập tổng cộng 760 trẻ, được chọn từ + 38 xã khác nhau để đảm bảo đủ công suất thống kê. +
++ Tóm tắt: +
+This is a placeholder page for Epi Casecontrol module.
- - + diff --git a/sample_size_site_full/epi_casecontrol_guide.html b/sample_size_site_full/epi_casecontrol_guide.html index ff8d81b..cc74b1c 100644 --- a/sample_size_site_full/epi_casecontrol_guide.html +++ b/sample_size_site_full/epi_casecontrol_guide.html @@ -1,11 +1,219 @@ - + -This is a placeholder guide page for Epi Casecontrol Guide.
+ ++ Nghiên cứu Bệnh–Chứng là một loại hình nghiên cứu quan sát và phân tích cơ bản trong dịch tễ học. + Đặc điểm cốt lõi của thiết kế này là hồi cứu (retrospective). +
+ ++ Thay vì theo dõi một nhóm người theo thời gian để xem ai mắc bệnh (như nghiên cứu Thuần tập – Cohort), + nghiên cứu Bệnh–Chứng bắt đầu bằng việc xác định những người đã mắc bệnh và những người không mắc bệnh, + sau đó nhìn lại quá khứ để so sánh sự khác biệt về phơi nhiễm với một yếu tố nguy cơ nào đó. +
+ ++ Mục tiêu chính là so sánh tỷ lệ (hay đúng hơn là “tỷ suất” – odds) đã từng phơi nhiễm với yếu tố nguy cơ trong quá khứ giữa hai nhóm này. +
+ ++ Thước đo kết hợp chính trong nghiên cứu Bệnh–Chứng là Tỷ số chênh (OR). + Nó cho biết tỷ lệ phơi nhiễm ở nhóm Bệnh cao hơn (hoặc thấp hơn) gấp bao nhiêu lần so với tỷ lệ phơi nhiễm ở nhóm Chứng. +
+ +Dựa trên bảng 2x2 kinh điển:
+ +| + | Bệnh (Cases) | +Chứng (Controls) | +
|---|---|---|
| Phơi nhiễm (+) | +a | +b | +
| Phơi nhiễm (–) | +c | +d | +
Công thức tính Tỷ số chênh (OR):
++ Việc tính toán cỡ mẫu trước khi thực hiện là tối quan trọng để đảm bảo nghiên cứu có đủ + lực mẫu thống kê (statistical power) — tức là có khả năng phát hiện được mối liên quan + (ví dụ, một giá trị OR cụ thể) nếu nó thực sự tồn tại trong quần thể, với một mức ý nghĩa (α) nhất định. +
+ +Bước 1 – Tính tỷ lệ phơi nhiễm kỳ vọng ở nhóm Bệnh (\(p_1\))
+Bước 2 – Tính tỷ lệ phơi nhiễm trung bình có trọng số (\(\bar{p}\))
+Bước 3 – Tính cỡ mẫu nhóm Bệnh (\(n_1\))
+Bước 4 – Cỡ mẫu nhóm Chứng và Tổng
++ Nghiên cứu Bệnh–Chứng là một trong những công cụ hiệu quả và phổ biến nhất trong y tế công cộng nhờ các ưu điểm: + nhanh chóng, ít tốn kém và hiệu quả cao. +
+ +This is a placeholder page for Epi Clinical Trial module.
- - + diff --git a/sample_size_site_full/epi_clinical_trial_guide.html b/sample_size_site_full/epi_clinical_trial_guide.html index ff21bde..aad8dcd 100644 --- a/sample_size_site_full/epi_clinical_trial_guide.html +++ b/sample_size_site_full/epi_clinical_trial_guide.html @@ -1,11 +1,74 @@ - + - -This is a placeholder guide page for Epi Clinical Trial Guide.
+ +Thử nghiệm lâm sàng là nghiên cứu can thiệp, trong đó các đối tượng được phân nhóm ngẫu nhiên vào nhóm điều trị hoặc nhóm kiểm soát, và kết quả được theo dõi để đánh giá hiệu quả của can thiệp.
+ +Giả sử bạn muốn so sánh tỷ lệ kết cục (outcome) giữa 2 nhóm, cỡ mẫu cho mỗi nhóm được tính bằng công thức sau:
+ +Trong đó:
+Z_{1-\alpha/2}: Giá trị Z-score cho mức ý nghĩa (ví dụ 1.96 nếu α=0.05)Z_{1-\beta}: Giá trị Z-score cho lực mẫu (ví dụ 0.84 nếu Power = 0.80)p_1, p_2: Tỷ lệ kết cục mong đợi ở hai nhómq_1 = 1 - p_1, q_2 = 1 - p_2\bar{p} = (p_1 + p_2)/2, \bar{q} = 1 - \bar{p}n: Cỡ mẫu cho mỗi nhómN = 2nMột nhà nghiên cứu muốn đánh giá hiệu quả của vaccine cúm mới. Giả định:
+p_1 = 0.10p_2 = 0.05Áp dụng công thức trên:
+Z_{1-\alpha/2} = 1.96, Z_{1-\beta} = 0.84q_1 = 0.90, q_2 = 0.95\bar{p} = 0.075, \bar{q} = 0.925n ≈ 300 mỗi nhómN = 2n ≈ 600Để thử nghiệm có đủ sức mạnh thống kê phát hiện sự khác biệt giữa nhóm vaccine và nhóm không vaccine, cần ít nhất 300 người mỗi nhóm, tổng 600 người.
+ +This is a placeholder page for Epi Cluster module.
- - + diff --git a/sample_size_site_full/epi_cluster_guide.html b/sample_size_site_full/epi_cluster_guide.html index 26c3a79..ad557fd 100644 --- a/sample_size_site_full/epi_cluster_guide.html +++ b/sample_size_site_full/epi_cluster_guide.html @@ -1,11 +1,104 @@ - + - -This is a placeholder guide page for Epi Cluster Guide.
+ +Trong thiết kế nghiên cứu theo cụm, các đơn vị (cụm) như trường học, cộng đồng, hoặc phòng khám được phân nhóm ngẫu nhiên thành nhóm can thiệp hoặc nhóm kiểm soát, thay vì từng cá nhân riêng lẻ. Điều này giúp giảm nhiễu do tương tác giữa các cá nhân trong cùng cụm và thuận tiện trong các can thiệp cộng đồng.
+ +Khi thiết kế nghiên cứu cụm, cần điều chỉnh cỡ mẫu bằng **hệ số hiệu quả cụm (Design Effect, DE)** để bù cho sự tương đồng giữa các cá nhân trong cùng cụm:
+ +Trong đó:
+n_cá nhân bình thường: Cỡ mẫu tính theo công thức so sánh 2 tỷ lệ cho cá nhân độc lậpm: Số cá nhân trung bình trong mỗi cụm\rho: Hệ số tương quan nội cụm (Intraclass Correlation Coefficient, ICC)n_cá nhân: Cỡ mẫu điều chỉnh theo cụmk = n_cá nhân / mTrong đó:
+Z_{1-\alpha/2}: Giá trị Z-score cho mức ý nghĩa (ví dụ 1.96 nếu α=0.05)Z_{1-\beta}: Giá trị Z-score cho lực mẫu (ví dụ 0.84 nếu Power = 0.80)p_1, p_2: Tỷ lệ kết cục mong đợi ở hai nhómq_1 = 1 - p_1, q_2 = 1 - p_2\bar{p} = (p_1 + p_2)/2, \bar{q} = 1 - \bar{p}n_\text{bình thường}: Cỡ mẫu cho mỗi nhóm nếu cá nhân độc lậpn_\text{cá nhân}: Cỡ mẫu điều chỉnh cho thiết kế cụmMột nghiên cứu muốn đánh giá chương trình giáo dục sức khỏe ở các trường học nhằm giảm tỷ lệ béo phì học sinh. Giả định:
+p_1 = 0.20p_2 = 0.15m = 50ρ = 0.01Tính cỡ mẫu cá nhân bình thường:
+Điều chỉnh cho thiết kế cụm:
+Tổng số cụm cần: k = n_\text{cá nhân} / m ≈ 1341 / 50 ≈ 27 cụm (mỗi nhóm 13-14 trường)
Để thử nghiệm có đủ sức mạnh thống kê, cần khoảng 1341 học sinh, chia thành 27 trường, đảm bảo số lượng học sinh trong mỗi trường như dự kiến. Thiết kế cụm giúp giảm nhiễu do tương tác giữa học sinh cùng trường.
+ +This is a placeholder page for Epi Cohort module.
- - + diff --git a/sample_size_site_full/epi_cohort_guide.html b/sample_size_site_full/epi_cohort_guide.html index 3893e58..2b4cc6a 100644 --- a/sample_size_site_full/epi_cohort_guide.html +++ b/sample_size_site_full/epi_cohort_guide.html @@ -1,11 +1,226 @@ - + -This is a placeholder guide page for Epi Cohort Guide.
+ ++ Nghiên cứu Thuần tập là một loại hình nghiên cứu quan sát mang tính tiến cứu (prospective) hoặc đôi khi là hồi cứu (retrospective), + được dùng để xác định mối quan hệ giữa phơi nhiễm và bệnh tật theo thời gian. +
+ ++ Nhà nghiên cứu bắt đầu với một nhóm người chưa mắc bệnh, chia họ thành hai (hoặc nhiều) nhóm dựa trên tình trạng phơi nhiễm với một yếu tố nguy cơ, + sau đó theo dõi qua thời gian để xem ai phát triển bệnh (outcome) và ai không. +
+ ++ Mục tiêu chính là so sánh nguy cơ mắc bệnh hoặc tỷ lệ mới mắc giữa hai nhóm. +
+ ++ Tỷ số nguy cơ (RR) cho biết xác suất mắc bệnh ở nhóm phơi nhiễm cao hơn (hoặc thấp hơn) bao nhiêu lần so với nhóm không phơi nhiễm. +
+ +Dựa trên bảng 2x2:
+ +| + | Bệnh (+) | +Bệnh (–) | +
|---|---|---|
| Phơi nhiễm (+) | +a | +b | +
| Phơi nhiễm (–) | +c | +d | +
Công thức tính Tỷ số nguy cơ (RR):
+Nếu \( RR = 1 \): không có mối liên quan.
+ Nếu \( RR > 1 \): phơi nhiễm làm tăng nguy cơ bệnh.
+ Nếu \( RR < 1 \): phơi nhiễm có tác dụng bảo vệ.
+ Việc xác định cỡ mẫu thích hợp đảm bảo rằng nghiên cứu có đủ lực thống kê (statistical power) + để phát hiện sự khác biệt thật sự về nguy cơ mắc bệnh giữa nhóm phơi nhiễm và không phơi nhiễm, + với mức ý nghĩa (α) xác định. +
+ +Bước 1 – Tính các giá trị trung bình:
+Bước 2 – Tính cỡ mẫu cho nhóm phơi nhiễm (\(n_1\)):
+Bước 3 – Tính cho nhóm không phơi nhiễm và tổng:
++ Trong đó \(Z_{1 - \alpha/2}\) và \(Z_{1 - \beta}\) là các giá trị Z tương ứng với mức ý nghĩa và lực mẫu mong muốn. +
+ ++ Nghiên cứu Thuần tập là thiết kế chuẩn mực để đánh giá nguyên nhân – kết quả + và được xem là tiêu chuẩn vàng trong các nghiên cứu dịch tễ học quan sát. +
+ +Mỗi nghiên cứu khoa học đều nhằm trả lời một hoặc nhiều câu hỏi nghiên cứu, và các câu hỏi này được cụ thể hóa thành các giả thuyết thống kê (ví dụ: giả thuyết H₀ và giả thuyết Hₐ). Để có thể đưa ra kết luận bác bỏ hay không bác bỏ một giả thuyết, chúng ta cần sử dụng các phép kiểm định thống kê tương ứng (ví dụ: kiểm định t, khi bình phương, ANOVA).
-Do đó, cỡ mẫu của nghiên cứu phải đủ lớn để phép kiểm định thống kê có đủ "năng lực" hay công suất thống kê (1-β) để phát hiện ra một ảnh hưởng (effect size) thực sự tồn tại trong quần thể ở một mức ý nghĩa (α) đã định trước. Nói cách khác, không có sự tách biệt giữa "cỡ mẫu nghiên cứu" và "cỡ mẫu cho kiểm định", chúng là một. Cỡ mẫu nghiên cứu được quyết định bởi yêu cầu của các kiểm định giả thuyết chính.
Do đó, cỡ mẫu của nghiên cứu phải đủ lớn để phép kiểm định thống kê có đủ "năng lực" hay công suất thống kê (1-β) để phát hiện ra một ảnh hưởng (effect size) thực sự tồn tại trong quần thể ở một mức ý nghĩa (α) đã định trước. Nói cách khác, không có sự tách biệt giữa "cỡ mẫu nghiên cứu" và "cỡ mẫu cho kiểm định", chúng là một. Cỡ mẫu nghiên cứu được quyết định bởi yêu cầu của các kiểm định giả thuyết chính.
Trong trường hợp này, quy trình chuẩn mực cần thực hiện như sau:
Lý do: Việc lựa chọn cỡ mẫu lớn nhất đảm bảo rằng nghiên cứu có đủ công suất thống kê cho tất cả các phân tích quan trọng. Nếu chọn một cỡ mẫu nhỏ hơn, nghiên cứu có thể có đủ năng lực để trả lời một số câu hỏi, nhưng sẽ không đủ năng lực (underpowered) để đưa ra kết luận đáng tin cậy cho các câu hỏi nghiên cứu khác yêu cầu cỡ mẫu lớn hơn. Điều này giúp tránh được sai lầm loại II (type II error) – không phát hiện được sự khác biệt trong khi nó thực sự tồn tại.
+Lý do và Diễn giải: Việc lựa chọn cỡ mẫu lớn nhất đảm bảo rằng nghiên cứu có đủ công suất thống kê (ví dụ: 1-β ≥ 80%) cho tất cả các mục tiêu chính.
Đối với các mục tiêu thứ cấp (hoặc các phân tích mang tính khám phá - exploratory analysis), nhà nghiên cứu chấp nhận rằng cỡ mẫu này có thể không đủ công suất (underpowered) để phát hiện các khác biệt/mối liên hệ nhỏ hơn. Khi báo cáo kết quả, bất kỳ kết luận nào từ mục tiêu thứ cấp không đạt đủ công suất thống kê cần được diễn giải một cách thận trọng và ghi nhận rõ ràng trong phần "Hạn chế của nghiên cứu" (Limitations).