Files
Documentation/sample_size_site_full/adv_multilevel_guide.html
admin a8896e90e0 add
Commit
2025-10-22 06:20:05 +07:00

246 lines
11 KiB
HTML

<!DOCTYPE html>
<html lang="vi">
<head>
<meta charset="UTF-8">
<title>Hướng dẫn về Mô hình Đa cấp (Multilevel Models)</title>
<script>
window.MathJax = {
tex: {
inlineMath: [['$', '$'], ['\\(', '\\)']],
displayMath: [['$$', '$$'], ['\\[', '\\]']]
},
svg: { fontCache: 'global' }
};
</script>
<script id="MathJax-script" async
src="https://cdn.jsdelivr.net/npm/mathjax@3/es5/tex-mml-chtml.js">
</script>
<style>
.sample-size-guide {
font-family: Arial, sans-serif;
line-height: 1.65;
color: #222;
max-width: 980px;
margin: 24px auto;
padding: 20px;
}
.sample-size-guide h2 { color: #0056b3; border-bottom: 2px solid #eee; padding-bottom: 6px; }
.sample-size-guide h3 { color: #1a73e8; margin-top: 18px; }
.sample-size-guide h4 { color: #333; margin-top: 16px; }
.sample-size-guide code { font-family: "Courier New", monospace; background:#f7f7f7; padding:2px 6px; border-radius:4px; }
.sample-size-guide ul { margin-left: 20px; }
.sample-size-guide li { margin-bottom: 8px; }
.note { background:#f1f8ff; border-left:4px solid #1a73e8; padding:10px 12px; margin:12px 0; }
</style>
</head>
<body>
<div class="sample-size-guide">
<h2>Giới thiệu về Mô hình Đa cấp (Multilevel Models - MLM)</h2>
<p>
Trong thực tế, dữ liệu thường được tổ chức theo <strong>cấu trúc phân cấp (hierarchical)</strong>
hay <strong>lồng ghép (nested)</strong>. Ví dụ, trong y tế công cộng, dữ liệu
về bệnh nhân (cấp 1) được lồng trong các bệnh viện (cấp 2), và các bệnh viện
lại được lồng trong các tỉnh thành (cấp 3).
</p>
<p>
Vấn đề cốt lõi là: các cá nhân trong cùng một nhóm (ví dụ: bệnh nhân cùng một bệnh viện,
học sinh cùng một lớp học) thường có xu hướng <strong>giống nhau hơn</strong>
so với các cá nhân từ các nhóm khác.
</p>
<div class="note">
<strong>Vi phạm Giả định Cốt lõi:</strong>
<p>
Sự tương đồng này vi phạm giả định quan trọng nhất của hồi quy cổ điển
(như OLS): <strong>tính độc lập của các quan sát</strong>.
</p>
<p>
Nếu chúng ta bỏ qua cấu trúc lồng ghép này (ví dụ, "gộp" tất cả bệnh nhân lại
và chạy một mô hình hồi quy đơn giản), chúng ta sẽ <strong>đánh giá thấp
(underestimate) các sai số chuẩn</strong>. Điều này dẫn đến tăng nguy cơ
mắc <strong>sai lầm loại I</strong> (bác bỏ H0 sai, hay "false positive"),
nghĩa là chúng ta kết luận can thiệp có hiệu quả trong khi thực tế là không.
</p>
</div>
<h3>1. Nguyên lý chung & Cấu trúc Dữ liệu</h3>
<p>
Mô hình Đa cấp (MLM), hay còn gọi là Mô hình Hỗn hợp (Mixed-Effects Models),
được thiết kế để giải quyết vấn đề này. Nó phân tích đồng thời sự biến thiên
ở nhiều cấp độ.
</p>
<ul>
<li>
<strong>Cấp 1 (Level 1):</strong> Cấp độ cá nhân (ví dụ: học sinh, bệnh nhân, người dân).
Đây là nơi chúng ta đo lường kết quả (outcome).
</li>
<li>
<strong>Cấp 2 (Level 2):</strong> Cấp độ nhóm/cụm (ví dụ: lớp học, bệnh viện, xã/phường).
Các cá nhân ở Cấp 1 được lồng trong các đơn vị ở Cấp 2.
</li>
<li>
<strong>Cấp 3 (Level 3)...:</strong> Mô hình có thể mở rộng cho nhiều cấp
(ví dụ: lớp học lồng trong trường học, trường học lồng trong quận/huyện).
</li>
</ul>
<p>
Mục tiêu của MLM là tách bạch phương sai (sự biến thiên) của kết quả thành:
</p>
<ul>
<li>Phương sai <strong>bên trong nhóm</strong> (within-group variance): Sự khác biệt giữa các cá nhân trong cùng một nhóm.</li>
<li>Phương sai <strong>giữa các nhóm</strong> (between-group variance): Sự khác biệt trung bình giữa các nhóm với nhau.</li>
</ul>
<h3>2. Mô hình & Khái niệm Cốt lõi</h3>
<h4>Mô hình Intercept Ngẫu nhiên (Random Intercept Model)</h4>
<p>
Đây là dạng MLM đơn giản nhất. Hãy tưởng tượng chúng ta muốn dự đoán kết quả
$Y_{ij}$ (ví dụ: huyết áp) của người $i$ trong bệnh viện $j$.
</p>
<p>
<strong>Cấp 1 (Cá nhân):</strong>
$$Y_{ij} = \beta_{0j} + \beta_{1}X_{ij} + e_{ij}$$
</p>
<ul>
<li>$Y_{ij}$: Huyết áp của người $i$ ở bệnh viện $j$.</li>
<li>$X_{ij}$: Tuổi của người $i$ ở bệnh viện $j$.</li>
<li>$\beta_{0j}$: Intercept (điểm chặn) <em>riêng</em> của bệnh viện $j$.</li>
<li>$e_{ij}$: Sai số ngẫu nhiên của cá nhân $i$ (phần biến thiên <em>trong</em> nhóm).</li>
</ul>
<p>
<strong>Cấp 2 (Bệnh viện):</strong>
$$\beta_{0j} = \gamma_{00} + u_{0j}$$
</p>
<ul>
<li>$\gamma_{00}$: Intercept trung bình chung của TẤT CẢ các bệnh viện.</li>
<li>$u_{0j}$: Sai số ngẫu nhiên của bệnh viện $j$ (phần biến thiên <em>giữa</em> các nhóm).</li>
</ul>
<p>
Kết hợp lại, chúng ta có <strong>Mô hình hỗn hợp (Mixed Model)</strong>:
</p>
<p style="text-align:center;">
$$Y_{ij} = \underbrace{(\gamma_{00} + \beta_{1}X_{ij})}_{\text{Phần cố định (Fixed Effects)}} + \underbrace{(u_{0j} + e_{ij})}_{\text{Phần ngẫu nhiên (Random Effects)}}$$
</p>
<h4>Hệ số Tương quan Nội cụm (ICC - $\rho$)</h4>
<p>
Từ phần ngẫu nhiên, chúng ta có hai nguồn phương sai:
</p>
<ul>
<li>$\sigma^2 = \text{Var}(e_{ij})$: Phương sai <strong>bên trong</strong> nhóm (Within-group variance).</li>
<li>$\tau_0^2 = \text{Var}(u_{0j})$: Phương sai <strong>giữa</strong> các nhóm (Between-group variance).</li>
</ul>
<p>
Hệ số Tương quan Nội cụm (ICC), ký hiệu là $\rho$, là tỷ lệ phần trăm của
tổng phương sai mà được giải thích bởi sự khác biệt <strong>GIỮA</strong> các nhóm.
</p>
<p style="text-align:center;">
$$\rho = ICC = \frac{\tau_0^2}{\tau_0^2 + \sigma^2}$$
</p>
<p>
<strong>Diễn giải:</strong> Một ICC = 0.05 (hay 5%) có nghĩa là 5%
sự khác biệt về kết quả (ví dụ: huyết áp) là do sự khác biệt
giữa các bệnh viện, và 95% còn lại là do sự khác biệt giữa các
bệnh nhân trong cùng một bệnh viện. ICC càng cao, các cá nhân trong
cùng một cụm càng giống nhau.
</p>
<h3>3. Cỡ mẫu & Hệ số Thiết kế (Design Effect - DEFF)</h3>
<p>
Vì các cá nhân trong cùng một cụm có tương quan (với mức $\rho$),
việc thêm một người mới từ cùng một cụm không cung cấp nhiều thông tin "mới"
bằng việc thêm một người từ một cụm hoàn toàn khác.
</p>
<p>
Do đó, chúng ta cần "lạm phát" (inflate) cỡ mẫu tính toán từ
phương pháp Chọn mẫu Ngẫu nhiên Đơn giản (SRS)
để bù đắp cho sự mất mát thông tin này.
Hệ số lạm phát đó được gọi là <strong>Hệ số Thiết kế (Design Effect - DEFF)</strong>.
</p>
<p style="text-align:center;">
$$DEFF = 1 + (m - 1) \times \rho$$
</p>
<ul>
<li>$m$: Số cá thể trung bình dự kiến thu thập trong mỗi cụm (ví dụ: 20 bệnh nhân/bệnh viện).</li>
<li>$\rho$: Hệ số tương quan nội cụm (ICC) ước tính từ y văn.</li>
</ul>
<p>
Tổng cỡ mẫu cuối cùng bạn cần (đã điều chỉnh cho hiệu ứng cụm) là:
</p>
<p style="text-align:center;">
$$N_{\text{cluster}} = N_{\text{srs}} \times DEFF$$
</p>
<ul>
<li>$N_{\text{srs}}$: Cỡ mẫu bạn cần nếu dùng Chọn mẫu Ngẫu nhiên Đơn giản (SRS).</li>
<li>$N_{\text{cluster}}$: Tổng cỡ mẫu đã điều chỉnh cho thiết kế cụm.</li>
</ul>
<div class="note">
<strong>Ví dụ Y tế Công cộng (Tính cỡ mẫu):</strong>
<p>
<strong>Bối cảnh:</strong> Một nghiên cứu can thiệp cộng đồng nhằm giảm tỷ lệ
suy dinh dưỡng. Tính toán ban đầu (dùng công thức SRS) cho thấy cần
$N_{\text{srs}} = 384$ trẻ.
</p>
<p>
<strong>Thiết kế:</strong> Nghiên cứu sẽ chọn mẫu theo cụm (chọn ngẫu nhiên các xã,
rồi trong mỗi xã chọn ngẫu nhiên trẻ).
Dự kiến thu thập trung bình $m = 20$ trẻ mỗi xã.
Y văn cho thấy ICC ($\rho$) về tình trạng dinh dưỡng tại các xã là $0.05$.
</p>
<p>
<strong>1. Tính Hệ số Thiết kế (DEFF):</strong>
$$DEFF = 1 + (m - 1) \times \rho = 1 + (20 - 1) \times 0.05$$
$$DEFF = 1 + (19 \times 0.05) = 1 + 0.95 = 1.95$$
$\rightarrow$ Cỡ mẫu cần phải tăng lên <strong>1.95 lần</strong>.
</p>
<p>
<strong>2. Tính Tổng cỡ mẫu đã điều chỉnh (Lý thuyết):</strong>
$$N_{\text{cluster}} = N_{\text{srs}} \times DEFF = 384 \times 1.95 = 748.8$$
$\rightarrow$ Cần khoảng 749 trẻ.
</p>
<p>
<strong>3. Tính số cụm (Số xã) cần thiết:</strong>
$$\text{Số cụm (J)} = \frac{N_{\text{cluster}}}{m} = \frac{748.8}{20} = 37.44$$
$\rightarrow$ Phải làm tròn LÊN, vậy cần <strong>38 xã</strong>.
</p>
<p>
<strong>4. Tính Tổng cỡ mẫu Thực tế:</strong>
$$N_{\text{final}} = J \times m = 38 \times 20 = 760$$
</p>
<p>
<strong>Kết luận:</strong> Thay vì 384 trẻ (nếu dùng SRS), nghiên cứu này
cần thu thập <strong>tổng cộng 760 trẻ</strong>, được chọn từ
<strong>38 xã khác nhau</strong> để đảm bảo đủ công suất thống kê.
</p>
</div>
<hr>
<p>
<strong>Tóm tắt:</strong>
</p>
<ul>
<li>Mô hình Đa cấp (MLM) là bắt buộc khi dữ liệu có cấu trúc lồng ghép (ví dụ: bệnh nhân trong bệnh viện, học sinh trong trường học).</li>
<li>Việc bỏ qua cấu trúc này sẽ dẫn đến sai lầm loại I (kết luận sai).</li>
<li>MLM cho phép phân tích phương sai <strong>bên trong</strong><strong>giữa</strong> các nhóm.</li>
<li><strong>ICC ($\rho$)</strong> đo lường mức độ tương đồng của các cá nhân trong cùng một nhóm.</li>
<li>Khi tính cỡ mẫu cho nghiên cứu cụm, phải sử dụng <strong>Hệ số Thiết kế (DEFF)</strong> để "lạm phát" cỡ mẫu SRS.</li>
<li>$DEFF = 1 + (m - 1) \times \rho$.</li>
</ul>
</div>
<script>
document.addEventListener("DOMContentLoaded", () => {
if (window.MathJax && window.MathJax.typesetPromise) {
MathJax.typesetPromise();
}
});
</script>
</body>
</html>