246 lines
11 KiB
HTML
246 lines
11 KiB
HTML
<!DOCTYPE html>
|
|
<html lang="vi">
|
|
<head>
|
|
<meta charset="UTF-8">
|
|
<title>Hướng dẫn về Mô hình Đa cấp (Multilevel Models)</title>
|
|
|
|
<script>
|
|
window.MathJax = {
|
|
tex: {
|
|
inlineMath: [['$', '$'], ['\\(', '\\)']],
|
|
displayMath: [['$$', '$$'], ['\\[', '\\]']]
|
|
},
|
|
svg: { fontCache: 'global' }
|
|
};
|
|
</script>
|
|
<script id="MathJax-script" async
|
|
src="https://cdn.jsdelivr.net/npm/mathjax@3/es5/tex-mml-chtml.js">
|
|
</script>
|
|
|
|
<style>
|
|
.sample-size-guide {
|
|
font-family: Arial, sans-serif;
|
|
line-height: 1.65;
|
|
color: #222;
|
|
max-width: 980px;
|
|
margin: 24px auto;
|
|
padding: 20px;
|
|
}
|
|
.sample-size-guide h2 { color: #0056b3; border-bottom: 2px solid #eee; padding-bottom: 6px; }
|
|
.sample-size-guide h3 { color: #1a73e8; margin-top: 18px; }
|
|
.sample-size-guide h4 { color: #333; margin-top: 16px; }
|
|
.sample-size-guide code { font-family: "Courier New", monospace; background:#f7f7f7; padding:2px 6px; border-radius:4px; }
|
|
.sample-size-guide ul { margin-left: 20px; }
|
|
.sample-size-guide li { margin-bottom: 8px; }
|
|
.note { background:#f1f8ff; border-left:4px solid #1a73e8; padding:10px 12px; margin:12px 0; }
|
|
</style>
|
|
</head>
|
|
|
|
<body>
|
|
<div class="sample-size-guide">
|
|
<h2>Giới thiệu về Mô hình Đa cấp (Multilevel Models - MLM)</h2>
|
|
|
|
<p>
|
|
Trong thực tế, dữ liệu thường được tổ chức theo <strong>cấu trúc phân cấp (hierarchical)</strong>
|
|
hay <strong>lồng ghép (nested)</strong>. Ví dụ, trong y tế công cộng, dữ liệu
|
|
về bệnh nhân (cấp 1) được lồng trong các bệnh viện (cấp 2), và các bệnh viện
|
|
lại được lồng trong các tỉnh thành (cấp 3).
|
|
</p>
|
|
<p>
|
|
Vấn đề cốt lõi là: các cá nhân trong cùng một nhóm (ví dụ: bệnh nhân cùng một bệnh viện,
|
|
học sinh cùng một lớp học) thường có xu hướng <strong>giống nhau hơn</strong>
|
|
so với các cá nhân từ các nhóm khác.
|
|
</p>
|
|
|
|
<div class="note">
|
|
<strong>Vi phạm Giả định Cốt lõi:</strong>
|
|
<p>
|
|
Sự tương đồng này vi phạm giả định quan trọng nhất của hồi quy cổ điển
|
|
(như OLS): <strong>tính độc lập của các quan sát</strong>.
|
|
</p>
|
|
<p>
|
|
Nếu chúng ta bỏ qua cấu trúc lồng ghép này (ví dụ, "gộp" tất cả bệnh nhân lại
|
|
và chạy một mô hình hồi quy đơn giản), chúng ta sẽ <strong>đánh giá thấp
|
|
(underestimate) các sai số chuẩn</strong>. Điều này dẫn đến tăng nguy cơ
|
|
mắc <strong>sai lầm loại I</strong> (bác bỏ H0 sai, hay "false positive"),
|
|
nghĩa là chúng ta kết luận can thiệp có hiệu quả trong khi thực tế là không.
|
|
</p>
|
|
</div>
|
|
|
|
<h3>1. Nguyên lý chung & Cấu trúc Dữ liệu</h3>
|
|
<p>
|
|
Mô hình Đa cấp (MLM), hay còn gọi là Mô hình Hỗn hợp (Mixed-Effects Models),
|
|
được thiết kế để giải quyết vấn đề này. Nó phân tích đồng thời sự biến thiên
|
|
ở nhiều cấp độ.
|
|
</p>
|
|
<ul>
|
|
<li>
|
|
<strong>Cấp 1 (Level 1):</strong> Cấp độ cá nhân (ví dụ: học sinh, bệnh nhân, người dân).
|
|
Đây là nơi chúng ta đo lường kết quả (outcome).
|
|
</li>
|
|
<li>
|
|
<strong>Cấp 2 (Level 2):</strong> Cấp độ nhóm/cụm (ví dụ: lớp học, bệnh viện, xã/phường).
|
|
Các cá nhân ở Cấp 1 được lồng trong các đơn vị ở Cấp 2.
|
|
</li>
|
|
<li>
|
|
<strong>Cấp 3 (Level 3)...:</strong> Mô hình có thể mở rộng cho nhiều cấp
|
|
(ví dụ: lớp học lồng trong trường học, trường học lồng trong quận/huyện).
|
|
</li>
|
|
</ul>
|
|
<p>
|
|
Mục tiêu của MLM là tách bạch phương sai (sự biến thiên) của kết quả thành:
|
|
</p>
|
|
<ul>
|
|
<li>Phương sai <strong>bên trong nhóm</strong> (within-group variance): Sự khác biệt giữa các cá nhân trong cùng một nhóm.</li>
|
|
<li>Phương sai <strong>giữa các nhóm</strong> (between-group variance): Sự khác biệt trung bình giữa các nhóm với nhau.</li>
|
|
</ul>
|
|
|
|
<h3>2. Mô hình & Khái niệm Cốt lõi</h3>
|
|
|
|
<h4>Mô hình Intercept Ngẫu nhiên (Random Intercept Model)</h4>
|
|
<p>
|
|
Đây là dạng MLM đơn giản nhất. Hãy tưởng tượng chúng ta muốn dự đoán kết quả
|
|
$Y_{ij}$ (ví dụ: huyết áp) của người $i$ trong bệnh viện $j$.
|
|
</p>
|
|
<p>
|
|
<strong>Cấp 1 (Cá nhân):</strong>
|
|
$$Y_{ij} = \beta_{0j} + \beta_{1}X_{ij} + e_{ij}$$
|
|
</p>
|
|
<ul>
|
|
<li>$Y_{ij}$: Huyết áp của người $i$ ở bệnh viện $j$.</li>
|
|
<li>$X_{ij}$: Tuổi của người $i$ ở bệnh viện $j$.</li>
|
|
<li>$\beta_{0j}$: Intercept (điểm chặn) <em>riêng</em> của bệnh viện $j$.</li>
|
|
<li>$e_{ij}$: Sai số ngẫu nhiên của cá nhân $i$ (phần biến thiên <em>trong</em> nhóm).</li>
|
|
</ul>
|
|
<p>
|
|
<strong>Cấp 2 (Bệnh viện):</strong>
|
|
$$\beta_{0j} = \gamma_{00} + u_{0j}$$
|
|
</p>
|
|
<ul>
|
|
<li>$\gamma_{00}$: Intercept trung bình chung của TẤT CẢ các bệnh viện.</li>
|
|
<li>$u_{0j}$: Sai số ngẫu nhiên của bệnh viện $j$ (phần biến thiên <em>giữa</em> các nhóm).</li>
|
|
</ul>
|
|
<p>
|
|
Kết hợp lại, chúng ta có <strong>Mô hình hỗn hợp (Mixed Model)</strong>:
|
|
</p>
|
|
<p style="text-align:center;">
|
|
$$Y_{ij} = \underbrace{(\gamma_{00} + \beta_{1}X_{ij})}_{\text{Phần cố định (Fixed Effects)}} + \underbrace{(u_{0j} + e_{ij})}_{\text{Phần ngẫu nhiên (Random Effects)}}$$
|
|
</p>
|
|
|
|
<h4>Hệ số Tương quan Nội cụm (ICC - $\rho$)</h4>
|
|
<p>
|
|
Từ phần ngẫu nhiên, chúng ta có hai nguồn phương sai:
|
|
</p>
|
|
<ul>
|
|
<li>$\sigma^2 = \text{Var}(e_{ij})$: Phương sai <strong>bên trong</strong> nhóm (Within-group variance).</li>
|
|
<li>$\tau_0^2 = \text{Var}(u_{0j})$: Phương sai <strong>giữa</strong> các nhóm (Between-group variance).</li>
|
|
</ul>
|
|
<p>
|
|
Hệ số Tương quan Nội cụm (ICC), ký hiệu là $\rho$, là tỷ lệ phần trăm của
|
|
tổng phương sai mà được giải thích bởi sự khác biệt <strong>GIỮA</strong> các nhóm.
|
|
</p>
|
|
<p style="text-align:center;">
|
|
$$\rho = ICC = \frac{\tau_0^2}{\tau_0^2 + \sigma^2}$$
|
|
</p>
|
|
<p>
|
|
<strong>Diễn giải:</strong> Một ICC = 0.05 (hay 5%) có nghĩa là 5%
|
|
sự khác biệt về kết quả (ví dụ: huyết áp) là do sự khác biệt
|
|
giữa các bệnh viện, và 95% còn lại là do sự khác biệt giữa các
|
|
bệnh nhân trong cùng một bệnh viện. ICC càng cao, các cá nhân trong
|
|
cùng một cụm càng giống nhau.
|
|
</p>
|
|
|
|
<h3>3. Cỡ mẫu & Hệ số Thiết kế (Design Effect - DEFF)</h3>
|
|
<p>
|
|
Vì các cá nhân trong cùng một cụm có tương quan (với mức $\rho$),
|
|
việc thêm một người mới từ cùng một cụm không cung cấp nhiều thông tin "mới"
|
|
bằng việc thêm một người từ một cụm hoàn toàn khác.
|
|
</p>
|
|
<p>
|
|
Do đó, chúng ta cần "lạm phát" (inflate) cỡ mẫu tính toán từ
|
|
phương pháp Chọn mẫu Ngẫu nhiên Đơn giản (SRS)
|
|
để bù đắp cho sự mất mát thông tin này.
|
|
Hệ số lạm phát đó được gọi là <strong>Hệ số Thiết kế (Design Effect - DEFF)</strong>.
|
|
</p>
|
|
<p style="text-align:center;">
|
|
$$DEFF = 1 + (m - 1) \times \rho$$
|
|
</p>
|
|
<ul>
|
|
<li>$m$: Số cá thể trung bình dự kiến thu thập trong mỗi cụm (ví dụ: 20 bệnh nhân/bệnh viện).</li>
|
|
<li>$\rho$: Hệ số tương quan nội cụm (ICC) ước tính từ y văn.</li>
|
|
</ul>
|
|
<p>
|
|
Tổng cỡ mẫu cuối cùng bạn cần (đã điều chỉnh cho hiệu ứng cụm) là:
|
|
</p>
|
|
<p style="text-align:center;">
|
|
$$N_{\text{cluster}} = N_{\text{srs}} \times DEFF$$
|
|
</p>
|
|
<ul>
|
|
<li>$N_{\text{srs}}$: Cỡ mẫu bạn cần nếu dùng Chọn mẫu Ngẫu nhiên Đơn giản (SRS).</li>
|
|
<li>$N_{\text{cluster}}$: Tổng cỡ mẫu đã điều chỉnh cho thiết kế cụm.</li>
|
|
</ul>
|
|
|
|
<div class="note">
|
|
<strong>Ví dụ Y tế Công cộng (Tính cỡ mẫu):</strong>
|
|
<p>
|
|
<strong>Bối cảnh:</strong> Một nghiên cứu can thiệp cộng đồng nhằm giảm tỷ lệ
|
|
suy dinh dưỡng. Tính toán ban đầu (dùng công thức SRS) cho thấy cần
|
|
$N_{\text{srs}} = 384$ trẻ.
|
|
</p>
|
|
<p>
|
|
<strong>Thiết kế:</strong> Nghiên cứu sẽ chọn mẫu theo cụm (chọn ngẫu nhiên các xã,
|
|
rồi trong mỗi xã chọn ngẫu nhiên trẻ).
|
|
Dự kiến thu thập trung bình $m = 20$ trẻ mỗi xã.
|
|
Y văn cho thấy ICC ($\rho$) về tình trạng dinh dưỡng tại các xã là $0.05$.
|
|
</p>
|
|
<p>
|
|
<strong>1. Tính Hệ số Thiết kế (DEFF):</strong>
|
|
$$DEFF = 1 + (m - 1) \times \rho = 1 + (20 - 1) \times 0.05$$
|
|
$$DEFF = 1 + (19 \times 0.05) = 1 + 0.95 = 1.95$$
|
|
$\rightarrow$ Cỡ mẫu cần phải tăng lên <strong>1.95 lần</strong>.
|
|
</p>
|
|
<p>
|
|
<strong>2. Tính Tổng cỡ mẫu đã điều chỉnh (Lý thuyết):</strong>
|
|
$$N_{\text{cluster}} = N_{\text{srs}} \times DEFF = 384 \times 1.95 = 748.8$$
|
|
$\rightarrow$ Cần khoảng 749 trẻ.
|
|
</p>
|
|
<p>
|
|
<strong>3. Tính số cụm (Số xã) cần thiết:</strong>
|
|
$$\text{Số cụm (J)} = \frac{N_{\text{cluster}}}{m} = \frac{748.8}{20} = 37.44$$
|
|
$\rightarrow$ Phải làm tròn LÊN, vậy cần <strong>38 xã</strong>.
|
|
</p>
|
|
<p>
|
|
<strong>4. Tính Tổng cỡ mẫu Thực tế:</strong>
|
|
$$N_{\text{final}} = J \times m = 38 \times 20 = 760$$
|
|
</p>
|
|
<p>
|
|
<strong>Kết luận:</strong> Thay vì 384 trẻ (nếu dùng SRS), nghiên cứu này
|
|
cần thu thập <strong>tổng cộng 760 trẻ</strong>, được chọn từ
|
|
<strong>38 xã khác nhau</strong> để đảm bảo đủ công suất thống kê.
|
|
</p>
|
|
</div>
|
|
|
|
<hr>
|
|
<p>
|
|
<strong>Tóm tắt:</strong>
|
|
</p>
|
|
<ul>
|
|
<li>Mô hình Đa cấp (MLM) là bắt buộc khi dữ liệu có cấu trúc lồng ghép (ví dụ: bệnh nhân trong bệnh viện, học sinh trong trường học).</li>
|
|
<li>Việc bỏ qua cấu trúc này sẽ dẫn đến sai lầm loại I (kết luận sai).</li>
|
|
<li>MLM cho phép phân tích phương sai <strong>bên trong</strong> và <strong>giữa</strong> các nhóm.</li>
|
|
<li><strong>ICC ($\rho$)</strong> đo lường mức độ tương đồng của các cá nhân trong cùng một nhóm.</li>
|
|
<li>Khi tính cỡ mẫu cho nghiên cứu cụm, phải sử dụng <strong>Hệ số Thiết kế (DEFF)</strong> để "lạm phát" cỡ mẫu SRS.</li>
|
|
<li>$DEFF = 1 + (m - 1) \times \rho$.</li>
|
|
</ul>
|
|
|
|
</div>
|
|
|
|
<script>
|
|
document.addEventListener("DOMContentLoaded", () => {
|
|
if (window.MathJax && window.MathJax.typesetPromise) {
|
|
MathJax.typesetPromise();
|
|
}
|
|
});
|
|
</script>
|
|
</body>
|
|
</html> |