Trong thực tế, dữ liệu thường được tổ chức theo cấu trúc phân cấp (hierarchical) hay lồng ghép (nested). Ví dụ, trong y tế công cộng, dữ liệu về bệnh nhân (cấp 1) được lồng trong các bệnh viện (cấp 2), và các bệnh viện lại được lồng trong các tỉnh thành (cấp 3).
Vấn đề cốt lõi là: các cá nhân trong cùng một nhóm (ví dụ: bệnh nhân cùng một bệnh viện, học sinh cùng một lớp học) thường có xu hướng giống nhau hơn so với các cá nhân từ các nhóm khác.
Sự tương đồng này vi phạm giả định quan trọng nhất của hồi quy cổ điển (như OLS): tính độc lập của các quan sát.
Nếu chúng ta bỏ qua cấu trúc lồng ghép này (ví dụ, "gộp" tất cả bệnh nhân lại và chạy một mô hình hồi quy đơn giản), chúng ta sẽ đánh giá thấp (underestimate) các sai số chuẩn. Điều này dẫn đến tăng nguy cơ mắc sai lầm loại I (bác bỏ H0 sai, hay "false positive"), nghĩa là chúng ta kết luận can thiệp có hiệu quả trong khi thực tế là không.
Mô hình Đa cấp (MLM), hay còn gọi là Mô hình Hỗn hợp (Mixed-Effects Models), được thiết kế để giải quyết vấn đề này. Nó phân tích đồng thời sự biến thiên ở nhiều cấp độ.
Mục tiêu của MLM là tách bạch phương sai (sự biến thiên) của kết quả thành:
Đây là dạng MLM đơn giản nhất. Hãy tưởng tượng chúng ta muốn dự đoán kết quả $Y_{ij}$ (ví dụ: huyết áp) của người $i$ trong bệnh viện $j$.
Cấp 1 (Cá nhân): $$Y_{ij} = \beta_{0j} + \beta_{1}X_{ij} + e_{ij}$$
Cấp 2 (Bệnh viện): $$\beta_{0j} = \gamma_{00} + u_{0j}$$
Kết hợp lại, chúng ta có Mô hình hỗn hợp (Mixed Model):
$$Y_{ij} = \underbrace{(\gamma_{00} + \beta_{1}X_{ij})}_{\text{Phần cố định (Fixed Effects)}} + \underbrace{(u_{0j} + e_{ij})}_{\text{Phần ngẫu nhiên (Random Effects)}}$$
Từ phần ngẫu nhiên, chúng ta có hai nguồn phương sai:
Hệ số Tương quan Nội cụm (ICC), ký hiệu là $\rho$, là tỷ lệ phần trăm của tổng phương sai mà được giải thích bởi sự khác biệt GIỮA các nhóm.
$$\rho = ICC = \frac{\tau_0^2}{\tau_0^2 + \sigma^2}$$
Diễn giải: Một ICC = 0.05 (hay 5%) có nghĩa là 5% sự khác biệt về kết quả (ví dụ: huyết áp) là do sự khác biệt giữa các bệnh viện, và 95% còn lại là do sự khác biệt giữa các bệnh nhân trong cùng một bệnh viện. ICC càng cao, các cá nhân trong cùng một cụm càng giống nhau.
Vì các cá nhân trong cùng một cụm có tương quan (với mức $\rho$), việc thêm một người mới từ cùng một cụm không cung cấp nhiều thông tin "mới" bằng việc thêm một người từ một cụm hoàn toàn khác.
Do đó, chúng ta cần "lạm phát" (inflate) cỡ mẫu tính toán từ phương pháp Chọn mẫu Ngẫu nhiên Đơn giản (SRS) để bù đắp cho sự mất mát thông tin này. Hệ số lạm phát đó được gọi là Hệ số Thiết kế (Design Effect - DEFF).
$$DEFF = 1 + (m - 1) \times \rho$$
Tổng cỡ mẫu cuối cùng bạn cần (đã điều chỉnh cho hiệu ứng cụm) là:
$$N_{\text{cluster}} = N_{\text{srs}} \times DEFF$$
Bối cảnh: Một nghiên cứu can thiệp cộng đồng nhằm giảm tỷ lệ suy dinh dưỡng. Tính toán ban đầu (dùng công thức SRS) cho thấy cần $N_{\text{srs}} = 384$ trẻ.
Thiết kế: Nghiên cứu sẽ chọn mẫu theo cụm (chọn ngẫu nhiên các xã, rồi trong mỗi xã chọn ngẫu nhiên trẻ). Dự kiến thu thập trung bình $m = 20$ trẻ mỗi xã. Y văn cho thấy ICC ($\rho$) về tình trạng dinh dưỡng tại các xã là $0.05$.
1. Tính Hệ số Thiết kế (DEFF): $$DEFF = 1 + (m - 1) \times \rho = 1 + (20 - 1) \times 0.05$$ $$DEFF = 1 + (19 \times 0.05) = 1 + 0.95 = 1.95$$ $\rightarrow$ Cỡ mẫu cần phải tăng lên 1.95 lần.
2. Tính Tổng cỡ mẫu đã điều chỉnh (Lý thuyết): $$N_{\text{cluster}} = N_{\text{srs}} \times DEFF = 384 \times 1.95 = 748.8$$ $\rightarrow$ Cần khoảng 749 trẻ.
3. Tính số cụm (Số xã) cần thiết: $$\text{Số cụm (J)} = \frac{N_{\text{cluster}}}{m} = \frac{748.8}{20} = 37.44$$ $\rightarrow$ Phải làm tròn LÊN, vậy cần 38 xã.
4. Tính Tổng cỡ mẫu Thực tế: $$N_{\text{final}} = J \times m = 38 \times 20 = 760$$
Kết luận: Thay vì 384 trẻ (nếu dùng SRS), nghiên cứu này cần thu thập tổng cộng 760 trẻ, được chọn từ 38 xã khác nhau để đảm bảo đủ công suất thống kê.
Tóm tắt: