Kiểm định Shapiro-Wilk (Shapiro-Wilk Test)
Kiểm định Shapiro-Wilk là một trong những kiểm định thống kê mạnh mẽ và phổ biến nhất được sử dụng để kiểm tra xem một mẫu dữ liệu có tuân theo phân phối chuẩn (normal distribution) hay không.
1. Giả thuyết kiểm định
- \( H_0 \): Dữ liệu của mẫu tuân theo phân phối chuẩn.
- \( H_1 \): Dữ liệu của mẫu không tuân theo phân phối chuẩn.
Lưu ý quan trọng: Trong kiểm định này, chúng ta thường mong muốn có một p-value lớn (p > 0.05) để không bác bỏ giả thuyết \(H_0\), từ đó có thể kết luận rằng dữ liệu tuân theo phân phối chuẩn và đủ điều kiện để sử dụng các kiểm định tham số.
2. Thống kê kiểm định (W-statistic)
Thống kê kiểm định W được tính toán dựa trên sự so sánh giữa các giá trị đã được sắp xếp của mẫu với các giá trị kỳ vọng tương ứng từ một phân phối chuẩn.
\[
W = \frac{(\sum_{i=1}^n a_i x_{(i)})^2}{\sum_{i=1}^n (x_i - \bar{x})^2}
\]
Trong đó:
- \( x_{(i)} \): là giá trị thống kê thứ tự thứ \(i\) (dữ liệu đã được sắp xếp từ nhỏ đến lớn).
- \( \bar{x} \): là trung bình mẫu.
- \( a_i \): là các hằng số được tính toán từ trung bình, phương sai và hiệp phương sai của các thống kê thứ tự từ một mẫu có phân phối chuẩn.
Giá trị W nằm trong khoảng từ 0 đến 1. Giá trị W càng gần 1 thì dữ liệu càng gần với phân phối chuẩn.
3. Ứng dụng trong y tế công cộng
Kiểm tra giả định về tính chuẩn của dữ liệu là một bước cực kỳ quan trọng trước khi thực hiện nhiều phân tích thống kê tham số.
- Trước khi thực hiện T-test hoặc ANOVA: Các kiểm định này đều yêu cầu dữ liệu (hoặc phần dư) phải tuân theo phân phối chuẩn. Kiểm định Shapiro-Wilk giúp xác nhận giả định này.
- Đánh giá dữ liệu lâm sàng: Kiểm tra xem các chỉ số sinh học như huyết áp, cholesterol, BMI trong một mẫu dân số có tuân theo phân phối chuẩn hay không. Nếu không, các phương pháp phi tham số hoặc phép biến đổi dữ liệu có thể cần được xem xét.
- Kiểm tra phần dư của mô hình hồi quy: Trong hồi quy tuyến tính, một giả định quan trọng là phần dư (residuals) của mô hình phải tuân theo phân phối chuẩn. Shapiro-Wilk là một công cụ hiệu quả để kiểm tra giả định này.