Xác định cỡ mẫu là một bước thiết yếu và mang tính nền tảng trong đề cương nghiên cứu khoa học. Một cỡ mẫu được tính toán hợp lý không chỉ đảm bảo tính đại diện của mẫu cho quần thể nghiên cứu mà còn giúp tối ưu hóa việc sử dụng nguồn lực, thời gian và chi phí. Quan trọng hơn, nó đảm bảo nghiên cứu có đủ công suất thống kê (statistical power) để phát hiện ra các mối liên hệ hoặc sự khác biệt có ý nghĩa, từ đó gia tăng độ tin cậy và giá trị khoa học của kết quả nghiên cứu.
Công cụ tính toán cỡ mẫu được sử dụng trong nghiên cứu này được phát triển trên nền tảng ngôn ngữ lập trình R, một công cụ chuẩn mực và mạnh mẽ trong phân tích thống kê, kết hợp với Shiny framework để xây dựng giao diện người dùng tương tác và trực quan.
Về bản chất, việc tính toán cỡ mẫu cho một nghiên cứu chính là quá trình xác định số lượng quan sát tối thiểu cần thiết để thực hiện các kiểm định giả thuyết thống kê (statistical hypothesis testing) đã đề ra trong mục tiêu nghiên cứu.
Mỗi nghiên cứu khoa học đều nhằm trả lời một hoặc nhiều câu hỏi nghiên cứu, và các câu hỏi này được cụ thể hóa thành các giả thuyết thống kê (ví dụ: giả thuyết H₀ và giả thuyết Hₐ). Để có thể đưa ra kết luận bác bỏ hay không bác bỏ một giả thuyết, chúng ta cần sử dụng các phép kiểm định thống kê tương ứng (ví dụ: kiểm định t, khi bình phương, ANOVA).
Do đó, cỡ mẫu của nghiên cứu phải đủ lớn để phép kiểm định thống kê có đủ "năng lực" hay công suất thống kê (1-β)
để phát hiện ra một ảnh hưởng (effect size) thực sự tồn tại trong quần thể ở một mức ý nghĩa (α)
đã định trước. Nói cách khác, không có sự tách biệt giữa "cỡ mẫu nghiên cứu" và "cỡ mẫu cho kiểm định", chúng là một. Cỡ mẫu nghiên cứu được quyết định bởi yêu cầu của các kiểm định giả thuyết chính.
Trong thực tế, một nghiên cứu thường có nhiều hơn một mục tiêu và do đó cần thực hiện nhiều phép kiểm định giả thuyết khác nhau. Ví dụ, một nghiên cứu có thể vừa so sánh tỷ lệ giữa hai nhóm, vừa so sánh giá trị trung bình giữa ba nhóm, và vừa xem xét một mối tương quan. Mỗi phép kiểm định này, với các tham số khác nhau (mức ý nghĩa α, công suất 1-β, độ lớn ảnh hưởng dự kiến), sẽ yêu cầu một cỡ mẫu tối thiểu khác nhau.
Trong trường hợp này, quy trình chuẩn mực cần thực hiện như sau:
Lý do: Việc lựa chọn cỡ mẫu lớn nhất đảm bảo rằng nghiên cứu có đủ công suất thống kê cho tất cả các phân tích quan trọng. Nếu chọn một cỡ mẫu nhỏ hơn, nghiên cứu có thể có đủ năng lực để trả lời một số câu hỏi, nhưng sẽ không đủ năng lực (underpowered) để đưa ra kết luận đáng tin cậy cho các câu hỏi nghiên cứu khác yêu cầu cỡ mẫu lớn hơn. Điều này giúp tránh được sai lầm loại II (type II error) – không phát hiện được sự khác biệt trong khi nó thực sự tồn tại.