一、估计样本含量的意义及条件
我们在第一节里曾提到重复的原则。所谓重复,是指各处理组(对照在实验研究中也被看作是一种处理,而且是必不可少的)的受试对象都应有一定的数量,例数不能太少,所以在抽样调查、临床观察或实验研究中,首先总要考虑样本含量(或叫样本大小)问题。样本太小,使应有的差别不能显示出来,难以获得正确的研究结果,结论也缺乏充分的依据;但样本太大,会增加实际工作中的困难,对实验条件的严格控制也不易做到,并且造成不必要的浪费。所以这里所说的样本含量估计,系指在保证研究结论具有一定可靠性的条件下,确定最少的观察或实验例数。
但是,样本含量又是个比较复杂的问题。要讲清在各种情况下估计样本含量的方法和原理,那是很繁杂的。而且,不同的参考书上介绍的计算公式和工具表往往不一样,以致同一问题所得的结果也可能有出入。所以,不论按哪种公式或工具表求得的结果,也只能是个近似的估计数。
估计样本含量,必须事先明确一些条件与要求:
(一)根据研究目的与资料性质,要先知道一些数据。例如要比较几组计数资料,先要知道百分数或率;要比较几组计量资料,先要知道平均数及标准差。这些数据可从以往的实践,预备试验的结果、兄弟单位的经验或文献资料里得来。
(二)确定容许误差。由于抽样误差的影响,用样本指标估计总体指标常有一定的误差,因而要确定一个样本指标与总体指标相差所容许的限度。此值要求越小,所需例数就越多。
(三)确定把握度(1—β)。β是第二型错误的概率;而1—β的意思是:如果两组确有差别,则在每100次实验中平均能发现出差别来的概率。把握度可用小数(或百分数)表示,一般取0.99、0.95、0.90、0.80、0.50。要求把握度越高,则所需例数直多。
(四)确定显著性水平,即第一型错误的概率(α)。这就是希望在α=0.05的水准上发现差别,还是希望在α=0.01的水准上发现差别。α越少,所需例数越多。
此外,估计样本含量时还应当根据专业知识确定用单侧检验或双侧检验。同一实验,若既可用单侧检验又可用双侧检验,则前者所需例数要少些。