一、正态性检验

有些统计方法只适用于正态分布或近似正态分布资料,如用均数和标准差描述资料的集中或离散情况,用正态分布法确定正常值范围及用t检验两均数间相差是否显着等,因此在用这些方法前,需考虑进行正态性检验。 正态分布的特征是对称和正态峰。分布对称时众数和均数密合,若均数-众数>0,称正偏态。因为有少数变量值很大,使曲线右侧尾部拖得很长,故又称右偏态;若均数-众数<0称负偏态。因为有少数变量值很小,使曲线左侧尾部拖得很长,故又称左偏态,见图7.1(a)。 正态曲线的峰度叫正态峰,见图7.1(b)中的虚线,离均数近的或很远的变量值都较正态峰的多的称尖峭峰,离均数近或很远变量值都较正态峰的少的称平阔峰。 [img]https://baike.zhuayao.net/Uploads/zyzy/lilunshuji/yixuetongjixue/yixuetongjixue117.jpg[alt]频数分布的偏度和峰度[/alt][/img] 图7.1 频数分布的偏度和峰度 正态性检验的方法有两类。一类对偏度、峰度只用一个指标综合检验,另一类是对两者各用一个指标检验,前者有W法、D法、正态概率纸法等,后者有动差法亦称矩法。现仅将W法与动差法分述于下; 1.W法 此法宜用于小样本资料的正态性检验,尤其是n≤50时,检验步骤如下; (1)将n个变量值X[XB]i[/XB]从小至大排队编秩。 X[XB]1[/XB]<X[XB]2[/XB]<……<XN<p 见表7.5第(1)栏,表中第(2)、第(3)栏是变量值,第(2)栏由上而下从小至大排列,第(3)栏由下而上从小至大排列。第(4)栏是第(3)栏与第(2)栏之差。 (2)由附表5按n查出a[XB]in[/XB]系数列入表7.5第(5)栏,由于当n为奇数时,对应于中位数秩次的a[XB]in[/XB]为0,所以中位数只列出,不参加计算。第(6)栏是第(5)栏与第(4)栏的乘积。 (3)按式(7.8)计算W值 [img]https://baike.zhuayao.net/Uploads/zyzy/lilunshuji/yixuetongjixue/yixuetongjixue118.jpg[alt][/alt][/img](7.8) 式中分子的∑,当n是偶数时,为 [img]https://baike.zhuayao.net/Uploads/zyzy/lilunshuji/yixuetongjixue/yixuetongjixue119.jpg[alt][/alt][/img]的缩写,当n是奇数时为 [img]https://baike.zhuayao.net/Uploads/zyzy/lilunshuji/yixuetongjixue/yixuetongjixue120.jpg[alt][/alt][/img]的缩写,表7.5 第(6)栏的合计平方后即为分子。分母按原始资料计算。 (4)查附表6得P值,作出推断结论,按n查得W(n,α),α是检验前指定的检验水准,若W>W(n,α)则在α水准上按受H[XB]0[/XB],资料来自正态分布总体,或服从正态分布;若W≤W(n,α),则在α水准上拒绝H[XB]0[/XB],接受H[XB]1[/XB],资料非正态。 例7.8 测得20例40—49岁健康人右侧腓总神经的传导速度(m/sec)如表7.5第(2)、第(3)栏,试检验此资料是否服从正态分布。 H[XB]0[/XB]:总体服从正态分布 H[XB]1[/XB]:总体为非正态分布 α=0.05 计算表7.5各栏。 表7.5 W法正态性检验计算表
秩号传导速度(m/sec)
i
(1)
X[XB]i
[/XB](2)
X[XB]a-i+1
[/XB](3)
X[XB]a-i+1[/XB]-X[XB]i
[/XB](4)=(3)-(2)
a[XB]in
[/XB](5)
a[XB]in[/XB](X[XB]a-i+1[/XB]-X[XB]i[/XB])
(6)=(5)(4)
140.756.716.00.47347.5744
240.956.015.10.32114.8486
346.055.09.00.25652.3085
447.654.97.30.20851.5221
547.753.55.80.16860.9779
648.352.94.60.13340.6136
749.151.82.70.10130.2735
850.050.90.90.07110.0640
950.150.90.80.04220.0338
1050.250.80.60.01400.0084
18.2240∑a[XB]in[/XB](X[XB]a-i+1[/XB]-X[XB]i[/XB])
∑X[XB]i[/XB]=1004  ∑X[XB]i[/XB][SB]2[/SB]=50756.16  ∑(X-x)[SB]2[/SB]=355.36 代入式(7.8) W=(18.2240)[SB]2[/SB]/355.36=0.9347 查附表6,n=20,α=0.05,W[XB](20,0.05)[/XB]=0.905 W>W[XB](20,0.05)[/XB] P>0.1,在α=0.05水准上接受H[XB]0[/XB],该资料服从正态分布。 2.动差法 又称矩法。既能用于小样本资料,亦可用于大样本资料的正态性检验。本法运用数学上三级动差和四组动差分别组成偏度系数与峰度系数,然后检验资料中否服从正态分布。当频数分布为正态时,偏度系数与峰度系数分别等于0,但从正态分布总体中抽出的随机样本,由于存在抽样误差,其样本偏度系数g[XB]1[/XB]与样本峰度系数g[XB]2[/XB]不一定为0,为此,需检验g[XB]1[/XB]、g[XB]2[/XB]与0的相差是否有显著性。其检验假设为①偏度系数等于O,即频数分布对称;②峰度系数等于0,即为正态峰。 偏度系数g[XB]1[/XB]、峰度系数g[XB]2[/XB]的公式见式(7.9)与(7.11)。当用频数表资料计算时可用式(7.10)与式(7.12),式中n为例数,f为频数。 [img]https://baike.zhuayao.net/Uploads/zyzy/lilunshuji/yixuetongjixue/yixuetongjixue121.jpg[alt][/alt][/img] [img]https://baike.zhuayao.net/Uploads/zyzy/lilunshuji/yixuetongjixue/yixuetongjixue122.jpg[alt][/alt][/img](7.10) [img]https://baike.zhuayao.net/Uploads/zyzy/lilunshuji/yixuetongjixue/yixuetongjixue123.jpg[alt][/alt][/img](7.11) [img]https://baike.zhuayao.net/Uploads/zyzy/lilunshuji/yixuetongjixue/yixuetongjixue124.jpg[alt][/alt][/img](7.12) g[XB]1[/XB]、g[XB]2[/XB]的抽样误差分别为S[XB]g1[/XB]与S[XB]g2[/XB],见式(7.13)与式(7.14) [img]https://baike.zhuayao.net/Uploads/zyzy/lilunshuji/yixuetongjixue/yixuetongjixue125.jpg[alt][/alt][/img](7.13) [img]https://baike.zhuayao.net/Uploads/zyzy/lilunshuji/yixuetongjixue/yixuetongjixue126.jpg[alt][/alt][/img](7.14) 假设检验用u检验,其公式为 u[XB]1[/XB]=g[XB]1[/XB]/S[XB]g1[/XB]        (7.15) u[XB]2[/XB]=g[XB]2[/XB]/S[XB]g2[/XB]        (7.16) u的显著性界限为 ∣u∣<1.96P>0.05在α=0.05的水准上接受H[XB]0[/XB]。 1.96≤∣u∣<2.580.05≥P>0.01在α=0.05的水准上拒绝H[XB]0[/XB]。 ∣u∣≥2.58P≤0.01在α=0.01的水准上拒绝H[XB]0[/XB]。 例7.9 用动差法检验例7.8的资料是否服从正态分布。 1.H[XB]0[/XB]:频数分布对称,H[XB]1[/XB]:频数分布不对称。 2.H[XB]0[/XB]:频数分布为正态峰,H[XB]1[/XB]:频数分布不是正态峰。 α=0.05 ∑(X-x )[SB]2[/SB]=355.36,∑(X-x )[SB]3[/SB]=-1032.45 ∑(X-x )[SB]4[/SB]=20150.4316 n=20 [img]https://baike.zhuayao.net/Uploads/zyzy/lilunshuji/yixuetongjixue/yixuetongjixue127.jpg[alt][/alt][/img] [img]https://baike.zhuayao.net/Uploads/zyzy/lilunshuji/yixuetongjixue/yixuetongjixue128.jpg[alt][/alt][/img] u[XB]2[/XB]=0.6221/0.9924=0.627 P>0.20 在α=0.05的水准上接受H[XB]0[/XB],频数分布对称(P>0.05),并为正态峰(P>0.20)。因此可认为该资料服从正态分布。