二、标准误及其计算

为了表示个体差异的大小,或者说表示某一变量变异程度的大小,可计算标准差等变异指标来说明,现在我们要表示抽样误差的大小,如要问,从同一总体抽取类似的许多样本,各样本均数(或各率)之间的变异程度如何?也可用变异指标来说明。这种指标是: [b](一)均数的标准误[/b] 为了表示均数的抽样误差大小如何,用的一种指标称为均数的标准误。我们以样本均数为变量,求出它们的标准差即可表示其变异程度,所以将样本均数这“标准差”定名为均数的标准误,简称标准误,以区别于通常所说的标准差。标准差表示个体值的散布情形,而标准误则说明样本均数的参差情况,两者不能混淆。下面用抽样实验进一步说明之。 将100名正常人的红细胞数(万/mm[SB]3[/SB])写在100颗大小均匀的豌豆上。这些红细胞数见表6.1,其均数为500,标准差为43。把这些豌豆放在一个口袋里,彻底混匀后取出一颗,记下红细胞数,放回袋内,混匀后再取出一颗,记下数字后再放回去,如此继续下去,这是一个取不完的总体,这样每取10个数字作为一个样本,共抽取了一百个样本,并计算每一样本的均数与标准差,例见表6.2。 表6.1 红细胞数抽样实验用的正态总体 μ=500 σ=43(单位:万/立方厘米)
383410422429430431435442442444
445449450452455456459461462463
465466468469470471472473476477
478479480481482484485486487488
489491492493494495496497498499
500501502503504505506507508509
511512513514515516518519520521
522523524527528529530531532534
535537538539541544545548550551
555556558565569578590599600617
表6.2 红细胞数抽样实验中的样本举例
样本号红细胞数(万/立方毫米),XXS
1383599534442435486478476509544488.661.65
2503506520503489410528488509527498.333.97
3478463617544498485496462482569509.450.96
4529465535473531532556521459383498.452.63
5442493462527520519521512482471494.929.51
第一号样本均数与标准差的计算: X=4.886/10=488.6 [img]https://baike.zhuayao.net/Uploads/zyzy/lilunshuji/yixuetongjixue/yixuetongjixue075.jpg[alt][/alt][/img] 将一百个样本均数加总,得到的数值为50,096.7,又这一百个样本均数平方之和为25,114,830.91,于是代入标准差的计算公式,求得一百个样本均数的标准差又称标准误为 [img]https://baike.zhuayao.net/Uploads/zyzy/lilunshuji/yixuetongjixue/yixuetongjixue076.jpg[alt][/alt][/img] 当总体标准差已知时,可计算理论的标准误σ[XB]χ[/XB],公式是 [img]https://baike.zhuayao.net/Uploads/zyzy/lilunshuji/yixuetongjixue/yixuetongjixue077.jpg[alt][/alt][/img](6.1) 表6.1抽样实验用的总体标准差是43,每个样本的例数是10,代入公式得 [img]https://baike.zhuayao.net/Uploads/zyzy/lilunshuji/yixuetongjixue/yixuetongjixue078.jpg[alt][/alt][/img] 可见由一百个样本均数求得的标准误13.50与理论的标准误13.60比较接近。 在实际工作中,总体标准差往往并不知道,也不象抽样实验那样从同一总体随机抽取n相等的许多样本,而是只有手头一个样本。在此情况下,只能以样本标准差S作为总体标准差σ的估计值。这样,公式6.1中的σ就要用S代替,σ[XB]χ[/XB]改为S[XB]χ[/XB],以资区别。 [img]https://baike.zhuayao.net/Uploads/zyzy/lilunshuji/yixuetongjixue/yixuetongjixue079.jpg[alt][/alt][/img](6.2) 将第1号样本的标准差及例数代入式6.2,得 [img]https://baike.zhuayao.net/Uploads/zyzy/lilunshuji/yixuetongjixue/yixuetongjixue080.jpg[alt][/alt][/img] 再若将第2号样本的数字代入,S[XB]χ[/XB]将成为10.74,余类推。由于不同样本的标准差并不相等,可见S[XB]χ[/XB]也有抽样波动,这一点是值得注意的,但它仍不失为σ[XB]χ[/XB]的较好估计值。 以上介绍了求标准误的三种方法,其实我们平常用的只是式6.2,而通过前两种方法的对比则可使我们明瞭标准误的含义。标准误是描述样本均数变异情况的一个指标,它的大小与总体标准差σ(一般只能用S估计)成正比,而与样本含量n的平方根成反比,因此若标准差小或样本含量大时,求出的标准误就小(标准误小表示样本均数与总体均数较接近),X代表μ较可靠,所以假若手头资料中观察值的变异程度较大(S大)时,为了保 证样本代表总体比较可靠,就得适当增大样本含量(n)。 [b](二)率的标准误[/b] 若总体包括某事件的发生数与未发生数两类,所化成的比例或成数即为总体发生率(符号π)与未发生率(1-π)。从总体中随机抽取许多样本(n相等),算出各个样本率(用P表示),会是或大或小有波动的。为了表示样本率之间或样本率与总体率之间的差异程度,当总体率π已知时,可计算理论的标误σ[XB]p[/XB],其公式是 [img]https://baike.zhuayao.net/Uploads/zyzy/lilunshuji/yixuetongjixue/yixuetongjixue081.jpg[alt][/alt][/img](6.3) 实际工作中往往不知道总体率π这时只能以样本率P作为总体率π的估计值,求得率的标准误,并用S[XB]P[/XB]表示,计算公式为 [img]https://baike.zhuayao.net/Uploads/zyzy/lilunshuji/yixuetongjixue/yixuetongjixue082.jpg[alt][/alt][/img](6.4) 现举例说明其求法。 例6.1 某医生检测了110名成年健康人的尿紫质,发现阳性者11人,阴性者99人,于是算得阳性率P及率的标准误S[XB]P[/XB]如下: P=11/110×100%=10% (用小数表示为0.10) [img]https://baike.zhuayao.net/Uploads/zyzy/lilunshuji/yixuetongjixue/yixuetongjixue083.jpg[alt][/alt][/img] 若要进一步增强样本率估计总体率的可靠性,可加大样本含量。