二、标准误及其计算
为了表示个体差异的大小,或者说表示某一变量变异程度的大小,可计算标准差等变异指标来说明,现在我们要表示抽样误差的大小,如要问,从同一总体抽取类似的许多样本,各样本均数(或各率)之间的变异程度如何?也可用变异指标来说明。这种指标是:
[b](一)均数的标准误[/b] 为了表示均数的抽样误差大小如何,用的一种指标称为均数的标准误。我们以样本均数为变量,求出它们的标准差即可表示其变异程度,所以将样本均数这“标准差”定名为均数的标准误,简称标准误,以区别于通常所说的标准差。标准差表示个体值的散布情形,而标准误则说明样本均数的参差情况,两者不能混淆。下面用抽样实验进一步说明之。
将100名正常人的红细胞数(万/mm[SB]3[/SB])写在100颗大小均匀的豌豆上。这些红细胞数见表6.1,其均数为500,标准差为43。把这些豌豆放在一个口袋里,彻底混匀后取出一颗,记下红细胞数,放回袋内,混匀后再取出一颗,记下数字后再放回去,如此继续下去,这是一个取不完的总体,这样每取10个数字作为一个样本,共抽取了一百个样本,并计算每一样本的均数与标准差,例见表6.2。
表6.1 红细胞数抽样实验用的正态总体
μ=500 σ=43(单位:万/立方厘米)
383 | 410 | 422 | 429 | 430 | 431 | 435 | 442 | 442 | 444 |
445 | 449 | 450 | 452 | 455 | 456 | 459 | 461 | 462 | 463 |
465 | 466 | 468 | 469 | 470 | 471 | 472 | 473 | 476 | 477 |
478 | 479 | 480 | 481 | 482 | 484 | 485 | 486 | 487 | 488 |
489 | 491 | 492 | 493 | 494 | 495 | 496 | 497 | 498 | 499 |
500 | 501 | 502 | 503 | 504 | 505 | 506 | 507 | 508 | 509 |
511 | 512 | 513 | 514 | 515 | 516 | 518 | 519 | 520 | 521 |
522 | 523 | 524 | 527 | 528 | 529 | 530 | 531 | 532 | 534 |
535 | 537 | 538 | 539 | 541 | 544 | 545 | 548 | 550 | 551 |
555 | 556 | 558 | 565 | 569 | 578 | 590 | 599 | 600 | 617 |
表6.2 红细胞数抽样实验中的样本举例
样本号 | 红细胞数(万/立方毫米),X | X | S |
1 | 383 | 599 | 534 | 442 | 435 | 486 | 478 | 476 | 509 | 544 | 488.6 | 61.65 |
2 | 503 | 506 | 520 | 503 | 489 | 410 | 528 | 488 | 509 | 527 | 498.3 | 33.97 |
3 | 478 | 463 | 617 | 544 | 498 | 485 | 496 | 462 | 482 | 569 | 509.4 | 50.96 |
4 | 529 | 465 | 535 | 473 | 531 | 532 | 556 | 521 | 459 | 383 | 498.4 | 52.63 |
5 | 442 | 493 | 462 | 527 | 520 | 519 | 521 | 512 | 482 | 471 | 494.9 | 29.51 |
┇ | ┇ | ┇ | ┇ | ┇ | ┇ | ┇ | ┇ | ┇ | ┇ | ┇ | ┇ | ┇ |
第一号样本均数与标准差的计算:
X=4.886/10=488.6
[img]https://baike.zhuayao.net/Uploads/zyzy/lilunshuji/yixuetongjixue/yixuetongjixue075.jpg[alt][/alt][/img]
将一百个样本均数加总,得到的数值为50,096.7,又这一百个样本均数平方之和为25,114,830.91,于是代入标准差的计算公式,求得一百个样本均数的标准差又称标准误为
[img]https://baike.zhuayao.net/Uploads/zyzy/lilunshuji/yixuetongjixue/yixuetongjixue076.jpg[alt][/alt][/img]
当总体标准差已知时,可计算理论的标准误σ[XB]χ[/XB],公式是
[img]https://baike.zhuayao.net/Uploads/zyzy/lilunshuji/yixuetongjixue/yixuetongjixue077.jpg[alt][/alt][/img](6.1)
表6.1抽样实验用的总体标准差是43,每个样本的例数是10,代入公式得
[img]https://baike.zhuayao.net/Uploads/zyzy/lilunshuji/yixuetongjixue/yixuetongjixue078.jpg[alt][/alt][/img]
可见由一百个样本均数求得的标准误13.50与理论的标准误13.60比较接近。
在实际工作中,总体标准差往往并不知道,也不象抽样实验那样从同一总体随机抽取n相等的许多样本,而是只有手头一个样本。在此情况下,只能以样本标准差S作为总体标准差σ的估计值。这样,公式6.1中的σ就要用S代替,σ[XB]χ[/XB]改为S[XB]χ[/XB],以资区别。
[img]https://baike.zhuayao.net/Uploads/zyzy/lilunshuji/yixuetongjixue/yixuetongjixue079.jpg[alt][/alt][/img](6.2)
将第1号样本的标准差及例数代入式6.2,得
[img]https://baike.zhuayao.net/Uploads/zyzy/lilunshuji/yixuetongjixue/yixuetongjixue080.jpg[alt][/alt][/img]
再若将第2号样本的数字代入,S[XB]χ[/XB]将成为10.74,余类推。由于不同样本的标准差并不相等,可见S[XB]χ[/XB]也有抽样波动,这一点是值得注意的,但它仍不失为σ[XB]χ[/XB]的较好估计值。
以上介绍了求标准误的三种方法,其实我们平常用的只是式6.2,而通过前两种方法的对比则可使我们明瞭标准误的含义。标准误是描述样本均数变异情况的一个指标,它的大小与总体标准差σ(一般只能用S估计)成正比,而与样本含量n的平方根成反比,因此若标准差小或样本含量大时,求出的标准误就小(标准误小表示样本均数与总体均数较接近),X代表μ较可靠,所以假若手头资料中观察值的变异程度较大(S大)时,为了保
证样本代表总体比较可靠,就得适当增大样本含量(n)。
[b](二)率的标准误[/b] 若总体包括某事件的发生数与未发生数两类,所化成的比例或成数即为总体发生率(符号π)与未发生率(1-π)。从总体中随机抽取许多样本(n相等),算出各个样本率(用P表示),会是或大或小有波动的。为了表示样本率之间或样本率与总体率之间的差异程度,当总体率π已知时,可计算理论的标误σ[XB]p[/XB],其公式是
[img]https://baike.zhuayao.net/Uploads/zyzy/lilunshuji/yixuetongjixue/yixuetongjixue081.jpg[alt][/alt][/img](6.3)
实际工作中往往不知道总体率π这时只能以样本率P作为总体率π的估计值,求得率的标准误,并用S[XB]P[/XB]表示,计算公式为
[img]https://baike.zhuayao.net/Uploads/zyzy/lilunshuji/yixuetongjixue/yixuetongjixue082.jpg[alt][/alt][/img](6.4)
现举例说明其求法。
例6.1 某医生检测了110名成年健康人的尿紫质,发现阳性者11人,阴性者99人,于是算得阳性率P及率的标准误S[XB]P[/XB]如下:
P=11/110×100%=10% (用小数表示为0.10)
[img]https://baike.zhuayao.net/Uploads/zyzy/lilunshuji/yixuetongjixue/yixuetongjixue083.jpg[alt][/alt][/img]
若要进一步增强样本率估计总体率的可靠性,可加大样本含量。