四、总体均数可信区间(confidence interval)的估计
用样本指标(统计量,statistic)来估计总体指标(参数,parameter),称为参数估计。是抽样研究的主要目的之一。参数估计的方法有两种。一是点(值)估计(point estimation),如用样本均数估计总体均数。该法简单,但未考虑抽样误差,而抽样误差在抽样研究中又是不可避免的;二是用区间估计(interval estimation),即按一定的可信度估计未知总体均数所在范围。统计上习惯用95%(或99%)可信区间表示总体均数μ有95%(或99%)的可能在某一范围。下面以总体均数μ的95%可信区间为例,介绍其计算公式。σ已知时按正态分布原理计算,σ未知时按t分布原理计算。
(一)σ已知时:由u分布可知,正态曲线下有95%的u值在±1.96之间,即:
-1.96≤u≤+1.96
[img]https://baike.zhuayao.net/Uploads/zyzy/lilunshuji/yufangyixue/yufangyixue061.jpg[alt][/alt][/img]
移项后,x-1.96σx≤μ≤x+1.96σx,故总体均数μ的95%可信区间为
(x-1.96σx,x+1.96σx) 公式(19.3)
(二)σ未知,但n足够大(如n>100)时:由t分布可知,当自由度v越大,t分布越逼近u分布,此时t曲线下有95%的t值约在±1.96之间,即
-1.96≤t≤+1.96
[img]https://baike.zhuayao.net/Uploads/zyzy/lilunshuji/yufangyixue/yufangyixue062.jpg[alt][/alt][/img]
x-1.96σx≤μ≤x+1.96σx,故总体均数μ的95%可是信区间为
(x-1.96sx,x+1.96sx)公式(19.4)
(三)σ未知且n小时:某自由度v的t曲线下有95%的t值在±t0.05(v)之间,即
-t0.05(v)≤t≤t0.05(v)
[img]https://baike.zhuayao.net/Uploads/zyzy/lilunshuji/yufangyixue/yufangyixue063.jpg[alt][/alt][/img]
x-t0.05(v)sx≤μ≤x+t0.05(v)sx,故总体均数μ的95%可信区间为
(x-t0.05(v)sx,x+t0.05(v)sx)公式(19.5)
例19.1 由例18.2某地110名20岁健康男大学生的身高资料,算得身高均数x为172.73(cm),标准差为4.09(cm),试估计该地20岁健康男大学生身高均数的95%可信区间。
该例n=110,n较大,按式(19.4)计算
(172.73-1.96×4.09/[img]https://baike.zhuayao.net/Uploads/zyzy/lilunshuji/yufangyixue/yufangyixue064.jpg[alt][/alt][/img],172.3+1.96×4.09/[img]https://baike.zhuayao.net/Uploads/zyzy/lilunshuji/yufangyixue/yufangyixue064.jpg[alt][/alt][/img])=(171.79,173.49)该地20岁健康男大学生身高均数的95%的可信区间为171.97~173.49(cm)。
例19.2 由例18.1的11名20岁健康男大学生身高资料得出x为172.25(cm),s为3.31(cm),试估计该地20岁健康男大学生身高均数的95%可信区间。
该例n=11,n较小,按式(19.5)计算。V=11-1=10,由t值表查得t0.05(10)=2.228。
(172.25-2.228×3.31/[img]https://baike.zhuayao.net/Uploads/zyzy/lilunshuji/yufangyixue/yufangyixue064.jpg[alt][/alt][/img],172.25+2.228×3.31/[img]https://baike.zhuayao.net/Uploads/zyzy/lilunshuji/yufangyixue/yufangyixue064.jpg[alt][/alt][/img])=(170.03,174.47)该地20岁健康男大学生身高均数的95%可信区间为170.03~174.47(cm)。