二、众数、中位数、百分位数的意义及计算法
[b](一)众数[/b] 出现次数最多的变量值,或频数表上频数最多组的组中值即为众数。如表4.3中坐高的众数是66.5cm。这样仅由观察所得的众数称为观察众数。同一资料常因所用组距不同和下限取值不同,观察众数稍有出入,故又称概约众数,与观察众数相对应的尚有理论众数。理论众数的算法根据频数曲线类型的不同而异,数学上为与极大值相应的横坐标。
[b](二)中位数及百分位数[/b]
1.中位数 将n个变量值从小到大排列后,居中的一数就是中位数,符号为M,有的书上用Md。它将变量值分为两半,一半比它小,一半比它大。
X[XB]1[/XB]<X[XB]2[/XB]<…<M<…X[XB]n-1[/XB]<X[XB]a[/XB]
当n为奇数时
[img]https://baike.zhuayao.net/Uploads/zyzy/lilunshuji/yixuetongjixue/yixuetongjixue035.jpg[alt][/alt][/img] (4.1)
当n为偶数时
[img]https://baike.zhuayao.net/Uploads/zyzy/lilunshuji/yixuetongjixue/yixuetongjixue036.jpg[alt][/alt][/img](4.2)
当资料呈明显偏态,或有个别的特小、特大值存在时,中位数的代表性往往比均数好。例如有5个变量值8、9、9、10、19。其中4个在9左右,但由于受数值19的影响,均数为11,不能很好代表中等水平。求中位数
[img]https://baike.zhuayao.net/Uploads/zyzy/lilunshuji/yixuetongjixue/yixuetongjixue037.jpg[alt][/alt][/img]
比较符合实际。
根据频数表计算连续型变量的中位数可用式(4.3)或式(4.4)
[img]https://baike.zhuayao.net/Uploads/zyzy/lilunshuji/yixuetongjixue/yixuetongjixue038.jpg[alt][/alt][/img](4.3)
或 [img]https://baike.zhuayao.net/Uploads/zyzy/lilunshuji/yixuetongjixue/yixuetongjixue039.jpg[alt][/alt][/img](4.4)
式中L、U分别为中位数所在组的下限及上限,A[XB]1[/XB]为小于L的各组的累计频数,A[XB]2[/XB]为大于U的各组的累计频数,f[XB]M[/XB]、i分别为中位数所在组的频数和组距。现用表4.5说明计算步骤如下:
(1)求出中位数的位置。在频数表上,数据已由小到大排好了。中位数将频数等分为2,因此先计算n/2,得中位数的位置。
n/2=157/2=78.5
(2)列出频数表、计算累计频数。列频数表时,组段的短横“-”写在两个组段下限之间,其意义仍与写在右边的相同,见表4.5第(1)栏。
第(3)栏为累计频数。此例自上而下累计到略小于n/2为止得A[XB]1[/XB]=41,表示住院天数为10天及以下的有41个人。若要知道第78.5人的变量值,就需要从10-15组内再累计(78.5-41=)37.5人。假定该组的49人在10-15天内均匀分布着(见图4.4),那么只要在10天上再加(78.5-41)/49个组距便是中位数了。所以
[img]https://baike.zhuayao.net/Uploads/zyzy/lilunshuji/yixuetongjixue/yixuetongjixue040.jpg[alt][/alt][/img]
用符号表示见式(4.3)。
若将频数自下而上累计到略小于n/2为止,则得A[XB]2[/XB]=67。也得出中位数在10-15组段内。
[img]https://baike.zhuayao.net/Uploads/zyzy/lilunshuji/yixuetongjixue/yixuetongjixue041.jpg[alt][/alt][/img]
图4.4 中位数计算示意图
(3)写出L或U、f[XB]M[/XB]及i。
(4)代入公式得M。
例4.1 求杆菌痢疾治愈者157名住院天数的中位数。
n/2=157/2=78.5
表4.5 杆菌痢疾治愈者的住院天数
[img]https://baike.zhuayao.net/Uploads/zyzy/lilunshuji/yixuetongjixue/yixuetongjixue042.jpg[alt][/alt][/img]
L=10或U=15,f[XB]M[/XB]=49,i=5。
代入公式
[img]https://baike.zhuayao.net/Uploads/zyzy/lilunshuji/yixuetongjixue/yixuetongjixue043.jpg[alt][/alt][/img]
杆菌痢疾治愈者住院天数的中位数为13.8天。
中位数既然把频数等分为二,所以从另一端算起,用式(4.4)可得到同样的结果。
此例若计算治愈者平均住院天数得17.9天。从频数表上可看到157名患者中住院天数少于15天的就有90名,占57.3%,因此中位数13.8天的代表性优于均数17.9天。
2.百分位数 中位数将频数等分为二,亦称二分位数。若将频数等分为四,则称四分位数,共有三个四分位数,即第一、第二、第三四分位数。第二四分位数即中位数。同理,将频数等分为十或一百的分位数称十分位数或百分位数。其实上述各种分位数都可用百分位数表示。百分位数的符号为P[XB]x[/XB],X代表第X百分位。例如第一四分位数、中位数可分别以P[XB]25[/XB]、P[XB]50[/XB]表示。计算百分位数的方法与中位数相似,只是式(4.3)中的n/2以nx/100代替,M以X代替。
[img]https://baike.zhuayao.net/Uploads/zyzy/lilunshuji/yixuetongjixue/yixuetongjixue044.jpg[alt][/alt][/img] (4.5)
式中L[XB]X[/XB]、f[XB]x[/XB]、i[XB]x[/XB]分别为P[XB]x[/XB]所在组的下限、频数及组距。A为小于L[XB]x[/XB]各组的累计频数。
例4.2,求例4.1中住院天数的P[XB]90[/XB]。
(1)计算 [img]https://baike.zhuayao.net/Uploads/zyzy/lilunshuji/yixuetongjixue/yixuetongjixue045.jpg[alt][/alt][/img]
(2)累计频数自上而下至略小于141.3,见表4.5第(4)栏,得A=135。知P[XB]90[/XB]在30-35组内,因此Lx=30,i=5,f[XB]x[/XB]=7
(3)代入公式
[img]https://baike.zhuayao.net/Uploads/zyzy/lilunshuji/yixuetongjixue/yixuetongjixue046.jpg[alt][/alt][/img]
第90百分位数为34.5天,说明有90%的患者住院天数在34.5天以下。