計(jì)量資料有離散型變量和連續(xù)型變量。對(duì)離散型變量,可列出變量值及其頻數(shù)如表4.1。若變量值較多時(shí),亦可用組段表示如表4.2。每個(gè)組段的起點(diǎn)稱下限,終點(diǎn)稱上限,上限與下限之差稱組距。如表4.2第一組的下限是0,上限是1。第二組的下限是2上限是3,組距都是1。歸組以后,該組的變量值用組段的中值代表,稱組中值。如第一組的組中值為0.5。
表4.1 某市居民1095天中每天意外死亡人數(shù)(1980~82年)
死亡人數(shù) | 天數(shù) |
0 | 807 |
1 | 250 |
2 | 31 |
3 | 5 |
4 | 0 |
5 | 0 |
6 | 0 |
7 | 1 |
8 | 0 |
┆ | ┆ |
15 | 1 |
合 計(jì) | 1095 |
表4.2 204名軋鋼工人白細(xì)胞中大單核所占百分比
大單核數(shù)(個(gè)/每百白細(xì)胞) | 人數(shù) |
0-1 | 24 |
2-3 | 40 |
4-5 | 55 |
6-7 | 37 |
8-9 | 27 |
10-11 | 18 |
12-13 | 1 |
14-15 | 0 |
16-17 | 1 |
18-19 | 0 |
20-21 | 1 |
合計(jì) | 204 |
若是連續(xù)型變量,組段的寫法與離散型變量的略有不同。如表4.3坐高第一組段下限為61,上限為62;第二組段的下限為62,上限為63。因此,上一組段的上限和下一組段的下限值相同。為便于歸組,上限一般不寫出來(lái)。如第一組寫成“61-”,意思是凡坐高在61至未離散型變最的數(shù)值較大時(shí),亦可按連續(xù)型變量寫組段,如紅細(xì)胞數(shù)(萬(wàn)/mm3)的組段應(yīng)寫成400-419,420-439,…,亦可簡(jiǎn)化寫成400-,420-,…。這樣由組段和頻數(shù)兩部分組成的表稱為頻數(shù)表。下面用表4.4資料說(shuō)明頻數(shù)表編制步驟,…
表4.3 某市7歲男童坐高頻數(shù)表
表 4.4 西安市7歲男童102人的坐高,cm
64.4 | 63.8 | 64.5 | 66.8 | 66.5 | 66.3 | 68.3 | 67.2 | 68.0 | 67.9 |
63.2 | 64.6 | 64.8 | 66.2 | 68.0 | 66.7 | 67.4 | 68.6 | 66.8 | 66.9 |
63.2 | 61.1 | 65.0 | 65.0 | 66.4 | 69.1 | 66.8 | 66.4 | 67.5 | 68.1 |
69.7 | 62.5 | 64.3 | 66.3 | 66.6 | 67.8 | 65.9 | 67.9 | 65.9 | 69.8 |
71.1 | 70.1 | 64.9 | 66.1 | 67.3 | 66.8 | 65.0 | 65.7 | 68.4 | 67.6 |
69.5 | 67.5 | 62.4 | 62.6 | 66.5 | 67.2 | 64.5 | 65.7 | 67.0 | 65.1 |
70.0 | 69.6 | 64.7 | 65.8 | 64.2 | 67.3 | 65.0 | 65.0 | 67.2 | 70.2 |
68.0 | 68.2 | 63.2 | 64.6 | 64.2 | 64.5 | 65.9 | 66.6 | 69.2 | 71.2 |
68.3 | 70.8 | 65.3 | 64.2 | 68.0 | 66.7 | 65.6 | 66.8 | 67.9 | 67.6 |
70.4 | 68.4 | 64.3 | 66.0 | 67.3 | 65.6 | 66.0 | 66.9 | 67.4 | 68.5 |
68.3 | 69.7 |
(一)找出原始資料中的最小、最大值 表4.4坐高的最大值為71.2cm,最小值為61.1cm,最大值與最小值之差稱極差為10.1cm。
(二)定組距 先考慮組數(shù)。資料在100例以上的一般分10-15組。若例數(shù)較少,組數(shù)可相應(yīng)少些;例數(shù)很多,組數(shù)可酌情多些,以能顯示分布的規(guī)律為宜。此例擬分10組。將擬分的組數(shù)除極差(10.1/10≈1)得組距的約數(shù)。再調(diào)整到較方便的數(shù)如0.1、0.2、0.5,1、2、5、10、20、50……等。此例取組距為1。
(三)寫組段 取等于或略小于最小值的整數(shù)為第一組的下限。按組距依次寫出各組段的下限及短橫,見表4.3組段行,注意短橫“-”不能略去。
(四) 劃線記數(shù) 像選舉開票那樣,將變量值逐個(gè)歸入相應(yīng)的組段,如將64.4歸入“64-”組,63.8歸入“63-”組。每歸入一個(gè)變量值,在相應(yīng)的組段內(nèi)劃一豎線,每逢第五線則作一橫線跨在已劃出的四條豎線上,這樣五線連在一起最后計(jì)數(shù)時(shí)就很方便了。劃完后將每個(gè)組段內(nèi)的線條數(shù)寫出,再將各組頻數(shù)合計(jì),頻數(shù)表就編好了。
若事先不能確定合適的組數(shù),可先分細(xì)些,需要時(shí)再將相鄰兩組合并。而分粗了,再要分細(xì),則只得重劃。
表4.4的資料編成頻數(shù)表(見表4.3)后,可看出變量值的分布情況,若繪成直方圖就更直觀。從圖4.1可看到橫坐標(biāo)約為66.5cm處直方最高,表示變量值圍繞在66.5左右的最多;兩側(cè)對(duì)稱下降,大于66.5和小于66.5的變量值個(gè)數(shù)基本相等。這種類型的分布為對(duì)稱分布。第五章介紹的正態(tài)分布是其中最常見的一種。
圖4.1 西安市7歲男童坐高分布
此外,如圖4.2,變量值愈小頻數(shù)愈多圖形呈“L”形,圖4.3的頻數(shù)集中在變量值較小的一邊,右側(cè)尾部拖得很長(zhǎng)。后兩種屬偏態(tài)分布。這三種頻數(shù)分布都只有一個(gè)高峰稱單峰分布。為更準(zhǔn)確地說(shuō)明分布的特征,對(duì)形狀相同的分布作出集中位置和離散程度的比較,就需計(jì)算頻數(shù)分布的一些特別值。如平均數(shù)、百分位數(shù)、極差、標(biāo)準(zhǔn)差、變異系數(shù)等。
圖4.2 某市1095天中居民意外死亡人數(shù)(1980-1982)
圖 4.3 204名軋鋼工人白細(xì)胞中大單核所占百分比
(一)眾數(shù) 出現(xiàn)次數(shù)最多的變量值,或頻數(shù)表上頻數(shù)最多組的組中值即為眾數(shù)。如表4.3中坐高的眾數(shù)是66.5cm。這樣僅由觀察所得的眾數(shù)稱為觀察眾數(shù)。同一資料常因所用組距不同和下限取值不同,觀察眾數(shù)稍有出入,故又稱概約眾數(shù),與觀察眾數(shù)相對(duì)應(yīng)的尚有理論眾數(shù)。理論眾數(shù)的算法根據(jù)頻數(shù)曲線類型的不同而異,數(shù)學(xué)上為與極大值相應(yīng)的橫坐標(biāo)。
(二)中位數(shù)及百分位數(shù)
1.中位數(shù) 將n個(gè)變量值從小到大排列后,居中的一數(shù)就是中位數(shù),符號(hào)為M,有的書上用Md。它將變量值分為兩半,一半比它小,一半比它大。
X1<X2<…<M<…Xn-1<Xa
當(dāng)n為奇數(shù)時(shí)
(4.1)
當(dāng)n為偶數(shù)時(shí)
(4.2)
當(dāng)資料呈明顯偏態(tài),或有個(gè)別的特小、特大值存在時(shí),中位數(shù)的代表性往往比均數(shù)好。例如有5個(gè)變量值8、9、9、10、19。其中4個(gè)在9左右,但由于受數(shù)值19的影響,均數(shù)為11,不能很好代表中等水平。求中位數(shù)
比較符合實(shí)際。
根據(jù)頻數(shù)表計(jì)算連續(xù)型變量的中位數(shù)可用式(4.3)或式(4.4)
(4.3)
或
(4.4)
式中L、U分別為中位數(shù)所在組的下限及上限,A1為小于L的各組的累計(jì)頻數(shù),A2為大于U的各組的累計(jì)頻數(shù)bhskgw.cn,fM、i分別為中位數(shù)所在組的頻數(shù)和組距,F(xiàn)用表4.5說(shuō)明計(jì)算步驟如下:
(1)求出中位數(shù)的位置。在頻數(shù)表上,數(shù)據(jù)已由小到大排好了。中位數(shù)將頻數(shù)等分為2,因此先計(jì)算n/2,得中位數(shù)的位置。
n/2=157/2=78.5
(2)列出頻數(shù)表、計(jì)算累計(jì)頻數(shù)。列頻數(shù)表時(shí),組段的短橫“-”寫在兩個(gè)組段下限之間,其意義仍與寫在右邊的相同,見表4.5第(1)欄。
第(3)欄為累計(jì)頻數(shù)。此例自上而下累計(jì)到略小于n/2為止得A1=41,表示住院天數(shù)為10天及以下的有41個(gè)人。若要知道第78.5人的變量值,就需要從10-15組內(nèi)再累計(jì)(78.5-41=)37.5人。假定該組的49人在10-15天內(nèi)均勻分布著(見圖4.4),那么只要在10天上再加(78.5-41)/49個(gè)組距便是中位數(shù)了。所以
用符號(hào)表示見式(4.3)。
若將頻數(shù)自下而上累計(jì)到略小于n/2為止,則得A2=67。也得出中位數(shù)在10-15組段內(nèi)。
圖4.4 中位數(shù)計(jì)算示意圖
(3)寫出L或U、fM及i。
(4)代入公式得M。
例4.1 求桿菌痢疾治愈者157名住院天數(shù)的中位數(shù)。
n/2=157/2=78.5
表4.5 桿菌痢疾治愈者的住院天數(shù)
L=10或U=15,fM=49,i=5。
代入公式
桿菌痢疾治愈者住院天數(shù)的中位數(shù)為13.8天。
中位數(shù)既然把頻數(shù)等分為二,所以從另一端算起,用式(4.4)可得到同樣的結(jié)果。
此例若計(jì)算治愈者平均住院天數(shù)得17.9天。從頻數(shù)表上可看到157名患者中住院天數(shù)少于15天的就有90名,占57.3%,因此中位數(shù)13.8天的代表性優(yōu)于均數(shù)17.9天。
2.百分位數(shù) 中位數(shù)將頻數(shù)等分為二,亦稱二分位數(shù)。若將頻數(shù)等分為四,則稱四分位數(shù),共有三個(gè)四分位數(shù),即第一、第二、第三四分位數(shù)。第二四分位數(shù)即中位數(shù)。同理,將頻數(shù)等分為十或一百的分位數(shù)稱十分位數(shù)或百分位數(shù)。其實(shí)上述各種分位數(shù)都可用百分位數(shù)表示。百分位數(shù)的符號(hào)為Px,X代表第X百分位。例如第一四分位數(shù)、中位數(shù)可分別以P25、P50表示。計(jì)算百分位數(shù)的方法與中位數(shù)相似,只是式(4.3)中的n/2以nx/100代替,M以X代替。
。4.5)
式中LX、fx、ix分別為Px所在組的下限、頻數(shù)及組距。A為小于Lx各組的累計(jì)頻數(shù)。
例4.2,求例4.1中住院天數(shù)的P90。
(1)計(jì)算
(2)累計(jì)頻數(shù)自上而下至略小于141.3,見表4.5第(4)欄,得A=135。知P90在30-35組內(nèi),因此Lx=30,i=5,fx=7
(3)代入公式
第90百分位數(shù)為34.5天,說(shuō)明有90%的患者住院天數(shù)在34.5天以下。
(一)算術(shù)均數(shù) 簡(jiǎn)稱均數(shù)。設(shè)觀察了n個(gè)變量值X1,X2,……Xa,一般可直接用式(4.6)求樣本均數(shù)X。
式中∑是總和的符號(hào),n是樣本含量即例數(shù)。本書在不會(huì)引起誤解的情況下簡(jiǎn)寫成
X=1/n∑X。4.6)
例4.318-24歲非心臟疾患死亡的男子心臟重量(g)如下,求心重的均數(shù)。
350 | 320 | 260 | 380 | 270 | 235 | 285 | 300 | 300 | 200 |
275 | 280 | 290 | 310 | 300 | 280 | 300 | 310 | 310 | 320 |
X=1/20(350+320+…+320)=5875/20=293.75g
樣本均數(shù)是總體均數(shù)的估計(jì)值,它有兩個(gè)特性。(1)∑(X-X)=0,(2)∑(X-X)2為最小,前者讀者
可自證,后者證明如下:
設(shè):a≠X,則a=X±d d>0
∑(X-a)2=∑(X-X±d)2
。∑[(X-X)±d]2
=∑(X-X)2±2d∑(X-X)+Nd2
從第一個(gè)特性知∑(X-X)=0,因此2d∑(X-X)=0,
得
∑(X-a)2=∑(X-X)2+Nd2
N是例數(shù),不可能為負(fù),所以Nd2也不會(huì)是負(fù)數(shù)。
∑(X-a)2>∑(X-X)2,∑(X-X)2為最小。
當(dāng)用電子計(jì)算機(jī)處理大量實(shí)驗(yàn)數(shù)據(jù),考慮到有較大舍入誤差時(shí),則先取一較近均數(shù)的常數(shù)c ,然后用式(4.7)計(jì)算,可提高均數(shù)的精度。
X=C+1/n×(Xi-C) (4.7)
若每輸入一個(gè)變量值后都希望得到均數(shù),那么bhskgw.cn/yaoshi/可用式(4.8)
X=X n-1+1/n×(Xn-Xn-1 (4.8)
例4.4 仍用例4.3資料,已算得前19例心重的X10=292.37,又測(cè)得X20=320,求X20。
X20=292.37+1/20×(320-292.37)=293.75g
若相同的變量值個(gè)數(shù)較多,或?qū)︻l數(shù)表資料求均數(shù)時(shí),可用式(4.9)計(jì)算X。
或簡(jiǎn)寫為X=1/n∑fX (4.9)
式中K為不同變量值個(gè)數(shù),或頻數(shù)表中的組段數(shù)。Xi為第i個(gè)不同的變量值或頻數(shù)表上的組中值,fi為第i個(gè)變量值的頻數(shù)。
例4.5 計(jì)算表4.5菌痢治愈者的平均住院天數(shù)。
X=1/157(3×2.5+38×7.5……+1×77.5)=17.9天
式(4.9)中某變量值的頻數(shù)愈大,則該變量值對(duì)X的影響亦愈大。因此,頻數(shù)又稱權(quán)數(shù),這樣
計(jì)算出來(lái)的均數(shù)又叫加權(quán)均數(shù)。亦有根據(jù)變量值的重要性進(jìn)行加權(quán),計(jì)算加權(quán)均數(shù)的。
(二)幾何均數(shù) 設(shè)n個(gè)變量值X1,X2,……,Xa呈對(duì)數(shù)正態(tài)分布,其幾何均數(shù)G為
式中∏為連乘的符號(hào)。當(dāng)變量值較多時(shí),乘積很大,計(jì)算不便,常改用下式計(jì)算
(4.10)
或
(4.11)
式中符號(hào)含義同式(4.6)與式(4.9)。
例4.6 求下表中麻疹病毒特異性IgG熒光抗體的平均滴度。
表4.6 52例麻疹患者恢復(fù)期血清麻疹病毒
特異性IgG熒光抗體滴度
IgG滴度倒數(shù) | 例數(shù) |
40 | 3 |
80 | 22 |
160 | 17 |
320 | 9 |
640 | 0 |
1280 | 1 |
G=log-1[1/52×(3log40+22log80+…+log1280)]=129.3
麻疹患者恢復(fù)期血清麻疹病毒特異性IgG熒光抗體的平均滴度為1:129。
式(4.10)包含三個(gè)步驟,(1)令Xi=logXi,則式(4.10)可寫成 ;(2)1/n∑Xi
即對(duì)數(shù)數(shù)值的均數(shù)X;(3)將X取反對(duì)數(shù)即得幾何均數(shù)1og-1X=G。這里不難理解,若將這種資料作對(duì)數(shù)變換后,即可用式(4.6)至式(4.9)的各式計(jì)算均數(shù),得到結(jié)果后再取反對(duì)數(shù)即得幾何均數(shù)。讀者可自已驗(yàn)證。
平均數(shù)是描述一群同質(zhì)變量值集中位置的特征值,用來(lái)說(shuō)明某現(xiàn)象或事物數(shù)量的中等水平。通常用平均數(shù)作為算術(shù)均數(shù)、幾何均數(shù)、眾數(shù)、中位數(shù)等的統(tǒng)稱,而以均數(shù)作為算術(shù)均數(shù)的簡(jiǎn)稱。
1.同質(zhì)的事物或現(xiàn)象才能求平均數(shù) 我們檢查200名正常人的紅細(xì)胞數(shù)(萬(wàn)/mm3)計(jì)算平均數(shù),定出正常值范圍,作為診斷貧血的依據(jù)之一。如果正常人中混有貧血患者,那么求出的平均數(shù)既不能說(shuō)明正常人也不能說(shuō)明貧血患者,有人把它稱為虛構(gòu)的平均數(shù),因?yàn)樗:藬?shù)量特征,不能提供分析的依據(jù)了。因此計(jì)算平均數(shù)以前必須考慮資料的同質(zhì)性。有人研究某藥物的利尿作用,觀察了二條狗、三頭兔子用藥前后的排尿滴數(shù),曾將狗與兔子的排尿滴數(shù)加在一起求平均數(shù)。由于狗體大,排尿滴數(shù)較兔子的多,得到的平均數(shù)對(duì)狗來(lái)說(shuō)似嫌少,而對(duì)兔子來(lái)說(shuō)又顯得太多,這是虛構(gòu)平均數(shù)的又一例。
像狗與兔子,貧血患者與正常人的不同質(zhì)是顯而易見的。但即使是正常人,性別、年齡、地區(qū)不同,紅細(xì)胞數(shù)的均數(shù)也有差異。那么怎樣才算是同質(zhì)呢?是否同質(zhì),要根據(jù)研究目的而定。例如研究痢疾患者的平均治愈日數(shù)時(shí),要考慮不同病原菌、不同型別(急性、慢性等)的患者是不同質(zhì)的。但當(dāng)研究傳染病的住院日數(shù)時(shí),則不同疾。〖、傷寒、……)是不同質(zhì)的,而所有痢疾病人,不論由何種病原菌引起,或是何種型別都認(rèn)為是同質(zhì)的了。若研究各醫(yī)院的平均住院天數(shù)時(shí),醫(yī)院類型(傳染病院、兒童醫(yī)院、綜合醫(yī)院、……)以及同類醫(yī)院中,科室(內(nèi)、外、傳染……)設(shè)置及床位分配不同等就是不同質(zhì)的了。不同質(zhì)的事物就要分組求平均數(shù),以便分析比較。因此科學(xué)的平均數(shù)是建立在分組的基礎(chǔ)上的。
2.用組平均數(shù)補(bǔ)充總平均數(shù) 表4.7是某院1983年的治愈者平均住院天數(shù)?偩鶖(shù)為18天。但從表中可見,它所包含的20類(其他類除外)的疾病中,變態(tài)反應(yīng)及中毒、小兒科疾病住院天數(shù)最短為9天,而結(jié)核病的卻長(zhǎng)達(dá)60天。住院天數(shù)高于總均數(shù)的有10類,治愈人數(shù)共1358人,占治愈總?cè)藬?shù)(其他類除外)的35%。若醫(yī)療質(zhì)量基本不變,多收結(jié)核病人,住院天數(shù)的總均數(shù)無(wú)疑會(huì)延長(zhǎng);而多收小兒患者,總均數(shù)就會(huì)縮短。因此如沒有收容病種的分析,僅從總均數(shù)的延長(zhǎng)或縮短來(lái)看醫(yī)療質(zhì)量是不科學(xué)的。而對(duì)各時(shí)期同種疾病的住院天數(shù)進(jìn)行分析,比較適宜。
表4.7某醫(yī)院1983年各類疾病治愈者的平均住院天數(shù)
病類 | 治愈人數(shù) | 平均住院天數(shù) | 病類 | 治愈人數(shù) | 平均住院天數(shù) |
傳染病寄生蟲病 | 437 | 13 | 外科疾病 | 549 | 18 |
結(jié)核病 | 109 | 60 | 外傷 | 383 | 28 |
呼吸系疾病 | 246 | 14 | 腫瘤 | 65 | 34 |
消化系疾病 | 255 | 24 | 眼科疾病 | 112 | 14 |
內(nèi)分泌疾病 | 41 | 35 | 耳鼻喉科疾病 | 417 | 10 |
循環(huán)系疾病 | 34 | 37 | 口腔科疾病 | 30 | 12 |
血液及造血系統(tǒng)疾病 | 7 | 33 | 皮膚科疾病 | 224 | 22 |
神經(jīng)系疾病 | 111 | 25 | 婦產(chǎn)科疾病 | 78 | 12 |
變態(tài)反應(yīng)及中毒 | 43 | 9 | 小兒疾病 | 601 | 9 |
風(fēng)濕病 | 21 | 10 | 其他 | 35 | 19 |
泌尿系疾病 | 129 | 21 | 合計(jì) | 3927 | 18 |
3.根據(jù)資料的分布選用適當(dāng)?shù)钠骄鶖?shù) 計(jì)量資料如是單峰對(duì)稱分布,宜用均數(shù),亦可用中位數(shù)。若是偏態(tài)分布則中位數(shù)的代表性常較均數(shù)為好。某些傳染病的潛伏期、抗體滴度、細(xì)菌計(jì)數(shù)、率或比的變化速度及某些物質(zhì)濃度等,其頻數(shù)分布明顯偏態(tài),但經(jīng)對(duì)數(shù)代換后近于正態(tài)分布的,如圖4.3資料,應(yīng)計(jì)算幾何均數(shù)以描述其中等水平。