一、均數(shù)的抽樣誤差
第十六章講了總體與樣本的關(guān)系。抽樣研究的目的是用樣本信息推斷總體特征。假設(shè)要了解某地20歲健康男大學(xué)生身高的總體均數(shù),我們在該地隨機(jī)抽取了110名健康男大學(xué)生,得身高的樣本均數(shù)為172.73(cm),可用它估計(jì)該地20歲健康男大學(xué)生身高的總體均數(shù)。由于存在變異,用樣本算得的樣本均數(shù)x往往不等于總體均數(shù)μ;若再從該地20歲健康男大學(xué)生中隨機(jī)抽取含量皆為110人的很多個(gè)樣本,因各樣本包含的個(gè)體不同,所得的各個(gè)樣本均數(shù)也不一定都相等,這種由抽樣而造成的樣本均數(shù)與總體均數(shù)之差異或各樣本均數(shù)之差異稱為均數(shù)的抽樣誤差。
在抽樣研究中,抽樣誤差是不可避免的,但可以估計(jì)其大小,可通過下面的模擬試驗(yàn)說明,F(xiàn)把例18.2中110名20歲健康男大學(xué)生的身高寫在110個(gè)玻璃球上,把該110個(gè)身高數(shù)值作為假設(shè)的有限總體,其總體均數(shù)μ=172.73(cm),標(biāo)準(zhǔn)差σ為4.09(cm)。將這些玻璃球放在布袋中作隨機(jī)抽樣試驗(yàn),每次從中隨機(jī)抽取10個(gè)玻璃球?yàn)橐粯颖荆涗浵聰?shù)據(jù)并計(jì)算其均數(shù)、標(biāo)準(zhǔn)差、然后把10個(gè)玻璃球再放入布袋,充分混勻后再抽,共重復(fù)100次,求得100個(gè)樣本均數(shù)x和標(biāo)準(zhǔn)差s,其樣本均數(shù)入表19-1。
表19-1 100個(gè)10球樣本均數(shù)
173.22 |
172.06 |
170.89 |
174.07 |
172.60 |
173.14 |
172.61 |
172.26 |
171.93 |
172.85 |
175.23 |
173.76 |
174.77 |
172.57 |
171.76 |
172.74 |
173.36 |
173.69 |
171.10 |
173.40 |
173.87 |
172.70 |
173.23 |
173.08 |
172.46 |
171.54 |
171.72 |
170.95 |
172.89 |
173.43 |
170.61 |
173.82 |
171.02 |
173.11 |
172.51 |
172.07 |
171.60 |
171.79 |
172.98 |
172.05 |
171.11 |
173.66 |
171.21 |
173.15 |
172.12 |
172.53 |
173.21 |
173.25 |
172.03 |
172.42 |
175.02 |
171.45 |
173.76 |
176.02 |
173.52 |
172.28 |
170.59 |
171.93 |
173.54 |
172.44 |
172.05 |
173.44 |
174.01 |
172.77 |
174.04 |
171.37 |
172.07 |
173.85 |
173.06 |
170.41 |
171.88 |
173.38 |
172.83 |
170.89 |
174.55 |
171.45 |
174.11 |
171.88 |
172.78 |
173.73 |
171.73 |
172.58 |
174.50 |
172.58 |
172.89 |
173.40 |
174.21 |
172.34 |
171.18 |
171.19 |
172.70 |
172.77 |
173.47 |
172.13 |
172.56 |
172.13 |
169.63 |
170.71 |
172.63 |
172.14 |
上述模擬試驗(yàn)的結(jié)果表明,在抽樣研究中抽樣誤差是不可避免的。反映均數(shù)抽樣誤差大小的指標(biāo)是樣本均數(shù)x的標(biāo)準(zhǔn)差,簡稱標(biāo)準(zhǔn)誤(standard error)。
二、標(biāo)準(zhǔn)誤的計(jì)算
按照前述標(biāo)準(zhǔn)差的加權(quán)計(jì)算法,將表19-1的資料歸納成表19-2,可看出樣本均數(shù)的分布仍服從正態(tài)分布,然后按式(18.2),(18.14)計(jì)算樣本均數(shù)的均數(shù)(記作x)和樣本均數(shù)的標(biāo)準(zhǔn)差(記作sx)。
表19-2 100個(gè)樣本均數(shù)的頻數(shù)表及x、sx計(jì)算表
身高組段(cm) |
頻數(shù)f |
組中值f |
fX |
FX2 |
169~ |
1 |
169.5 |
169.5 |
28730.25 |
170~ |
7 |
170.5 |
1193.5 |
203491.75 |
171~ |
19 |
171.5 |
3258.0 |
558832.75 |
172~ |
36 |
172.5 |
6210.0 |
1071225.00 |
173~ |
26 |
173.5 |
4511.0 |
782658.50 |
174~ |
8 |
174.5 |
1396.0 |
243602.00 |
175~ |
2 |
175.5 |
351.0 |
61600.50 |
176~177 |
1 |
176.5 |
176.5 |
31152.25 |
合計(jì) |
100 |
|
17266.0 |
2981293.00 |
數(shù)學(xué)上可以證明:①各樣本均數(shù)的均數(shù)x等于μ;②標(biāo)準(zhǔn)誤σx(理論值)按式(19.1)計(jì)算
σx=σ/x公式(19.1)
式中,σ為總體標(biāo)準(zhǔn)差,n為樣本含量。
本試驗(yàn)各樣本試驗(yàn)均數(shù)的均數(shù)x=172.66(cm)與μ=172.73(cm)相近,按式(19.1)算得的σx=4.09/x=1.29(cm)與本試驗(yàn)所得的樣本均數(shù)的標(biāo)準(zhǔn)差sx=1.21(cm)也很接近。
在實(shí)際的抽樣研究中,σ常屬未知,通常用單一樣本標(biāo)準(zhǔn)差s來估計(jì),得出標(biāo)準(zhǔn)誤sx(估計(jì)值),其計(jì)算公式為:
sx=s/x 公式(19.2)
例如模擬試驗(yàn)中1號(hào)樣本的標(biāo)準(zhǔn)差s=4.05(cm),其標(biāo)準(zhǔn)誤sx(估計(jì)值)=4.05/x=1.28(cm)。
標(biāo)準(zhǔn)誤sx用來說明抽樣誤差的大小。由式(19.1)、(19.2)可知,標(biāo)準(zhǔn)誤的大小與標(biāo)準(zhǔn)差的大小成正比,與x成反比。
三、t分布(t-distribution)
在前一章正態(tài)分布中曾提到,為了應(yīng)用方便,常將正態(tài)變量進(jìn)行變量變換-u變換[u=(X-μ)/σ],使一般的正態(tài)分布變換為標(biāo)準(zhǔn)正態(tài)分布。上述抽樣模擬試驗(yàn)表明,在正態(tài)分布總體中以固定n(本試驗(yàn)n=10)抽取若干樣本時(shí),樣本均數(shù)x的分布仍服從正態(tài)分布,即N(μ,σx)。那末,對此進(jìn)行u變換[u=(x-μ)/σx],也可變換為標(biāo)準(zhǔn)正態(tài)分布N(0,1),如圖19-1。
圖19-1 標(biāo)準(zhǔn)正態(tài)分布示意圖
由于實(shí)際工作中,σ往往是未知的,常用sx作為σx的估計(jì)值,為與u變換區(qū)別,稱為t變換[t=(x-μ)/sx],t值的分布為t分布。t分布的特征:①是以0為中心的對稱分布的曲線;②其形態(tài)變化與n(確切地說與自由度v)大小有關(guān)。自由度v越大,t分布越接近u分布;自由度越小,t 分布中間越低平且兩端向外伸展,所以t分布不是一條曲線,而是一簇曲線,如圖19-2。因此,t曲線下面積為95%或99%的界值不是一個(gè)常量,而是隨自由度大小而變化的。為了便于應(yīng)用,統(tǒng)計(jì)學(xué)上根據(jù)自由度大小與t曲線下面積的關(guān)系,換算出t值表(附表19-1)以備參考。因t分布是以0為中心的對稱分布,故附表19-1只列出正值,若算得的t值為負(fù)值時(shí),可用其絕對值查表。
圖19-2 自由度分別為1、5、∞的t分布
四、總體均數(shù)可信區(qū)間(confidence interval)的估計(jì)
用樣本指標(biāo)(統(tǒng)計(jì)量,statistic)來估計(jì)總體指標(biāo)(參數(shù),parameter),稱為參數(shù)估計(jì)。是抽樣研究的主要目的之一。參數(shù)估計(jì)的方法有兩種。一是點(diǎn)(值)估計(jì)(point estimation),如用樣本均數(shù)估計(jì)總體均數(shù)。該法簡單,但未考慮抽樣誤差,而抽樣誤差在抽樣研究中又是不可避免的;二是用區(qū)間估計(jì)(interval estimation),即按一定的可信度估計(jì)未知總體均數(shù)所在范圍。統(tǒng)計(jì)上習(xí)慣用95%(或99%)可信區(qū)間表示總體均數(shù)μ有95%(或99%)的可能在某一范圍。下面以總體均數(shù)μ的95%可信區(qū)間為例,介紹其計(jì)算公式。σ已知時(shí)按正態(tài)分布原理計(jì)算,σ未知時(shí)按t分布原理計(jì)算。
(一)σ已知時(shí):由u分布可知,正態(tài)曲線下有95%的u值在±1.96之間,即:
-1.96≤u≤+1.96
移項(xiàng)后,x-1.96σx≤μ≤x+1.96σx,故總體均數(shù)μ的95%可信區(qū)間為
(x-1.96σx,x+1.96σx) 公式(19.3)
(二)σ未知,但n足夠大(如n>100)時(shí):由t分布可知,當(dāng)自由度v越大,t分布越逼近u分布,此時(shí)t曲線下有95%的t值約在±1.96之間,即
-1.96≤t≤+1.96
x-1.96σx≤μ≤x+1.96σx,故總體均數(shù)μ的95%可是信區(qū)間為
。▁-1.96sx,x+1.96sx)公式(19.4)
(三)σ未知且n小時(shí):某自由度v的t曲線下有95%的t值在±t0.05(v)之間,即
-t0.05(v)≤t≤t0.05(v)
x-t0.05(v)sx≤μ≤x+t0.05(v)sx,故總體均數(shù)μ的95%可信區(qū)間為
。▁-t0.05(v)sx,x+t0.05(v)sx)公式(19.5)
例19.1 由例18.2某地110名20歲健康男大學(xué)生的身高資料,算得身高均數(shù)x為172.73(cm),標(biāo)準(zhǔn)差為4.09(cm),試估計(jì)該地20歲健康男大學(xué)生身高均數(shù)的95%可信區(qū)間。
該例n=110,n較大,按式(19.4)計(jì)算
。172.73-1.96×4.09/,172.3+1.96×4.09/)=(171.79,173.49)該地20歲健康男大學(xué)生身高均數(shù)的95%的可信區(qū)間為171.97~173.49(cm)。
例19.2 由例18.1的11名20歲健康男大學(xué)生身高資料得出x為172.25(cm),s為3.31(cm),試估計(jì)該地20歲健康男大學(xué)生身高均數(shù)的95%可信區(qū)間。
該例n=11,n較小,按式(19.5)計(jì)算。V=11-1=10,由t值表查得t0.05(10)=2.228。
(172.25-2.228×3.31/,172.25+2.228×3.31/)=(170.03,174.47)該地20歲健康男大學(xué)生身高均數(shù)的95%可信區(qū)間為170.03~174.47(cm)。