Monday, June 28, 2021

小樣本與 t 檢定

統計最基本最重要的一點,就是要樣本互相獨立,如果無法獨立,則後面討論的分配完全錯誤,所以樣本的設立是最基本的第一步,也是最重要地。

舉例如下:牙醫師常常要了解麻醉藥跟血壓之間的關係,從10個病人裡,再施打麻藥之後,觀察其血壓的變化,並且每一個病人量四次血壓,所以可以得到40個觀察值。但是這40個觀察值真的是互相獨立嗎?這就很有疑問了,因為這四次都是從一個病人量取得地,在單一個體裡量得的值會有相似性,所以並不是互相獨立的,所以這個取樣有問題。所以這個要點,必須要先搞清楚,才能考慮下一步。

另外如果抽樣所需要的成本,極為昂貴,所以無法獲得『大樣本』,這樣所得到的資訊,要如何利用呢?小樣本的統計推論,就是要利用學生t分配 和 chi-square分配來解決之。Student's t distribution這個統計方法非常適用於小樣本的推論,並且改善推論的可信度,是後來才被拿來利用的。

當我們在小樣本時,並無法像大樣本n>30的時候,無論母體是否是標準常態分配,樣本一定都是標準常態分配。但是在小樣本時,如果母體不為常態,則抽樣出來的分配,也將不是常態,而是依照母體來決定。並且實際的百分位點將隨『自由度』變動,自由度越大,也就是n越大,則越近似常態分配。

好在用t分配來推論統計量時,就算是樣本規模不是很大,仍然不會有很嚴重的錯誤,如果在大樣本時,不管母體是不是常態,樣本一定是常態分配,所以這些困擾會消失掉。當我們要以小樣本來估計時,仍然不要取太小的樣本,否則估算出來的信賴區間,要用來估算母體的平均值或其他統計量,則準確度很低。

當我們在推論小樣本的時候,常常可以發現其樣本圖形,不足以拿來判斷是否具常態,另外如果母體不是常態,樣本抽樣結果之觀察值也不是常態,此時用t分配來檢驗,誤差還不是很大,這是其中幸運的一點。但是如果是要用來做為『定性』的話,則不太好,如果有一組變動很激烈的觀察值,將會導致錯誤的結論,所以應該不宜用在定性的討論。但是卡方分配就沒有這麼幸運了,即是是大樣本,如果母體不為常態,就無法用卡方分配來推論母體標準差,這是一點要非常注意的囉。

另外一定要確定樣本是獨立抽樣,舉例如下,當政府要問卷調查家庭之政府政見的抽樣民意時,隨機抽樣100個家庭中夫妻的意見,所得到的結果,仍然不能視為100 x 2= 200。因為夫妻的意見並不是獨立的,而是會互相影響地。所以當觀察值在時間上、距離上非常接近時,可能會有非獨立的顧慮,所以這要非常小心,並且在一開始,就必須要嚴格審查抽樣方法是否正確。

資料來源:http://www.wretch.cc/blog/kalendar/9924412

No comments: