為什麼在為方差創建置信區間時使用卡方?
這是一個非常基本的問題。為什麼我們使用卡方分佈?這種分佈的意義是什麼?為什麼這是用於為方差創建置信區間的分佈?
我在谷歌上搜索的每個地方都只是提供了一個事實,解釋了何時使用 chi,但沒有解釋為什麼使用 chi,以及為什麼它看起來像這樣。
非常感謝任何可以為我指明正確方向的人,那就是——真正理解為什麼我在為方差創建置信區間時使用 chi。
快速回答
原因是因為,假設數據是 iid 並且, 並定義
在形成置信區間時,與樣本方差相關的抽樣分佈 (,記住,一個隨機變量!)是一個卡方分佈(),正如與樣本均值相關的抽樣分佈是標準正態分佈 () 當你知道方差時,和一個 t-student 當你不知道時 ()。 長答案
首先,我們要證明遵循卡方分佈自由程度。之後,我們將看到這個證明在推導方差的置信區間時如何有用,以及卡方分佈如何出現(以及為什麼它如此有用!)。讓我們開始。
證據
為此,也許您必須習慣這篇Wikipedia 文章中的卡方分佈。這個分佈只有一個參數:自由度,,並且恰好有一個矩生成函數(MGF),由下式給出:
如果我們能證明分佈有一個像這樣的矩生成函數,但是有, 那麼我們已經證明了遵循卡方分佈自由程度。為了證明這一點,請注意兩個事實:
- 如果我們定義,
在哪裡,即標準正態隨機變量,矩生成函數為是(誰)給的
MGF是(誰)給的
我使用了標準法線的PDF,因此,
這意味著遵循卡方分佈自由度。 2. 如果和是獨立的,並且每個都分佈為卡方分佈,但具有和自由度,那麼以卡方分佈分佈自由度(這是從採用 MGF 得出的; 做這個!)。
有了上述事實,請注意,如果將樣本方差乘以,你得到(經過一些代數),
因此,除以,
請注意,該和左側的第二項分佈為自由度為 1 的卡方分佈,而右側的和分佈為自由度為 1 的卡方分佈自由程度。所以,分佈為卡方自由度。 計算方差的置信區間。
在尋找方差的置信區間時,您想知道限制和在
讓我們玩一下括號內的不等式。首先,除以,
然後記住兩件事:(1)統計有一個卡方分佈自由度和 (2) 方差始終大於零,這意味著您可以反轉不等式,因為 因此,我們正在尋找的概率是:
注意. 那麼我們想要,
(我們整合到因為卡方隨機變量的期望值自由度是) 或等價地,
打電話和, 其中值和可以在卡方表中找到(主要在計算機中!)並求解和,
因此,您的方差置信區間為