Hypothesis-Testing
為什麼 T 統計量需要數據服從正態分佈
我正在看這個筆記本,我對這個說法感到困惑:
當我們談論正態性時,我們的意思是數據應該看起來像一個正態分佈。這很重要,因為一些統計測試依賴於此(例如 t 統計)。
我不明白為什麼 T 統計量需要數據遵循正態分佈。
事實上,維基百科也說了同樣的話:
學生的 t 分佈(或簡稱 t 分佈)是在估計正態分佈總體的平均值時出現的連續概率分佈族的任何成員
但是,我不明白為什麼這個假設是必要的。
它的公式沒有向我表明數據必須服從正態分佈:
我看了一點它的定義,但我不明白為什麼這個條件是必要的。
您需要的信息位於Wiki 頁面的“特徵化”部分。一個- 自由度分佈可以定義為隨機變量的分佈這樣
在哪裡是標準正態分佈隨機變量,並且是一個具有自由度的隨機變量. 此外,和必須是獨立的。所以給定任何和 遵循上面的定義,你可以得到一個隨機變量,它有一個-分配。 現在,假設根據分佈分佈. 讓有意思和方差. 讓是樣本均值和是樣本方差。然後我們看一下公式:
如果,表示正態分佈,則, 因此. 此外,由科克倫定理。最後,通過應用巴蘇定理,和是獨立的。這意味著結果統計量具有-分佈與自由程度。
如果原始數據分佈不正態,則分子和分母的精確分佈將不是標準正態分佈,,分別,因此得到的統計數據不會有-分配。