Regression

如何計算多元線性回歸的 p 值

  • June 20, 2018

計算回歸的軟件包有時也會返回 p 值。我想了解如何手動計算這個 p 值。

以下是我認為我理解的內容:

我想計算概率在哪裡是一個列向量因變量值,是一個矩陣,其中每一行是一組觀察值具有正態分佈誤差的變量,以及是長度的列向量.

特別是為了計算 p 值,我假設回歸係數為零。所以我想計算概率, 其中是平均值 = 0 的正態分佈誤差向量嗎?這個對嗎?

如果是這樣,我不確定計算 p 值的下一步是什麼。(除其他事項外,我在哪裡可以獲得正態分佈的方差參數?)

(很明顯,請隨意向我指出一個現有問題的答案。我還沒有找到與我的答案相關的現有問題,但如果存在,我不會感到驚訝。)

t檢驗

使用 t 檢驗,您可以通過將測量參數除以方差來標準化測量參數。如果方差是估計值,則該標準化值將根據 t 分佈進行分佈(否則,如果已知誤差分佈的方差,則您有 z 分佈)

假設您的測量是:

然後你的估計是:

所以你的估計將是真正的向量 加上一個基於錯誤的術語. 如果然後

注意:我無法更改術語直觀,但要得出這個,你會表達並消除其中一些條款

未知將根據殘差的平方和乘以殘差項中的自由度與測量值/誤差項的總數之比來估計(與校正樣本方差中的貝塞爾校正類似)。

然後從這一點開始,您可以獲取單個 p 值的表達式作為標準 t 檢驗(儘管由於不同分佈的可能相關性,可以進行比單個 t 檢驗更強大的測試)。

F檢驗

通過 F 檢驗,您可以使用描述兩個卡方分佈變量的比率的 F 分佈。當我們比較模型的方差和殘差時,這可以作為假設檢驗(當我們假設某個模型參數時,兩者都是卡方分佈的)沒有效果)

模型的剩餘項有自由度,與觀察/錯誤的數量和用於擬合模型的參數數量。您可以直觀地看到,通過將誤差投影到垂直於模型列的列的空間上,從誤差中獲得殘差(這個空間有維度)。多元正態分佈變量的投影本身就是多元正態分佈變量,但維度較低。所以雖然你可能有殘差。他們實際上是殘差嵌入維空間。


現在,當您考慮在模型 1 中添加一個額外的變量以獲得模型 2 時,您可以通過考慮投影到較小空間的誤差來分析這一點。如果模型 2 沒有效果(即添加的列來製作模型從只是隨機的),那麼可以聲明一個零假設,即模型 1 和模型 2 的殘差平方和的減少是相等的。這是在 F 檢驗中測試的內容(使用那些減少的殘差的比率)以獲得將模型 1 更改為 2 的效果的 p 值(您可以對每個變量執行此操作您執行此操作的方式在哪裡發生了一些變化,例如如何解釋 I 型、II 型和 III 型 ANOVA 和 MANOVA?)。

所以你拆分一個簡單模型的殘差平方和分成兩個投影(如果原假設為真,則表示自變量)。一部分是對完整模型(較小)空間的投影另一部分是在模型所跨越的空間上的投影(可以用差來表示). F檢驗中使用的比率是

引用自:https://stats.stackexchange.com/questions/352383

comments powered by Disqus