Regression

了解多項式回歸 (MLR) 的置信區間的形狀

  • July 2, 2018

我很難掌握多項式回歸的置信區間的形狀。

這是一個人為的例子,. 左圖描繪了 UPV(未縮放的預測方差),右圖顯示了置信區間和 X=1.5、X=2 和 X=3 處的(人工)測量點。

基礎數據的詳細信息:

  • 該數據集由三個數據點(1.5;1)、(2;2.5)和(3;2.5)組成。
  • 每個點被“測量”10次,每個測量值屬於. 對 30 個結果點執行具有多項式模型的 MLR。
  • 置信區間是用公式計算的

(這兩個公式都取自 Myers、Montgomery、Anderson-Cook,“Response Surface Methodology”第四版,第 407 和 34 頁)

和.

我對置信區間的絕對值不是特別感興趣,而是對 UPV 的形狀感興趣,它只取決於.

圖1: 在此處輸入圖像描述

  • 設計空間之外的非常高的預測方差是正常的,因為我們是在外推
  • 但為什麼 X=1.5 和 X=2 之間的方差比測量點的方差小?
  • 為什麼方差在 X=2 上的值變寬,但在 X=2.3 後減小,再次小於 X=3 處的測量點?

測量點上的方差小而它們之間的方差大難道不是合乎邏輯的嗎?

編輯:相同的程序,但有數據點 [(1.5; 1), (2.25; 2.5), (3; 2.5)] 和 [(1.5; 1), (2; 2.5), (2.5; 2.2), (3; 2.5)]。

圖 2: 在此處輸入圖像描述

圖 3: 在此處輸入圖像描述

有趣的是,在圖 1 和圖 2 中,點上的 UPV 正好等於 1。這意味著置信區間將恰好等於. 隨著點數的增加(圖 3),我們可以在小於 1 的測量點上獲得 UPV 值。

理解這種回歸現象的兩種主要方法是代數——通過操縱正態方程和公式來解決它們——和幾何。 如問題本身所示,代數很好。但是有幾種有用的回歸幾何公式。在這種情況下,可視化數據在空間提供了否則可能難以獲得的洞察力。

我們付出了需要查看三維物體的代價,這在靜態屏幕上是很難做到的。(我發現無休止的旋轉圖像很煩人,因此不會對您造成任何影響,即使它們可能會有所幫助。)因此,這個答案可能不會吸引所有人。但是那些願意用他們的想像力來增加三維空間的人將會得到回報。我建議通過一些精心挑選的圖形來幫助您完成這項工作。


讓我們從可視化變量開始。在二次回歸模型中

這兩個術語和觀察結果可能不同:它們是自變量。我們可以繪製所有有序對作為平面中的點,其軸對應於和在可能的有序對 的曲線上繪製所有點也很有啟發性

圖1

通過將該圖向後傾斜並使用該維度的垂直方向來可視化第三維度中的響應(因變量)。每個響應都被繪製為一個點符號。這些模擬數據由三個響應的堆棧組成,每個響應包含十個響應位置如第一張圖所示;每個堆棧的可能高度用灰色垂直線顯示:

圖 2

二次回歸擬合這些點 的平面。

(我們怎麼知道?因為對於任何參數選擇中的點集滿足方程的空間是函數的零集它定義了一個垂直於向量的平面 解析幾何的這一點也為我們提供了對圖片的一些定量支持:因為這些插圖中使用的參數是和兩者都比這架飛機幾乎是垂直的,並且在飛機。)

這是適合這些點的最小二乘平面:

在此處輸入圖像描述

在平面上,我們可以假設它有一個形式為我已經“提升”了曲線到曲線

並把它畫成黑色。 讓我們把一切都往後傾斜,這樣只有和軸顯示,離開軸從屏幕上不可見地下降:

圖 4

您可以看到提升曲線如何精確地成為所需的二次回歸:它是所有有序對的軌跡在哪裡是自變量設置為時的擬合值

此擬合曲線的置信帶描述了當數據點隨機變化時擬合可能發生的情況。 在不改變觀點的情況下,我將五個擬合平面​​(及其提升曲線)繪製為五個獨立的新數據集(其中僅顯示了一個):

圖 5

為了幫助您更好地了解這一點,我還使平面幾乎透明。顯然,提升的曲線往往在附近有相互交點和

讓我們通過將鼠標懸停在三維繪圖上方並沿著平面的對角軸稍微向下看來查看相同的內容。 為了幫助您了解平面如何變化,我還壓縮了垂直維度。

圖 6

垂直的金色柵欄顯示了上方的所有點曲線,以便您可以更輕鬆地看到它是如何提升到所有五個擬合平面​​的。從概念上講,置信帶是通過改變數據來找到的,這會導致擬合平面發生變化,從而改變提升曲線,從而在每個值處追踪可能擬合值的包絡。

現在我相信一個清晰的幾何解釋是可能的。因為表格的要點幾乎在它們的平面上對齊,所有擬合的平面都將圍繞位於這些點上方的一些公共線旋轉(並稍微晃動)。(讓是那條線的投影到平面:它將非常接近第一個圖中的曲線。)當這些平面發生變化時,提升曲線在任何給定條件下(垂直)變化的量位置將與距離成正比來自

圖 7

此圖回到原來的平面透視圖顯示相對於曲線在自變量平面上。曲線上最接近的兩個點標記為紅色。在這裡,大約是擬合平面趨於最接近的位置,因為響應隨機變化。因此,相應的提升曲線值(周圍和) 在這些點附近往往變化最小。

在代數上,找到那些“節點”是求解一個二次方程的問題:因此,最多存在兩個。因此,作為一般命題,我們可以期望二次擬合的置信帶數據最多可能有兩個最接近的地方——但僅此而已。


這種分析在概念上適用於更高次的多項式回歸,以及一般的多元回歸。儘管我們不能真正“看到”超過三個維度,但線性回歸的數學保證了從此處所示類型的二維和三維圖得出的直覺在更高維度上仍然準確。

引用自:https://stats.stackexchange.com/questions/354115

comments powered by Disqus