Regression
為什麼這些圖中的 SE 區域差異如此之大
我正在使用 ggplot 和 Python 來顯示回歸/相關性。使用 method=‘lm’ (表示“線性模型”),我得到以下圖表:
使用method=‘loess’,我得到以下信息:
黃土法的 SE 區域寬度比 lm 法寬得多。這是預期的還是某處有錯誤?
以下是獲取上述數字的 Python 代碼:
from ggplot import * print (ggplot(aes(x='SL', y='PW'), data=irisdf) + \ geom_point(alpha=0.3) + \ stat_smooth(colour="black", se=True, method='lm')) # or method='loess' in above line plt.show()
這是 LOESS/LOWESS(和其他散點圖平滑器/非參數回歸方法)的直接預期行為。
LOESS(LO ly E stimated S catterplot S moother)或多或少地估計y的值,僅使用一小部分 x 值的x**觀測值,它通過移動“小範圍”重複該估計,直到所有觀察到的值x已被覆蓋。結果是:
- 不假設y和x之間存在**線性關係,並且(對於您的問題很重要)
- 對估計線的信心較低。
一些額外的點
- 估計線的這種更大的不確定性並不意味著非參數回歸必須比相應的線性回歸具有更低的功效:僅當y和x之間的關係近似線性時才成立(檢查最佳擬合中各個殘差的大小直線穿過與x非線性相關的y數據的散射,以了解原因)。
- LOESS 和 LOWESS,以及 GAM 和其他非參數回歸模型都依賴於上述x值的“小範圍”。這可以表示為“帶寬”或“跨度”(描述要包含在每個估計中的觀察到的x值的總範圍的比例)或“k 最近鄰”( x軸上觀察到的點的絕對數量包括)。
- 當試圖決定是使用線性回歸模型還是非參數回歸模型時,我從後者開始,並詢問直線是否適合非參數回歸的置信區間;如果是,那麼我繼續使用線性回歸,如果不是,我完成了,除非我出於某種原因需要參數估計(例如,統計推斷、模型結果的通信、模型傳輸到不同的數據集),在這種情況下我繼續根據非參數模型的形狀,對合理的函數形式使用非線性最小二乘法。注意:我在這裡遺漏了很多關於各種參數曲線擬合方法的內容。