Regression

預測變量多於觀察結果?

  • March 18, 2018

當統計學家談論回歸模型中的預測變量多於觀察值時,這意味著什麼?這怎麼可能呢?為什麼它在回歸中是一個問題?抱歉,我是量化分析和統計的新手,所以不太清楚為什麼會這樣?我將不勝感激最簡單的解釋-

我認為混淆來自有時使用“觀察”這個詞的方式。假設您想知道 20,000 個基因的表達與血壓等一些連續的生物學變量有何關聯。您擁有 20,000 個基因的表達和 10,000 個個體的血壓數據。您可能會認為這涉及 10,000 * 20,001 = 200,010,000 次觀察。當然有很多單獨的數據點。但是當人們在這種情況下說“預測變量多於觀察”時,他們只將每個人都算作“觀察”;然後,“觀察”是在單個個體上收集的所有數據點的向量. 說“案例”而不是“觀察”可能更容易讓人困惑,但在實踐中的使用通常隱藏著這樣的假設。

預測變量多於案例的問題(通常表示為“") 是標準線性回歸問題沒有唯一的解決方案。如果數據點矩陣的行代表案例,列代表預測變量,則矩陣的列之間必然存在線性相關性。所以一旦你發現係數預測變量的係數,其他的係數預測變量可以表示為第一個變量的任意線性組合預測器。其他方法,如 LASSO 或嶺回歸,或各種其他機器學習方法,提供了在這種情況下進行的方法。

引用自:https://stats.stackexchange.com/questions/335263

comments powered by Disqus

相關問答