Dimensionality-Reduction
有什麼問題p>
有什麼問題p>np>
np >` n?
我知道這是線性方程問題的求解系統。
但是我的問題是為什麼觀察的數量低於預測變量的數量是一個問題,這怎麼會發生?
數據收集不是來自於他們至少考慮到這件事的微妙的調查設計或實驗設計嗎?
如果數據收集要收集 45 個變量進行研究,那他為什麼要收集少於 45 個觀察值?我錯過了什麼嗎,儘管模型選擇部分也消除了響應中的非改進變量,並且總是將收集到的變量消除到 $ 45-(45-p) $ 正確的?
那麼,在這種情況下,我們為什麼要面對非唯一的解決方案呢?
這可能發生在許多情況下,幾個例子是:
- 醫院的醫療數據分析。研究特定癌症的醫學研究人員主要可以在他們自己的醫院進行數據收集,我認為他們嘗試從一個特定患者那裡收集盡可能多的變量,例如年齡、性別、腫瘤大小、MRI、CT 體積,這並不是一件壞事。
- 生物信息學中的微量讀板機陣列研究。通常情況下,您沒有很多物種,但您希望能夠測試盡可能多的影響。
- 用圖像分析。您通常有 1600 萬像素,而收集和存儲這麼多圖像非常困難。
- MRI重建通常是類似的問題,需要稀疏回歸技術,改進它們確實是MRI成像研究的核心問題。
真正的解決方案是查看回歸文獻並找到最適合您的應用程序的方法。
- 如果您有領域知識,請結合到您的先驗分佈中,並採用貝葉斯線性回歸的貝葉斯方法。
- 如果你想找到一個稀疏的解決方案,自動相關性確定的經驗貝葉斯方法可能是要走的路。
- 如果您認為對於您的問題,使用概率概念是不合適的(例如求解線性方程組),那麼可能值得看看 Moore-Penrose 偽逆。
- 您可以從特徵選擇的角度來處理它,並減少 p 的數量,直到它成為一個適定問題。