這是最先進的回歸方法嗎?
我已經關注 Kaggle 比賽很長時間了,我開始意識到許多獲勝策略都涉及使用“三巨頭”中的至少一種:bagging、boosting 和 stacking。
對於回歸,與其專注於構建一個可能的最佳回歸模型,不如構建多個回歸模型,例如(廣義)線性回歸、隨機森林、KNN、NN 和 SVM 回歸模型,並以合理的方式將結果混合成一個模型似乎是- 多次執行每個單獨的方法。
當然,對每種方法的紮實理解是關鍵,並且可以基於線性回歸模型講述一個直觀的故事,但我想知道這是否已成為最先進的方法,以實現最佳結果。
眾所周知,至少從 1960 年後期開始,如果您對多個預測進行平均計算,那麼在許多情況下,最終的總體預測將優於單個預測。Bagging、boosting 和 stacking都是基於這個想法。所以是的,如果你的目標純粹是預測,那麼在大多數情況下,這是你能做的最好的。這種方法的問題在於它是一種黑盒方法,它返回結果但不能幫助您理解和解釋它。顯然,它也比任何其他方法的計算量更大,因為您必須計算很少的預測而不是單個預測。
† 這通常與任何預測有關,但通常在預測文獻中有所描述。
溫克勒,RL。和 Makridakis, S. (1983)。預測的組合。 JR統計。社會黨。答:146 (2)、150-157。
Makridakis, S. 和 Winkler, RL (1983)。預測的平均值:一些實證結果。 管理科學,29 (9) 987-996。
克萊門,RT (1989)。結合預測:評論和帶註釋的參考書目。 國際預測雜誌, 5,559-583。
貝茨,JM 和格蘭傑,CW(1969 年)。預測的組合。 或者, 451-468。
Makridakis, S. 和 Hibon, M. (2000)。M3 競賽:結果、結論和影響。 國際預測雜誌,16 (4), 451-476。
里德,DJ (1968)。結合國內生產總值的三個估計值。經濟, 431-444。
Makridakis, S.、Spiliotis, E. 和 Assimakopoulos, V. (2018)。M4 競賽:結果、發現、結論和前進方向。國際預測雜誌。