Machine-Learning
“不傾斜”傾斜數據的好處
我正在使用 Ames 房屋定價數據集做一個 kaggle 操場問題,發現銷售價格在發生頻率方面嚴重傾斜。
一個教程指出,偏斜的數據不利於回歸建模,應該通過自然對數來“消除”數據的偏斜。所有這些都是毫無道理的,為什麼會這樣。對我來說,數據的偏度是數據的一部分,不應該被篡改以避免過度擬合的情況。
我錯了嗎?誰能解釋為什麼不傾斜是一種有效的做法以及它會對錯誤率產生什麼影響?
尼克考克斯在他的評論中提出了很多好的觀點。讓我將其中一些(以及我自己的一些)放入答案格式中:
首先,普通最小二乘回歸沒有假設因變量是正態分佈的;它假設誤差是正常的,誤差由殘差估計。但是,當因變量與您的一樣偏斜時,殘差通常也會如此。
其次,您在許多介紹性書籍中發現出於統計原因而強調轉換是因為該書想要展示一個人如何在不同情況下使用 OLS 回歸(不幸的是,一些非統計學課程的教授確實不這樣做)不知道替代品)。在舊書中,這也可能是因為某些替代方法過於計算機密集而無法使用。
第三,我認為數據應該出於實質性原因進行轉換,而不是統計原因。在這裡,對於更一般的價格數據,記錄日誌通常是有意義的。兩個原因是 1) 人們經常以乘法而不是加法來考慮價格 - 2,000,000 美元和2,001,000 美元之間的差異非常小。2,000美元和 2,100美元之間的差價要大得多。2)當你取日誌時,你不能得到一個負的預測價格。
第四,如果您決定不進行轉換(出於某種原因),那麼有些方法不會假設殘差是正常的。兩個突出的是分位數回歸和穩健回歸。