Regression
在回歸分析中,為什麼我們稱自變量為“獨立的”?
我的意思是其中一些變量之間存在很強的相關性。我們如何/為什麼/在什麼情況下將它們定義為自變量?
如果我們從今天對機器學習的強調中回想一下,有多少統計分析是為受控實驗研究而開發的,那麼“自變量”這個短語就很有意義。
在受控實驗研究中,藥物的選擇及其濃度,或肥料的選擇及其每英畝的數量,由研究者獨立做出。感興趣的是感興趣的響應變量(例如,血壓、作物產量)如何依賴於這些實驗操作。理想情況下,自變量的特徵是嚴格指定的,在知道它們的值時基本上沒有錯誤。然後,例如,標準線性回歸根據自變量值加上殘差對因變量值之間的差異進行建模。
在受控實驗研究的背景下用於回歸的相同數學形式也可以應用於觀察數據集的分析,幾乎沒有實驗操作,因此“自變量”這個短語已經延續到這種類型的學習。但是,正如本頁上的其他人所指出的那樣,這可能是一個不幸的選擇,在這種情況下,“預測變量”或“特徵”更合適。