Inference

自變量是否一定是“獨立的”,這與預測的內容有什麼關係?

  • October 24, 2019

我對統計相當陌生。我不清楚自變量和因變量的含義以及與預測的關係。

在我的文本中,作為示例,有一個數據集包含以下許多實例:

  • 一個人的工資
  • 一個人的年齡
  • 他們掙那薪水的那一年
  • 他們的教育水平

書中提到試圖從其他三個變量中預測他們的薪水。這是否意味著其他三個是自變量而薪水是因變量?

當這些數據排列在電子表格中時,行是人,列是變量,就會出現一些有趣的事情。所有變量之間存在對稱性。它們都沒有在電子表格中佔有特殊的位置,它們都有自己的列。

這讓我問,我們可以選擇另一個,比如年齡,並根據薪水/年/教育進行預測嗎?年齡現在是因變量嗎?

在高中統計數據中,我了解到自變量具有一定程度的獨立性……比如說天氣與我晚餐的食物無關。一個對另一個沒有太大影響。

但是在統計學中,自變量是否可以被視為“我們用來進行預測的事物”,而因變量是“被預測的事物”?是否仍然需要自變量在現實世界中真正獨立?

問題“你想預測什麼?” 和“這裡的結果或結果是什麼?” 經常有相同的答案,但並非總是如此。

自變量的術語在統計科學中被廣泛認為是超載的。許多作家和研究人員 - 至少在過去幾十年裡 - 都建議使用其他術語,儘管在最佳術語是什麼方面幾乎沒有共識。一些術語是預測變量解釋變量控制變量回歸變量、協變量輸入……

類似地,因變量一詞通常用更令人回味的東西代替。一段時間以來,響應似乎引領了替代品領域,但結果產出一直是最近經常出現的術語。我沒有熱情地註意到regressand的存在。

DV 和 IV 在某些領域是常見的縮寫,有時似乎是在回歸儀式中標記由相互同意而參與的新人。對 DV 的反對意見是Deo volente仍然是許多人的標準擴展。對 IV 更大的反對意見是它是為工具變量定制的(尤其是許多經濟學家)。

儘管如此,舊術語仍然存在,我的印象(這裡沒有名字)是它們仍然經常在教科書中被推薦,在其他方面我認為它們很差或無能。

撇開術語不談:回歸中所謂的自變量在統計上相互獨立並沒有絕對的暗示,事實上,這一事實是對該術語的幾個反對意見之一。

甚至在某些情況下,故意引入彼此高度相關的預測變量。擬合二次方 $ X $ 和 $ X^2 $ 就是一個很好的例子,如 $ X $ 和 $ X^2 $ 不是相互獨立的。然而,將兩個具有基本相同信息的預測變量包括在內是愚蠢的,例如華氏溫度和攝氏溫度。在實踐中,好的軟件有陷阱來檢測這種情況並根據需要刪除預測器,但研究人員仍然需要謹慎和深思熟慮地選擇預測器。理想的——作為原則更容易建議而不是在實踐中確保——是讓預測器有一個明確的理由,並且不使用超過目的所需的預測器,並且考慮到數據集的大小,這是合理的。

你的例子很有啟發性。通常工資取決於年齡,有時直接取決於個人的工資等級,但更常見的是間接地通過受晉升或換工作的影響以及受更豐富的經驗、專業知識、聲譽等影響的人的工資。相反,有時老年人對僱用的吸引力較小(例如,運動員已經過了巔峰期)。但關鍵是加薪不會影響年齡,而年齡的變化可能會影響工資(平均而言,這是我們在這里關心的)。因果路徑可以以間接方式存在。

綜上所述,在不同的問題中,年齡是未知的,目標是預測它。這是考古學、法醫學以及一些地球和環境科學的標準。

引用自:https://stats.stackexchange.com/questions/432907

comments powered by Disqus