Descriptive-Statistics
什麼是協變量?
我對這個術語感到困惑:協變量。它是什麼?僅僅是一些隨機變量的觀察結果,其中包含的信息可以幫助我們增強對另一個我們尚未觀察到的隨機變量的預測?為什麼會這樣命名?
似乎還有另一個:自變量。獨立於什麼?為什麼會這樣命名?
來自維基百科:
根據上下文,自變量有時被稱為“預測變量”、回歸變量、協變量、“控制變量”、“操縱變量”、“解釋變量”、暴露變量(參見可靠性理論)、“風險因素”(參見醫學統計)、“特徵”(在機器學習和模式識別中)或“輸入變量”。在計量經濟學中,通常使用術語“控制變量”而不是“協變量”。
回答(部分)您的問題:
- 假設你正在解決線性回歸,你試圖找到一個關係 $ \textbf{y} = f(\textbf{X}) $ . 在這種情況下, $ \textbf{X} $ 是自變量和 $ \textbf{y} $ 是因變量。
- 通常, $ \textbf{X} $ 由多個變量組成,這些變量之間可能存在某種關係,即它們“共同變化”——因此稱為“協變量”。
讓我們舉一個具體的例子。假設你想預測一個街區的房子的價格, $ \textbf{y} $ 使用以下“協變量”, $ \textbf{X} $ :
- 寬度, $ x_1 $
- 寬度, $ x_2 $
- 樓層數, $ x_3 $
- 房子的面積, $ x_4 $
- 到市中心的距離, $ x_5 $
- 到醫院的距離, $ x_6 $
對於線性回歸問題, $ \textbf{y} = f(\textbf{X}) $ 房子的價格取決於所有的協變量,即 $ \textbf{y} $ 取決於 $ \textbf{X} $ . 是否有任何協變量取決於房價?換句話說,是 $ \textbf{X} $ 依賴於 $ \textbf{y} $ ? 答案是不。因此, $ \textbf{X} $ 是自變量並且 $ \textbf{y} $ 是因變量。這封裝了因果關係。如果自變量發生變化,它的影響就會出現在因變量上。
現在,所有協變量是否相互獨立?答案是不!更好的答案是,這取決於!
房屋面積( $ x_4 $ ) 取決於寬度 ( $ x_1 $ ), 寬度 ( $ x_2 $ ) 和樓層數 ( $ x_3 $ ),而到市中心的距離( $ x_5 $ ) 和醫院 ( $ x_6 $ ) 獨立於房屋的面積 ( $ x_4 $ )。
希望有幫助!