Regression

自變量=隨機變量?

  • November 15, 2016

如果統計模型中的自變量(也稱為預測變量或特徵),例如在線性回歸中, 是隨機變量嗎?

有兩種常見的線性回歸公式。 為了專注於這些概念,我將對它們進行一些抽象。數學描述比英文描述要復雜一些,所以讓我們從後者開始:

線性回歸是一個模型,其中響應 Y 假設是隨機的,分佈由回歸器確定 X 通過線性地圖 β(X) 並且可能通過其他參數 θ .

在大多數情況下,可能的分佈集是一個帶有參數的位置族 αθβ(X) 給出參數 α . 典型示例是普通回歸,其中分佈集是正態族 N(μ,σ)μ=β(X) 是回歸量的線性函數。

因為我還沒有在數學上描述這個,所以什麼樣的數學對象仍然是一個懸而未決的問題 X , Y , β , 和 θ 參考——我相信這是這個線程的主要問題。儘管人們可以做出各種(等價的)選擇,但大多數將與以下描述等價或特殊情況。


  1. **固定回歸量。*回歸量表示為 實向量 XRp . 響應是隨機變量 Y:ΩR (在哪裡 Ω 具有 sigma 場和概率)。模型是一個函數 f:R×ΘMd (或者,如果你喜歡,一組函數 RMd 參數化 Θ ). Md 是維度的有限維拓撲(通常是二階可微)子流形(或帶邊界的子流形) d 的概率分佈空間。 f 通常被認為是連續的(或充分可微的)。 ΘRd1 是“討厭的參數”。假設分佈 Yf(β(X),θ) 對於一些未知的對偶向量 $ \beta\in\mathbb{R}^{p} \theta\in\Theta .Yf(β(X),θ).$
  2. **隨機回歸變量。**回歸量和響應是 p+1 維向量值隨機變量 Z=(X,Y):ΩRp×R . 該模型 f 是和以前一樣的對象,但現在它給出了條件概率 Y|Xf(β(X),θ).

如果沒有一些處方說明它打算如何應用於數據,那麼數學描述是無用的。在我們設想的固定回歸器的情況下 X 由實驗者指定。因此,它可能有助於查看 Ω 作為產品 Rp×Ω 賦有乘積 sigma 代數。實驗者確定 X 和自然決定(一些未知的,抽象的) ωΩ . 在隨機回歸的情況下,自然決定 ωΩ , 這 X - 隨機變量的分量 πX(Z(ω)) 決定 X (這是“觀察到的”),我們現在有一個有序的對 (X(ω),ω))Ω 與固定回歸器的情況完全相同。


多元線性回歸的典型例子(我將使用對象的標準符號而不是這個更通用的符號來表達)是f(β(X),σ)=N(β(x),σ)

對於一些常數 σΘ=R+ . 作為 x 各地變化 Rp ,它的圖像可微地描繪出正態分佈的二維流形中的一維子集——一條曲線。

當——以任何方式—— β 估計為 ˆβσ 作為 ˆσ , 的價值 ˆβ(x) 是的預測Y 有關聯 x - 無論 x 由實驗者控制(案例 1)或僅被觀察(案例 2)。如果我們設置一個值(案例 1)或觀察一個實現(案例 2) xX ,然後響應 Y 與之相關的 X 是一個隨機變量,其分佈為 N(β(x),σ) ,這是未知的,但估計N(ˆβ(x),ˆσ) .

引用自:https://stats.stackexchange.com/questions/246047