Machine-Learning

論獨立同分佈假設在統計學習中的重要性

  • May 19, 2016

在統計學習中,隱式或顯式地,總是假設訓練集由…組成輸入/響應元組獨立地從相同的聯合分佈中抽取 和

和我們試圖通過特定的學習算法捕捉到的關係。在數學上,這個獨立同分佈假設寫道:

我想我們都同意這個假設在實踐中很少得到滿足,請參閱這個相關的SE 問題以及 @Glen_b 和 @Luca 的明智評論。

因此,我的問題是:

在實踐中,獨立同分佈假設究竟在哪裡變得至關重要?

[語境]

我之所以問這個問題是因為我可以想到很多情況,其中不需要如此嚴格的假設來訓練某個模型(例如線性回歸方法),或者至少可以解決 iid 假設並獲得穩健的結果。實際上,結果通常會保持不變,而是可以得出的推論會發生變化(例如,線性回歸中的異方差和自相關一致的 HAC 估計量:這個想法是重新使用良好的舊 OLS 回歸權重,但要適應OLS 估計器的有限樣本行為,以解釋違反高斯-馬爾可夫假設的情況)。

因此,我的猜測是,獨立同分佈假設不需要能夠訓練特定的學習算法,而是保證交叉驗證等技術確實可以用於推斷模型泛化能力的可靠度量,這是我們在一天結束時對統計學習感興趣的唯一事情,因為它表明我們確實可以從數據中學習。直覺上,我確實可以理解,對依賴數據使用交叉驗證可能會產生樂觀偏差(如這個有趣的例子所示/解釋)。

因此,對我而言,iid 與訓練特定模型無關,而是與該模型的普遍性有關。這似乎與我發現的 Huan Xu 等人的一篇論文一致,請參閱此處的“馬爾可夫樣本的魯棒性和泛化性” 。

你同意嗎?

[例子]

如果這有助於討論,請考慮使用 LASSO 算法在其中執行智能選擇的問題給出的特徵訓練樣本和

我們可以進一步假設:

  • 輸入是依賴的,因此導致違反 iid 假設(例如,對於每個特徵我們觀察到點時間序列,因此引入時間自相關)
  • 有條件的回應是獨立的。
  • 我們有.

假設我們計劃確定 LASSO 懲罰係數,那麼在這種情況下,違反 iid 假設會以何種方式造成問題使用交叉驗證方法(在完整數據集上)+ 使用嵌套交叉驗證來感受這種學習策略的泛化錯誤(我們可以將關於 LASSO 固有優缺點的討論放在一邊,除了如果有用)。

關於對的獨立同分佈假設 $ (\mathbf{X}_i, y_i) $ , $ i = 1, \ldots, N $ , 通常在統計和機器學習中產生。有時是有充分理由的,有時是出於方便,有時只是因為我們通常會做出這樣的假設。為了令人滿意地回答這個假設是否真的必要,以及不做這個假設的後果是什麼,我很容易最終寫了一本書(如果你很容易最終做這樣的事情)。在這裡,我將嘗試簡要概述我認為最重要的方面。

一個基本假設

假設我們想學習一個概率模型 $ y $ 給定 $ \mathbf{X} $ ,我們稱之為 $ p(y \mid \mathbf{X}) $ . 我們不對這個模型做任何先驗假設,但我們會做出這樣一個模型存在的最小假設,使得

  • 的條件分佈 $ y_i $ 給定 $ \mathbf{X}_i $ 是 $ p(y_i \mid \mathbf{X}_i) $ .

關於這個假設值得注意的是,條件分佈 $ y_i $ 依賴於取決於 $ i $ 只有通過 $ \mathbf{X}_i $ . 這就是使模型有用的原因,例如用於預測。由於 iid 假設下的相同分佈部分,該假設成立,但它較弱,因為我們不對 $ \mathbf{X}_i $ 的。

在下文中,重點將主要放在獨立性的作用上。

造型

學習模型有兩種主要方法 $ y $ 給定 $ \mathbf{X} $ . 一種方法稱為判別建模,另一種稱為生成建模。

  • 判別建模:我們建模 $ p(y \mid \mathbf{X}) $ 直接,例如邏輯回歸模型、神經網絡、樹或隨機森林。工作建模假設通常是 $ y_i $ 是有條件獨立的 $ \mathbf{X}_i $ 的,儘管依賴二次抽樣或自舉的估計技術在獨立同分佈或較弱的可交換性假設下最有意義(見下文)。但一般來說,對於判別建模,我們不需要對 $ \mathbf{X}_i $ 的。
  • 生成式建模:我們對聯合分佈進行建模, $ p(\mathbf{X}, y) $ , 的 $ (\mathbf{X}, y) $ 通常通過對條件分佈建模 $ p(\mathbf{X} \mid y) $ 和邊際分佈 $ p(y) $ . 然後我們使用貝葉斯公式進行計算 $ p(y \mid \mathbf{X}) $ . 線性判別分析和朴素貝葉斯方法就是例子。工作建模假設通常是獨立同分佈假設。

對於這兩種建模方法,工作建模假設用於推導或提出學習方法(或估計器)。這可以通過最大化(懲罰)對數似然、最小化經驗風險或使用貝葉斯方法來實現。即使工作建模假設是錯誤的,所得方法仍然可以提供合理的擬合 $ p(y \mid \mathbf{X}) $ .

與判別建模一起使用的一些技術,例如裝袋(引導聚合),通過將許多模型擬合到從數據集中隨機採樣的數據來工作。如果沒有 iid 假設(或可交換性),重新採樣的數據集將不會具有類似於原始數據集的聯合分佈。任何依賴結構都已因重採樣而“混亂”。我沒有深入考慮過這一點,但我不明白為什麼這一定會破壞作為學習方法的方法 $ p(y \mid \mathbf{X}) $ . 至少不適用於基於工作獨立性假設的方法。我很高興在這裡被證明是錯誤的。

一致性和誤差範圍

所有學習方法的一個核心問題是它們是否會導致模型接近 $ p(y \mid \mathbf{X}) $ . 在統計和機器學習方面有大量的理論文獻來處理一致性和誤差範圍。該文獻的主要目標是證明學習模型接近於 $ p(y \mid \mathbf{X}) $ 什麼時候 $ N $ 很大。一致性是一種定性保證,而誤差界限提供(半)顯式的接近性定量控制並給出收斂速度。

理論結果都依賴於關於數據集中觀察值聯合分佈的假設。通常會做出上述工作建模假設(即判別建模的條件獨立性和生成建模的獨立同分佈)。對於判別建模,一致性和誤差界限將要求 $ \mathbf{X}_i $ 滿足一定條件。在經典回歸中,一個這樣的條件是 $ \frac{1}{N} \mathbb{X}^T \mathbb{X} \to \Sigma $ 為了 $ N \to \infty $ , 在哪裡 $ \mathbb{X} $ 表示帶有行的設計矩陣 $ \mathbf{X}_i^T $ . 較弱的條件可能足以保持一致性。在稀疏學習中,另一個這樣的條件是受限特徵值條件,請參見例如On the conditions used to proof oracle results for the Lasso。獨立同分佈假設連同一些技術分佈假設意味著一些這樣的充分條件以大概率得到滿足,因此獨立同分佈假設可能被證明是獲得判別建模的一致性和誤差界限的充分但不是必要的假設。

對於任何一種建模方法,獨立性的工作建模假設都可能是錯誤的。作為粗略的經驗法則,如果數據來自遍歷過程,人們仍然可以期待一致性,如果過程足夠快速混合,人們仍然可以期待一些錯誤界限。這些概念的精確數學定義會使我們離主要問題太遠。值得注意的是,除了 iid 假設之外,還存在依賴結構,可以證明學習方法可以作為 $ N $ 趨於無窮大。

如果我們對依賴結構有更詳細的了解,我們可能會選擇將用於建模的工作獨立性假設替換為也捕獲依賴結構的模型。這通常用於時間序列。更好的工作模型可能會導致更有效的方法。

模型評估

而不是證明學習方法給出的模型接近 $ p(y \mid \mathbf{X}) $ 獲得“學習模型有多好”的(相對)評估具有很大的實用價值。這樣的評估分數對於兩個或更多學習模型是可比較的,但它們不會提供學習模型與學習模型的接近程度的絕對評估 $ p(y \mid \mathbf{X}) $ . 評估分數的估計通常基於將數據集拆分為訓練和測試數據集或使用交叉驗證來憑經驗計算。

與 bagging 一樣,數據集的隨機拆分將“弄亂”任何依賴結構。然而,對於基於工作獨立性假設的方法,弱於 iid 的遍歷性假設應該足以使評估估計合理,儘管這些估計的標準誤差將很難得出。

[**編輯:**變量之間的依賴性將導致學習模型的分佈與 iid 假設下的分佈不同。交叉驗證產生的估計與泛化誤差沒有明顯關係。如果依賴性很強,則很可能是一個糟糕的估計。]

摘要(tl;博士)

以上都是假設有一個固定的條件概率模型, $ p(y \mid \mathbf{X}) $ . 因此,條件分佈中不可能有趨勢或突然變化 $ \mathbf{X} $ .

在學習模型時 $ y $ 給定 $ \mathbf{X} $ , 獨立性的作用是

  • 一個有用的工作建模假設,使我們能夠推導出學習方法
  • 證明一致性和提供誤差界限的充分但非必要假設
  • 使用隨機數據拆分技術(例如用於學習的 bagging 和用於評估的交叉驗證)的充分但非必要的假設。

準確理解 iid 的哪些替代方案也足夠了,這並非易事,並且在某種程度上是一個研究課題。

引用自:https://stats.stackexchange.com/questions/213464

comments powered by Disqus