Machine-Learning

實際上,獨立同分佈假設是否適用於絕大多數監督學習任務?

  • January 19, 2020

獨立同分佈假設狀態:

我們得到一個數據集, $ {(x_i,y_i)}_{i = 1, \ldots, n} $ , 每個數據 $ (x_i,y_i) $ 以獨立且同分佈的方式生成

對我來說,這在物理上意味著我們可以想像 $ (x_i,y_i) $ 沒有影響 $ (x_j,y_j) $ , $ j \neq i $ 反之亦然。

但這在實踐中成立嗎?

例如,最基本的機器學習任務是 MNIST 數據集的預測。有沒有辦法知道 MNIST 是否以 iid 方式生成?對於成千上萬的其他數據集也是如此。我們“任何從業者”如何知道數據集是如何生成的?

有時我還看到人們提到對數據進行洗牌以使分佈更加獨立或隨機。與未打亂的數據集相比,打亂是否確實創造了好處?

例如,假設我們創建了一個“順序”MNIST 數據集,其中包含以遞增序列 1、2、3、4、5、6、.. 排列的數字。顯然,該數據集不是以獨立的方式生成的。如果生成 1,則下一個必須是 2。但是,與 shuffled 數據集相比,在該數據集上訓練分類器有什麼不同嗎?

只是一些基本的問題。

獨立同分佈條件的操作意義由著名的布魯諾·德·菲內蒂 (Bruno de Finetti) 的“表示定理”給出(在我看來,這是迄今為止發現的概率論最偉大的創新之一)。根據這個絕妙的定理,如果我們有一個序列 $ \mathbf{X}=(X_1,X_2,X_3,…) $ 經驗分佈 $ F_\mathbf{x} $ ,如果序列中的值是可交換的,那麼我們有:

$$ X_1,X_2,X_3, … | F_\mathbf{x} \sim \text{IID } F_\mathbf{x}. $$

這意味著無限序列值的*可交換性條件是這些值獨立且同分佈(以某些基本分佈函數為條件)所需的操作條件。*該定理可以應用於貝葉斯統計和經典統計(參見O’Neill 2009進一步討論),在後一種情況下,經驗分佈被視為“未知常數”,因此我們通常放棄條件符號。除其他外,該定理闡明了概率論定義中“重複試驗”的要求。

與許多其他概率結果一樣,“表示定理”實際上是指適用於各種不同情況的一類定理。您可以在Kingman (1978)Ressel (1985)中找到對各種表示定理的很好總結。由於 de Finetti 的原因,最初的版本只為值的二進制序列建立了這種對應關係。這後來被Hewitt 和 Savage (1955)擴展到最常用的更通用的版本(並且對應於上面顯示的版本) 。後一種表示定理有時被稱為 de Finetti-Hewitt-Savage 定理,因為正是它們的擴展賦予了定理的全部力量。Diaconis 和 Freedman(1980)還有另一個有用的擴展這為有限可交換性的情況建立了一個表示定理——粗略地說,在這種情況下,在概率與實際概率和 IID 近似值之間存在有限差異的意義上,這些值是“幾乎 IID”。

正如該線程上的其他答案所指出的那樣,IID 條件在數學便利性和簡單性方面具有各種優勢。雖然我不認為這是現實主義的理由,但它肯定是這種模型結構的附帶好處,它說明了表示定理的重要性。這些定理為 IID 模型提供了操作基礎,並表明假設無限序列的可交換性足以獲得該模型。因此,在實踐中,如果你想知道一個值序列是否是獨立同分佈的,你需要做的就是問自己,“如果我從這個序列中取出任何有限的值集,如果我改變它們的概率測度會改變嗎?這些值的順序?” 如果答案是否定的,那麼你有一個可交換的序列,因此滿足 IID 條件。

引用自:https://stats.stackexchange.com/questions/445453

comments powered by Disqus