用外行的話來說,模型和分佈之間有什麼區別?
對於那些不熟悉高等數學/統計學的人來說,維基百科上定義的答案(定義)可以說有點神秘。
在數學術語中,統計模型通常被認為是一對(), 在哪裡是一組可能的觀測值,即樣本空間,並且是一組概率分佈.
在概率和統計中,概率分佈將概率分配給隨機實驗、調查或統計推斷過程的可能結果的每個可測量子集。找到樣本空間為非數值的示例,其中分佈將是分類分佈。
我是一名對這個領域非常感興趣的高中生,我目前正在努力解決什麼是 a
statistical model
和 a之間的差異probability distribution
我目前非常基本的理解是這樣的:
- 統計模型是近似測量分佈的數學嘗試
- 概率分佈是來自實驗的測量描述,將概率分配給隨機事件的每個可能結果
文獻中傾向於看到“分佈”和“模型”這兩個詞可以互換使用 - 或者至少在非常相似的情況下(例如二項式分佈與二項式模型),進一步加劇了混淆
有人可以驗證/更正我的定義,並可能為這些概念提供更正式的(儘管仍然是簡單的英語)方法嗎?
概率分佈是描述隨機變量的數學函數。更準確地說,它是一個將概率分配給數字的函數,它的輸出必須與概率公理一致。
統計模型是使用概率分佈以數學術語對某些現象進行抽象、理想化的描述。引用瓦瑟曼(2013):
統計模型 是一組分佈(或密度或回歸函數)。參數模型是一個集合 可以通過有限數量的參數進行參數化。[…]
通常,參數模型採用以下形式
在哪裡是一個未知參數(或參數向量),可以在參數空間中取值 . 如果是一個向量,但我們只對,我們把剩下的參數稱為討厭的參數。非參數模型是一個集合不能通過有限數量的參數來參數化。
在許多情況下,我們使用分佈作為模型(您可以查看此示例)。您可以使用二項分佈作為擲硬幣系列中正面計數的模型。在這種情況下,我們假設這種分佈以簡化的方式描述了實際結果。這並不意味著這是描述這種現象的唯一方法,二項分佈也不是只能用於此目的的東西。模型可以使用一種或多種分佈,而貝葉斯模型也指定了先驗分佈。
McCullaugh (2002) 更正式地討論了這一點:
根據目前公認的理論 [Cox and Hinkley (1974), Chapter 1; 萊曼 (1983),第 1 章;Barndorff-Nielsen 和 Cox (1994),第 1.1 節;Bernardo and Smith (1994),第 4 章] 統計模型是樣本空間上的一組概率分佈. 參數化統計模型是一個參數 與函數一起設置,它分配給每個參數點 概率分佈在 . 這裡是所有 概率分佈的集合. 在下面的大部分內容中,區分模型作為函數是很重要的,以及相關的分佈集.
因此統計模型使用概率分佈來描述數據。參數模型也用有限的參數集來描述。
這並不意味著所有的統計方法都需要概率分佈。例如,線性回歸通常用正態假設來描述,但實際上它對於偏離正態性非常穩健,我們需要關於置信區間和假設檢驗的誤差正態性假設。因此,要使回歸起作用,我們不需要這樣的假設,但要擁有完全指定的統計模型,我們需要用隨機變量來描述它,所以我們需要概率分佈。我寫這個是因為你經常可以聽到人們說他們對他們的數據使用回歸模型——在大多數情況下,他們寧願表示他們使用一些參數根據目標值和預測變量之間的線性關係來描述數據,而不是堅持有條件的常態。
McCullagh, P. (2002)。什麼是統計模型? 統計年鑑, 1225-1267。
Wasserman, L. (2013)。*所有的統計:統計推斷的簡明課程。*施普林格。