分佈族的定義?
一個分佈族對統計的定義是否與其他學科不同?
通常,曲線族是一組曲線,每條曲線由一個或多個參數變化的函數或參數化給出。例如,這些族用於表徵電子元件。
對於統計,根據一個來源的族是改變形狀參數的結果。那麼我們如何理解伽馬分佈有一個形狀和尺度參數,而只有廣義的伽馬分佈還有一個位置參數呢?這是否會使家庭成為改變位置參數的結果?根據@whuber,家庭的含義是隱含的家庭的“參數化”是來自ℝ子集的連續映射**,以其通常的拓撲結構,進入分佈空間,其形像是那個家庭。
簡而言之,什麼是統計分佈的族?
關於同一族分佈的統計特性之間關係的問題已經對另一個問題產生了相當大的爭議,因此似乎值得探討其含義。
這不一定是一個簡單的問題,因為它在短語指數族中的使用,與曲線族無關,但與通過重新參數化改變分佈的 PDF 的形式有關,而不僅僅是參數,但也可以替換獨立隨機變量的函數。
**統計和數學概念完全相同,**理解“家庭”是一個通用數學術語,具有適應不同情況的技術變化:
參數族是所有分佈空間中的曲線(或曲面或其他有限維概括)。
這篇文章的其餘部分解釋了這意味著什麼。順便說一句,我認為這在數學上或統計上都沒有爭議(除了下面提到的一個小問題)。為了支持這一觀點,我提供了許多參考資料(主要是維基百科的文章)。
在學習課程時,往往會使用“家庭”這個術語函數集或“地圖”。給定一個域, 一個家庭 上的地圖 由一些集合參數化(“參數”)是一個函數
其中 (1) 對於每個, 功能由在(2)本身俱有某些“不錯”的屬性。
這個想法是我們想要改變函數到以“平穩”或受控的方式。屬性 (1) 表示每個指定了這樣一個函數,而屬性 (2) 的細節將捕捉到一個“小”變化的意義引起足夠“小”的變化.
**一個標準的數學例子,**接近問題中提到的例子,是同倫。在這種情況下是來自拓撲空間的連續映射的範疇 進入拓撲空間;是具有通常拓撲的單位區間,我們要求是拓撲積的連續映射進入. 可以認為是“地圖的連續變形”到。“ 什麼時候本身是一個區間,這樣的地圖是曲線同倫是從一條曲線到另一條曲線的平滑變形。
對於統計應用, 是所有分佈的集合(或者,在實踐中,在對於一些,但為了使說明簡單,我將重點介紹)。我們可以用所有非減càdlàg函數的集合來識別它他們範圍的關閉包括兩者和:這些是累積分佈函數,或簡單的分佈函數。因此,和.
分佈族是. 家庭的另一個名稱是統計模型。 它由我們認為支配我們觀察的所有分佈組成,但我們不知道哪個分佈是實際的分佈。
- 一個家庭可以是空的。
- 本身就是一個家庭。
- 一個族可能由單個分佈或僅由有限數量的分佈組成。
這些抽象的集合論特徵相對沒有什麼意義或實用性。 只有當我們考慮額外的(相關的)數學結構時這個概念變得有用。但是什麼屬性有統計學意義嗎?一些經常出現的有:
- 是一個凸集:給定任意兩個分佈,我們可以形成混合分佈 對所有人. 這是一種“同倫”到.
- 大部分的支持各種偽指標,例如Kullback-Leibler 散度或密切相關的 Fisher Information 指標。
- 具有加法結構:對應於任意兩個分佈和是他們的總和,.
- 支持許多有用的自然功能,通常稱為“屬性”。這些包括任何固定分位數(例如中位數)以及累積量。
- 是函數空間的子集。 因此,它繼承了許多有用的指標,例如sup norm (規範)由
- 自然群體行動誘導行動. 最常見的動作是翻譯 和縮放 為了. 這些對分發的影響是發送給定的分佈. 這些導致了位置尺度家庭的概念及其概括。(我不提供參考,因為廣泛的網絡搜索會出現各種不同的定義:至少在這裡可能會引起一點爭議。)
重要的屬性取決於統計問題以及您打算如何分析數據。 解決上述特徵所暗示的所有變化對於這種媒體來說會佔用太多空間。讓我們關註一個常見的重要應用程序。
以最大似然法為例。 在大多數應用程序中,您將希望能夠使用微積分來獲得估計。為此,您必須能夠在家庭中“採取衍生品”。
(**技術方面:**完成此操作的通常方法是選擇一個域為了並指定一個*連續的、局部可逆*的函數從進入. (這意味著對於每個存在一個球, 和為此是一對一的。換句話說,如果我們改變數量足夠少,我們總是會得到不同的分佈。))
因此,在大多數 ML 應用程序中,我們要求在零件。(如果沒有連續性,最大化似然性通常會成為一個棘手的問題。)這導致參數族的以下面向似然的定義:
(單變量)分佈的參數族是局部可逆映射
和, 其中 (a) 每個是一個分佈函數,並且 (b) 對於每個, 功能由是連續的並且幾乎處處可微。
請注意,參數族不僅僅是收集:還包括參數取值的具體方式對應分佈。
讓我們以一些說明性的例子結束。
- 讓是所有正態分佈的集合。 正如給定的那樣,這不是一個參數族:它只是一個族。為了參數化,我們必須選擇參數化。一種方法是選擇 並映射到均值的正態分佈 和方差.
- 泊松集分佈是一個參數族.
- 制服套裝分佈(在許多教科書練習中都有突出的特點)是一個參數族 . 在這種情況下,是可微的除了 .
- 讓和是任意兩個分佈。然後是一個參數族. (證明:圖像是一組分佈及其偏導數等於這是到處定義的。)
- 皮爾遜家族是一個四維家族,,其中包括(除其他外)正態分佈、Beta 分佈和逆 Gamma 分佈。這說明了一個事實,即任何一個給定的分佈都可能屬於許多不同的分佈族。這完全類似於觀察(足夠大的)空間中的任何點可能屬於許多相交的路徑。這與前面的構造一起向我們表明,沒有分佈唯一地確定它所屬的家庭。
- 家庭在所有有限方差中,絕對連續分佈不是參數化的。證明需要一個深刻的拓撲定理:如果我們賦予具有任何拓撲結構(無論在統計上是否有用)和是連續的並且局部有一個連續的逆,那麼局部必須具有與. 然而,在所有具有統計意義的拓撲中,是無限維的。