哪個有更重的尾巴,對數正態或伽馬?
(這是基於剛剛通過電子郵件向我提出的一個問題;我在之前與同一個人的簡短對話中添加了一些上下文。)
去年我被告知伽馬分佈比對數正態分佈更重,後來我被告知事實並非如此。
- 哪個尾巴更重*?*
- 我可以使用哪些資源來探索這種關係?
分佈的(右)尾部描述了它在較大值下的行為。正確的研究對像不是它的密度——在許多實際情況下並不存在——而是它的分佈函數 F . 更具體地說,因為 F 必須漸近上升到 1 對於大論點 x (根據全概率定律),我們對它接近漸近線的速度感興趣:我們需要研究它的生存函數的行為 1−F(x) 作為 x→∞ .
具體來說,一種分佈 F 對於隨機變量 X 比另一個“重” G 前提是最終 F 在較大的值上比 G . 這可以形式化:必須存在一個有限數 x0 這樣對於所有人 x>x0 ,PrF(X>x)=1−F(x)>1−G(x)=PrG(X>x).
該圖中的紅色曲線是泊鬆的生存函數 (3) 分配。藍色曲線用於 Gamma (3) 分佈,具有相同的方差。最終藍色曲線總是超過紅色曲線,表明這個 Gamma 分佈比這個 Poisson 分佈有更重的尾巴。這些分佈不能很容易地用密度來比較,因為泊松分佈沒有密度。
確實,當密度 f 和 g 存在並且 f(x)>g(x) 為了 x>x0 然後 F 比 G . 然而,反過來是錯誤的——這是根據生存函數而不是密度來定義尾部重量的一個令人信服的理由,即使通常使用密度來分析尾部可能更容易。
反例可以通過離散分佈來構建 H 的正無限支持,但不重尾 G (離散化 G 會成功的)。通過替換概率質量將其變為連續分佈 H 在它的每個支撐點 k , 寫 h(k) ,通過(比方說)一個縮放的 Beta (2,2) 在合適的時間間隔內有支持的分佈 [k−ε(k),k+ε(k)] 並加權 h(k) . 給定一個小的正數 δ, 選擇 ε(k) 足夠小,以確保這個縮放的 Beta 分佈的峰值密度超過 f(k)/δ . 通過施工,混合物 δH+(1−δ)G 是一個連續分佈 G′ 它的尾巴看起來像 G (它均勻地低了一點點 δ ) 但在 H 所有這些尖峰都有超過密度的點 f . 因此 G′ 比 F 但無論我們在尾部走多遠,都會有一些點的密度超過 F .
紅色曲線是 Gamma 分佈的 PDF G , 黃金曲線是對數正態分佈的 PDF F ,藍色曲線(帶尖峰)是混合物的 PDF G′ 如反例所示構造。(注意對數密度軸。) G′ 接近於 Gamma 分佈(具有快速衰減的擺動):它最終的增長將小於 F ,即使它的 PDF 總是高於 F 無論我們往尾巴看多遠。
討論
順便說一下,我們可以直接對對數正態分佈和 Gamma 分佈的生存函數進行分析,將它們擴展到 x=∞ 找到它們的漸近行為,並得出結論,所有對數正態分佈的尾部都比所有 Gamma 值重。但是,因為這些分佈具有“很好”的密度,所以分析更容易通過證明對於足夠大的 x ,對數正態密度超過 Gamma 密度。然而,讓我們不要將這種分析方便與重尾的含義混為一談。
同樣,儘管較高的矩及其變體(例如偏度和峰度)對尾部有一些說明,但它們並沒有提供足夠的信息。舉個簡單的例子,我們可以截斷任何大的對數正態分佈,以至於它的任何給定數量的矩幾乎都不會改變——但這樣做我們將完全去除它的尾巴,使其比任何無界分佈更輕支持(例如 Gamma)。
對這些數學扭曲的一個公平反對意見是指出,到目前為止在尾部的行為沒有實際應用,因為沒有人會相信任何分佈模型在如此極端的(也許是物理上無法實現的)值下是有效的。然而,這表明,在應用程序中,我們應該注意識別尾部的哪一部分是值得關注的,並相應地對其進行分析。(例如,洪水重現時間可以從這個意義上理解:10 年洪水、100 年洪水和 1000 年洪水錶徵洪水分佈尾部的特定部分。)但同樣的原則適用:這里分析的基本對像是分佈函數而不是它的密度。