Dirichlet 分佈中的 alpha 究竟是什麼？

November 8, 2016

我對貝葉斯統計還很陌生，我遇到了一個校正的相關度量SparCC，它在算法的後端使用了狄利克雷過程。我一直在嘗試逐步完成算法以真正了解正在發生的事情，但我不確定alpha向量參數在 Dirichlet 分佈中的作用以及它如何規範化alpha向量參數？

實施是在Python使用NumPy： https ://docs.scipy.org/doc/numpy/reference/generated/numpy.random.dirichlet.html

文檔說：

alpha：數組分佈參數（k維樣本的k維）。

我的問題：

對alphas分佈有何影響？

alphas被標準化的情況如何？和

當alphas不是整數時會發生什麼？
import numpy as np
import pandas as pd
import matplotlib.pyplot as plt

# Reproducibility
np.random.seed(0)

# Integer values for alphas
alphas = np.arange(10)
# array([0, 1, 2, 3, 4, 5, 6, 7, 8, 9])

# Dirichlet Distribution
dd = np.random.dirichlet(alphas) 
# array([ 0. , 0.0175113 , 0.00224837, 0.1041491 , 0.1264133 ,
# 0.06936311, 0.13086698, 0.15698674, 0.13608845, 0.25637266])

# Plot
ax = pd.Series(dd).plot()
ax.set_xlabel("alpha")
ax.set_ylabel("Dirichlet Draw")

狄利克雷分佈是一個多元概率分佈，描述 $ k\ge2 $ 變量 $ X_1,\dots,X_k $ , 這樣每個 $ x_i \in (0,1) $ 和 $ \sum_{i=1}^N x_i = 1 $ ，即由正值參數向量參數化 $ \boldsymbol{\alpha} = (\alpha_1,\dots,\alpha_k) $ . 參數不必是整數，它們只需要是正實數。它們沒有以任何方式“標準化”，它們是這種分佈的參數。

狄利克雷分佈是將beta 分佈推廣到多個維度，因此您可以從了解 beta 分佈開始。Beta 是隨機變量的單變量分佈 $ X \in (0,1) $ 由參數參數化 $ \alpha $ 和 $ \beta $ . 如果您回想一下它是二項式分佈的共軛先驗，並且如果我們假設 beta 先驗參數化為 $ \alpha $ 和 $ \beta $ 對於二項分佈的概率參數 $ p $ ，則後驗分佈 $ p $ 也是一個參數化的 beta 分佈 $ \alpha' = \alpha + \text{number of successes} $ 和 $ \beta' = \beta + \text{number of failures} $ . 所以你可以想到 $ \alpha $ 和 $ \beta $ 至於成功和失敗的偽計數（它們不需要是整數）（也請檢查這個線程）。

在狄利克雷分佈的情況下，它是多項分佈的共軛先驗。如果在二項分佈的情況下，我們可以將其看作是從甕中放回白球和黑球，那麼在多項分佈的情況下，我們是放回繪製 $ N $ 球出現在 $ k $ 顏色，其中每種顏色的球都可以用概率繪製 $ p_1,\dots,p_k $ . 狄利克雷分佈是一個共軛先驗 $ p_1,\dots,p_k $ 概率和 $ \alpha_1,\dots,\alpha_k $ 參數可以被認為是先驗假設的每種顏色的球的偽計數（但您還應該閱讀有關這種推理的陷阱）。在 Dirichlet 多項式模型中 $ \alpha_1,\dots,\alpha_k $ 通過將它們與每個類別中觀察到的計數相加來更新： $ \alpha_1+n_1,\dots,\alpha_k+n_k $ 以與 beta-二項式模型類似的方式。

較高的價值 $ \alpha_i $ ，更大的“權重” $ X_i $ 並且分配給它的總“質量”的更大數量（回想一下，它必須是 $ x_1+\dots+x_k=1 $ ）。我摔倒 $ \alpha_i $ 相等，分佈是對稱的。如果 $ \alpha_i < 1 $ ，可以認為是推開的反重量 $ x_i $ 走向極端，而當它很高時，它會吸引 $ x_i $ 朝向某個中心值（中心是指所有點都集中在它周圍，而不是對稱中心）。如果 $ \alpha_1 = \dots = \alpha_k = 1 $ ，那麼點是均勻分佈的。

這可以在下面的圖中看到，您可以在其中看到由 (a) 參數化的三變量 Dirichlet 分佈（不幸的是，我們只能生成最多三個維度的合理圖） $ \alpha_1 = \alpha_2 = \alpha_3 = 1 $ , (b) $ \alpha_1 = \alpha_2 = \alpha_3 = 10 $ ，（C） $ \alpha_1 = 1, \alpha_2 = 10, \alpha_3 = 5 $ , (d) $ \alpha_1 = \alpha_2 = \alpha_3 = 0.2 $ .

狄利克雷分佈有時被稱為“分佈上的分佈”，因為它可以被認為是概率本身的分佈。請注意，由於每個 $ x_i \in (0,1) $ 和 $ \sum_{i=1}^k x_i = 1 $ ，然後 $ x_i $ 的與第一和第二概率公理是一致的. 因此，您可以將 Dirichlet 分佈用作離散事件的概率分佈，這些事件由分佈（例如categorical或multinomial ）描述。它不是任何分佈上的分佈，例如，它與連續隨機變量的概率無關，甚至與一些離散變量無關（例如，泊松分佈隨機變量描述了觀察值是任何自然數的概率，所以要對其概率使用狄利克雷分佈，您需要無限數量的隨機變量 $ k $ ）。

引用自：https://stats.stackexchange.com/questions/244917

comments powered by Disqus

Dirichlet 分佈中的 alpha 究竟是什麼？

相關問答

在貝葉斯模型中，您可以使用 Uniform(-inf, inf) 作為先驗嗎？

為什麼指數族在統計學中如此重要？

在實踐中如何實現神經網絡參數的先驗分佈？

貝葉斯分析僅用作計算工具？

貝葉斯如何解釋磷(X=x|θ=c)磷(X=X|θ=C)P(X=x|theta=c)，這在解釋後驗時是否構成挑戰？

分佈未知時貝葉斯統計的替代方案