Dirichlet 分佈中的 alpha 究竟是什麼?
我對貝葉斯統計還很陌生,我遇到了一個校正的相關度量SparCC,它在算法的後端使用了狄利克雷過程。我一直在嘗試逐步完成算法以真正了解正在發生的事情,但我不確定
alpha
向量參數在 Dirichlet 分佈中的作用以及它如何規範化alpha
向量參數?實施是在
Python
使用NumPy
: https ://docs.scipy.org/doc/numpy/reference/generated/numpy.random.dirichlet.html文檔說:
alpha:數組分佈參數(k維樣本的k維)。
我的問題:
- 對
alphas
分佈有何影響?alphas
被標準化的情況如何?和- 當
alphas
不是整數時會發生什麼?import numpy as np import pandas as pd import matplotlib.pyplot as plt # Reproducibility np.random.seed(0) # Integer values for alphas alphas = np.arange(10) # array([0, 1, 2, 3, 4, 5, 6, 7, 8, 9]) # Dirichlet Distribution dd = np.random.dirichlet(alphas) # array([ 0. , 0.0175113 , 0.00224837, 0.1041491 , 0.1264133 , # 0.06936311, 0.13086698, 0.15698674, 0.13608845, 0.25637266]) # Plot ax = pd.Series(dd).plot() ax.set_xlabel("alpha") ax.set_ylabel("Dirichlet Draw")
狄利克雷分佈是一個多元概率分佈,描述 $ k\ge2 $ 變量 $ X_1,\dots,X_k $ , 這樣每個 $ x_i \in (0,1) $ 和 $ \sum_{i=1}^N x_i = 1 $ ,即由正值參數向量參數化 $ \boldsymbol{\alpha} = (\alpha_1,\dots,\alpha_k) $ . 參數不必是整數,它們只需要是正實數。它們沒有以任何方式“標準化”,它們是這種分佈的參數。
狄利克雷分佈是將beta 分佈推廣到多個維度,因此您可以從了解 beta 分佈開始。Beta 是隨機變量的單變量分佈 $ X \in (0,1) $ 由參數參數化 $ \alpha $ 和 $ \beta $ . 如果您回想一下它是二項式分佈的共軛先驗,並且如果我們假設 beta 先驗參數化為 $ \alpha $ 和 $ \beta $ 對於二項分佈的概率參數 $ p $ ,則後驗分佈 $ p $ 也是一個參數化的 beta 分佈 $ \alpha' = \alpha + \text{number of successes} $ 和 $ \beta' = \beta + \text{number of failures} $ . 所以你可以想到 $ \alpha $ 和 $ \beta $ 至於成功和失敗的偽計數(它們不需要是整數)(也請檢查這個線程)。
在狄利克雷分佈的情況下,它是多項分佈的共軛先驗。如果在二項分佈的情況下,我們可以將其看作是從甕中放回白球和黑球,那麼在多項分佈的情況下,我們是放回繪製 $ N $ 球出現在 $ k $ 顏色,其中每種顏色的球都可以用概率繪製 $ p_1,\dots,p_k $ . 狄利克雷分佈是一個共軛先驗 $ p_1,\dots,p_k $ 概率和 $ \alpha_1,\dots,\alpha_k $ 參數可以被認為是先驗假設的每種顏色的球的偽計數(但您還應該閱讀有關這種推理的陷阱)。在 Dirichlet 多項式模型中 $ \alpha_1,\dots,\alpha_k $ 通過將它們與每個類別中觀察到的計數相加來更新: $ \alpha_1+n_1,\dots,\alpha_k+n_k $ 以與 beta-二項式模型類似的方式。
較高的價值 $ \alpha_i $ ,更大的“權重” $ X_i $ 並且分配給它的總“質量”的更大數量(回想一下,它必須是 $ x_1+\dots+x_k=1 $ )。我摔倒 $ \alpha_i $ 相等,分佈是對稱的。如果 $ \alpha_i < 1 $ ,可以認為是推開的反重量 $ x_i $ 走向極端,而當它很高時,它會吸引 $ x_i $ 朝向某個中心值(中心是指所有點都集中在它周圍,而不是對稱中心)。如果 $ \alpha_1 = \dots = \alpha_k = 1 $ ,那麼點是均勻分佈的。
這可以在下面的圖中看到,您可以在其中看到由 (a) 參數化的三變量 Dirichlet 分佈(不幸的是,我們只能生成最多三個維度的合理圖) $ \alpha_1 = \alpha_2 = \alpha_3 = 1 $ , (b) $ \alpha_1 = \alpha_2 = \alpha_3 = 10 $ , (C) $ \alpha_1 = 1, \alpha_2 = 10, \alpha_3 = 5 $ , (d) $ \alpha_1 = \alpha_2 = \alpha_3 = 0.2 $ .
狄利克雷分佈有時被稱為“分佈上的分佈”,因為它可以被認為是概率本身的分佈。請注意,由於每個 $ x_i \in (0,1) $ 和 $ \sum_{i=1}^k x_i = 1 $ , 然後 $ x_i $ 的 與 第一 和 第二概率 公理是 一致 的. 因此,您可以將 Dirichlet 分佈用作離散事件的概率分佈,這些事件由分佈(例如categorical或multinomial )描述。它不是任何分佈上的分佈,例如,它與連續隨機變量的概率無關,甚至與一些離散變量無關(例如,泊松分佈隨機變量描述了觀察值是任何自然數的概率,所以要對其概率使用狄利克雷分佈,您需要無限數量的隨機變量 $ k $ )。