如何找到概率密度函數的模式?
受我的另一個問題的啟發,我想問一下如何找到函數的概率密度函數 (PDF) 的模式?
是否有任何“食譜”程序?顯然,這項任務比起初看起來要困難得多。
說“模式”意味著分佈只有一個。一般來說,一個分佈可能有許多模式,或者(可以說)沒有。
如果有不止一種模式,您需要指定是想要所有模式還是只想要全局模式(如果只有一種)。
假設我們將自己限制為單峰分佈*,因此我們可以說“the”模式,它們的發現方式與更普遍地尋找函數的最大值相同。
*請注意,頁面說“因為術語“模式”有多種含義,術語“單峰”也是如此,並提供了幾種模式的定義——它可以改變什麼,確切地說,算作模式,無論是 0 1 還是更多——並且還改變了識別它們的策略。特別注意開頭段落中單峰性的“更一般”的措辭“單峰性意味著只有一個最高值,以某種方式定義”
該頁面上提供的一個定義是:
連續概率分佈的模式是概率密度函數 (pdf) 達到其最大值的值
因此,給定模式的特定定義,您會發現它就像在更一般地處理函數時會發現“最高值”的特定定義一樣(假設在該定義下分佈是單峰的)。
取決於具體情況,數學中有多種識別此類事物的策略。請參閱關於最大值和最小值的維基百科頁面的“查找功能最大值和最小值”部分,其中給出了簡要討論。
例如,如果事情足夠好——假設我們正在處理一個連續的隨機變量,其中密度函數具有連續的一階導數——你可能會繼續嘗試找到密度函數的導數為零的位置,然後檢查它是哪種類型的臨界點(最大、最小、水平拐點)。如果恰好有一個這樣的點是局部最大值,那麼它應該是單峰分佈的模式。
然而,一般情況下,事情會更複雜(例如,眾數可能不是臨界點),需要更廣泛的尋找函數最大值的策略。
有時,在代數上找到導數為零的位置可能很困難或至少很麻煩,但仍有可能以其他方式識別最大值。例如,在識別單峰分佈的模式時可能會調用對稱性考慮。或者可以在計算機上調用某種形式的數值算法,以數值方式找到一種模式。
以下是一些說明您需要檢查的典型事情的案例——即使函數是單峰的並且至少是分段連續的。
因此,例如,我們必須檢查端點(中心圖)、導數改變符號的點(但可能不為零;第一張圖)和不連續點(第三張圖)。
在某些情況下,事情可能沒有這三個那麼整潔;您必須嘗試了解您正在處理的特定功能的特徵。
我沒有談到多變量的情況,即使函數非常“好”,只是找到局部最大值可能要復雜得多(例如,這樣做的數值方法在實際意義上可能會失敗,即使它們在邏輯上必須成功最終)。