Dataset

截斷數據的似然函數

  • November 27, 2013

我在理解截斷數據可能性的概念和推導時遇到了一些麻煩。

例如,如果我想根據分佈中的樣本找到似然函數,但在從分佈中抽取樣本時,我觀察到截斷值(其中有,即任何被記錄為):

其中的數量值是. 那麼,可能性應該由下式給出:

我非常感謝解釋/證明為什麼會這樣,重要的是為什麼第二個因素是這樣的。如果可能的話,直觀地和數學地進行。首先十分感謝。

你所描述的需要特殊處理,不是我們通常所說的“截斷隨機變量”——而我們通常的意思是隨機變量不在截斷支持範圍之外,也就是說沒有概率質量集中在截斷點。對比案例:

A) 截斷 rv 的“通常”含義

對於我們截斷其支持的任何分佈,我們必須“糾正”它的密度,以便當在截斷支持上集成時它集成為一。如果變量在,, 然後 (pdf, cdf)

由於 LHS 是截斷支持的積分,我們看到截斷 rv 的密度,稱之為, 一定是

以便它整合到統一. 上述表達式中的中間項使我們(正確地)將這種情況視為一種條件反射形式——但不是在另一個隨機變量上,而是在 rv 本身可以取的可能值上。這裡是一個集合的聯合密度/似然函數截斷的 iid rv 將是像往常一樣,乘以上述密度。 B)概率質量濃度

在這裡,這就是您在問題中所描述的,情況有所不同。重點 集中所有對應於變量支持度的概率質量高於. 這會在密度中產生一個不連續點,並使其具有兩個分支

非正式地,第二個是“像一個離散的 rv”,其中概率質量函數中的每個點都代表實際概率。現在假設我們有這樣的獨立同分佈隨機變量,我們想要形成它們的聯合密度/似然函數。在查看實際樣本之前,我們應該選擇哪個分支?我們不能做出那個決定,所以我們必須以某種方式將兩者都包括在內。為此,我們需要使用指標函數:表示取值的指標函數什麼時候, 和否則。這樣一個 rv 的密度可以寫成

因此,聯合密度函數這樣的獨立同分佈變量是

現在,以上被視為似然函數,實際樣本由這些的實現組成隨機變量開始發揮作用。在這個樣本中,一些觀察到的實現將低於閾值,有的相等。表示樣本中實現的數量等於, 和其他的,. 這是立即的,對於實現,將保留在可能性中的密度的相應部分將是部分,而對於實現,另一部分。然後

引用自:https://stats.stackexchange.com/questions/77878

comments powered by Disqus