Mathematical-Statistics

德國坦克問題的解決方案

  • August 12, 2019

是否有正式的數學證明證明德國坦克問題的解決方案是參數k(觀察到的樣本數)和m(觀察到的樣本中的最大值)的函數?換句話說,可以證明解與最大值之外的其他樣本值無關嗎?

可能性

概率論中的常見問題是指觀察的概率 x1,x2,,xn 給定某個模型並給定參數(我們稱它們為 θ ) 涉及。例如,紙牌遊戲或骰子遊戲中特定情況的概率通常非常簡單。

然而,在許多實際情況中,我們正在處理相反的情況(推論統計)。即:觀察 x1,x2,,xk 給定了,現在模型是未知的,或者至少我們不知道某些參數 θ .

在這些類型的問題中,我們經常提到一個稱為參數似然度的術語, L(θ) ,這是對特定參數的信任率 θ 給定觀察 x1,x2,..xk . 該術語表示為與觀察的概率成正比 x1,x2,..xk 假設模型參數 θ 假設是真的。L(θ,x1,x2,..xk)probability observations x1,x2,..xk given θ 

對於給定的參數值 θ 某個觀察的可能性越大 x1,x2,..xn 是(相對於其他參數值的概率),觀察越支持這個特定參數(或假設這個參數的理論/假設)。(相對)高可能性將加強我們對該參數值的信念(關於這一點有更多的哲學要說)。


德國坦克問題的可能性

現在對於德國坦克問題,一組樣本的似然函數 x1,x2,..xk 是:

L(θ,x1,x2,..xk)=Pr(x1,x2,..xk,θ)={0if max(x1,x2,..xk)>θ (θk)1if max(x1,x2,..xk)θ,

當樣本從具有參數*的均勻分佈中考慮時,*無論您觀察樣本 {1、2、10} 還是樣本 {8、9、10} 都無關緊要 θ . 兩個樣本的概率相等 (θ3)1 並且使用可能性的概念,一個樣本並沒有更多地說明參數 θ 比另一個樣本。

高值 {8, 9, 10} 可能會讓您認為/相信 θ 應該更高。但是,只有值 {10} 才能真正為您提供有關可能性的相關信息 θ (值 10 告訴你 θ 將是 10 或更高,其他值 8 和 9 對此信息沒有任何貢獻)。


Fisher Neyman 分解定理

這個定理告訴你,某個統計量 T(x1,x2,,xk) (即觀察的某些函數,例如平均值,中位數,或德國坦克問題中的最大值)是足夠的(包含所有信息),當您可以在似然函數中分解出依賴於其他項的項時觀察 x1,x2,,xk , 這樣這個因素不依賴於兩個參數 θx1,x2,,xk (並且將數據與假設參數值相關聯的似然函數部分僅取決於統計數據,而不取決於整個數據/觀察結果)。

德國坦克問題的案例很簡單。您可以在上面看到,上面可能性的整個表達式已經只依賴於統計數據 max(x1,x2,..xk) 和其餘的值 x1,x2,..xk 沒關係。


以小遊戲為例

假設我們反复玩以下游戲: θ 本身是一個隨機變量,以 100 或 110 的等概率繪製。然後我們抽取一個樣本 x1,x2,,xk .

我們要選擇一種猜測策略 θ ,基於觀察到的 x1,x2,,xk 最大化我們正確猜測的概率 θ .

正確的策略是選擇 100,除非樣本中的一個數字大於 100。

當許多 x1,x2,,xk 往往是接近百的所有高值(但沒有一個正好超過百),但那是錯誤的。當真實參數值為 100 時,這種觀察的概率會大於 110 時的概率。因此,如果我們猜測,在這種情況下,將 100 作為參數值,那麼我們出錯的可能性就較小(因為這些高值接近百,但仍低於百的情況,更常見於真值為 100 的情況,而不是真值為 110 的情況)。

引用自:https://stats.stackexchange.com/questions/421771