德國坦克問題的解決方案

August 12, 2019

是否有正式的數學證明證明德國坦克問題的解決方案僅是參數k（觀察到的樣本數）和m（觀察到的樣本中的最大值）的函數？換句話說，可以證明解與最大值之外的其他樣本值無關嗎？

可能性

概率論中的常見問題是指觀察的概率給定某個模型並給定參數（我們稱它們為）涉及。例如，紙牌遊戲或骰子遊戲中特定情況的概率通常非常簡單。

然而，在許多實際情況中，我們正在處理相反的情況（推論統計）。即：觀察給定了，現在模型是未知的，或者至少我們不知道某些參數 .

在這些類型的問題中，我們經常提到一個稱為參數似然度的術語，，這是對特定參數的信任率給定觀察 . 該術語表示為與觀察的概率成正比假設模型參數假設是真的。

對於給定的參數值某個觀察的可能性越大是（相對於其他參數值的概率），觀察越支持這個特定參數（或假設這個參數的理論/假設）。（相對）高可能性將加強我們對該參數值的信念（關於這一點有更多的哲學要說）。

德國坦克問題的可能性

現在對於德國坦克問題，一組樣本的似然函數是：

當樣本從具有參數*的均勻分佈中考慮時，*無論您觀察樣本 {1、2、10} 還是樣本 {8、9、10} 都無關緊要 . 兩個樣本的概率相等並且使用可能性的概念，一個樣本並沒有更多地說明參數比另一個樣本。

高值 {8, 9, 10} 可能會讓您認為/相信應該更高。但是，只有值 {10} 才能真正為您提供有關可能性的相關信息（值 10 告訴你將是 10 或更高，其他值 8 和 9 對此信息沒有任何貢獻）。

Fisher Neyman 分解定理

這個定理告訴你，某個統計量（即觀察的某些函數，例如平均值，中位數，或德國坦克問題中的最大值）是足夠的（包含所有信息），當您可以在似然函數中分解出依賴於其他項的項時觀察 , 這樣這個因素不依賴於兩個參數和（並且將數據與假設參數值相關聯的似然函數部分僅取決於統計數據，而不取決於整個數據/觀察結果）。

德國坦克問題的案例很簡單。您可以在上面看到，上面可能性的整個表達式已經只依賴於統計數據和其餘的值沒關係。

以小遊戲為例

假設我們反复玩以下游戲：本身是一個隨機變量，以 100 或 110 的等概率繪製。然後我們抽取一個樣本 .

我們要選擇一種猜測策略，基於觀察到的最大化我們正確猜測的概率 .

正確的策略是選擇 100，除非樣本中的一個數字大於 100。

當許多往往是接近百的所有高值（但沒有一個正好超過百），但那是錯誤的。當真實參數值為 100 時，這種觀察的概率會大於 110 時的概率。因此，如果我們猜測，在這種情況下，將 100 作為參數值，那麼我們出錯的可能性就較小（因為這些高值接近百，但仍低於百的情況，更常見於真值為 100 的情況，而不是真值為 110 的情況）。

引用自：https://stats.stackexchange.com/questions/421771

德國坦克問題的解決方案

可能性

德國坦克問題的可能性

Fisher Neyman 分解定理

以小遊戲為例

相關問答

一個擁有非正態分佈數據的統計學家怎麼能比一個只有平均值的統計學家猜得好呢？

什麼是“似然原則”？

為什麼我們不再關心估計器的完整性和充分性？

似然函數是最小充分的

對 Halmos-Savage 定理的直觀理解

貝葉斯充分性與頻率充分性有何關係？