Mean
一個擁有非正態分佈數據的統計學家怎麼能比一個只有平均值的統計學家猜得好呢?
假設我們有一個有兩個玩家的遊戲。他們都知道從某個分佈(非正態分佈)中抽取了五個樣本。他們都不知道用於生成數據的分佈參數。遊戲的目標是估計分佈的均值。更接近真實均值的玩家贏得 1美元(估計值和實際值之間的絕對差值是目標函數)。如果分佈的平均值達到 $ \infty $ , 猜大數的玩家獲勝 $ -\infty $ , 一個猜測較小的數字。
第一個玩家得到了所有五個樣本,而第二個玩家只得到了樣本的總和(他們知道其中有五個)。
有哪些不公平遊戲且第一個玩家具有優勢的分佈示例?我猜正態分佈不是其中之一,因為樣本均值是真實均值的充分統計量。
注意:我在這裡問了一個類似的問題:當方差未知時,對於正態分佈,平均值不是一個足夠的統計量?關於正態分佈,有人建議我問一個新的非正態分佈。
編輯:具有均勻分佈的兩個答案。如果人們知道的話,我很想听聽更多的例子。
對於之間的均勻分佈 $ 0 $ 和 $ 2 \mu $ ,猜測樣本均值的玩家會比猜測的玩家做得更差 $ \frac{3}{5} \max(x_i) $ (樣本最大值是下限為 0 的均勻分佈均值的充分統計量)。
在這種特殊情況下,可以通過數字進行驗證。不失一般性,我們設 $ \mu = 0.5 $ 在模擬中。事實證明,大約 2/3 的時間,3/5 max 估計器做得更好。
這是一個演示這一點的 Python 模擬。
import numpy as np Ntrials = 1000000 xs = np.random.random((5,Ntrials)) sample_mean_error = np.abs(xs.mean(axis=0)-0.5) better_estimator_error = np.abs(0.6*xs.max(axis=0)-0.5) print((sample_mean_error > better_estimator_error).sum())