Estimation
估計集合大小時出錯?
假設我們有一個集合 A 和一個子集 B。如果我們知道 |A|,那麼我們可以計算 |B| 通過找到從 A 中均勻隨機選擇的元素屬於 B 的概率 p。特別是 |A|p=|B|。
假設我們隨機均勻地生成 A 的 n 個元素,並使用這些數據來估計 p(B 中的元素數除以 n),從而估計 |B|。
這個估計有多可靠?即我們如何計算誤差?
作為一個附帶問題,這種技術有名稱嗎?(這似乎是標記和重新捕獲技術的數學版本)
你在估計比例。具體而言,假設 A 是選民人數,B 是投票給特定候選人的選民集合。因此,p 將是投票給該候選人的選民百分比。讓:
是投票給候選人的真實百分比
換一種說法:
那麼你的每一個樣本都是一個有概率的伯努利試驗或者等效地,您可以想像您的每個樣本都是對潛在選民的民意調查,詢問他們是否會投票給候選人。因此,MLE是(誰)給的:
在哪裡
是說他們會投票給候選人的人數,或者是您的樣本中屬於集合 B 的元素的數量.
您估計的標準誤差是:
以上可以通過使用 MLE 來近似即,通過: