Maximum-Likelihood
加權最大似然參數估計算法
加權最大似然參數估計的計算或算法考慮是什麼?
也就是說,我想得到
假設我們有一個重量對於每個數據點,使得. 這通常是如何完成的,是否有替代方法來尋找? 除了完整的答案外,還感謝參考。
有許多方法可以處理重要性權重。請注意,“權重”作為一個通用術語可能是模棱兩可的。例如,R 的 glm 方法採用不同解釋的權重參數。 本文對處理重要性權重的幾種方法進行了很好的討論。
- 到目前為止,使用隨機優化方法時最常用的方法是將每個隨機步驟乘以採樣數據點的重要性權重。如果您混合了非常大和小的權重,這可能效果不佳。如果您的各種權重之間的因子小於 20,則它應該可以正常工作,儘管收斂速度可能很慢。
- 使用 SGD 優化的另一種方法是拒絕抽樣,其概率與. 不過,這在實踐中幾乎從未使用過。
- 在應用標準優化算法之前對數據集進行預採樣更為常見。將新數據集替換為的樣本比例抽樣。通常你會採取到樣本,其中 n 是原始數據集的大小。
- 鏈接的論文提出了另一種方法,我相信它是在Vowpal Wabbit包中實現的。
流行的 liblinear 包也支持重要性權重。如果您使用 LBFGS,您可以手動指定損失和導數,包括您在帖子中的重要性權重。