Machine-Learning

置信上限是如何得出的?

  • January 19, 2018

我遇到了獲得 k 臂老虎機問題的置信上限的公式:

$$ c\sqrt{\frac{\text{ln} N_i}{n_i}} $$

在哪裡 $ n_i $ 是我們為這個特定的老虎機擁有的樣本數量,並且 $ N_i $ 是我們從所有強盜中獲得的樣本總數。蒙特卡洛樹搜索也使用相同的算法來獲得置信上限。

我非常清楚什麼是置信上限,但我不明白這個公式的來源。我試過在網上找幾個地方,但找不到這個公式是如何得出的明確解釋。有人可以解釋這個公式的來源嗎?請假設我沒有很好的統計學背景。

您所擁有的通常稱為探索術語。置信上限是經驗平均值加上這個探索項。

讓我們分別考慮每個術語:

$ c $ 是一個常數,允許用戶設置探索/利用權衡。對於理論結果,它通常針對手頭的問題進行優化(例如,具有高斯先驗的 k 臂老虎機)。

$ \sqrt{1/n_i} $ 與後驗標準差成正比 $ n_i $ 行動樣本 $ i $ . 從本質上講,這意味著當您更頻繁地拉動手臂時,手臂的未知數就會減少。

$ \sqrt{ln(N_i)} $ 確保您不會過早停止探索。作為 $ N_i $ 變得非常大,樣本方差變得足夠小,我們需要補償以確保我們永遠不會完全停止探索。大多數技術數學是為了表明 $ \sqrt{ln(N_i)} $ 只是足夠(但不是太多)的補償。

有關更技術性的描述,請參見Auer 等人的論文。是一個很好的起點。

Auer、Peter、Nicolo Cesa-Bianchi 和 Paul Fischer。“多臂老虎機問題的有限時間分析。” 機器學習 47.2-3 (2002): 235-256。

引用自:https://stats.stackexchange.com/questions/323867

comments powered by Disqus