Bayesian

貝葉斯優化還是梯度下降?

  • July 17, 2015

何時以及為什麼使用貝葉斯優化而不是梯度下降?

哪種情況更適合哪種情況?

我假設貝葉斯優化是指將高斯過程或類似模型擬合到您的觀察結果的標準方法,定義一個採集函數,例如預期改進或置信上限,並在該採集函數的最大值處查詢該函數。

最直接的區別是貝葉斯優化適用於您不知道梯度的情況。如果您可以廉價地計算函數的梯度,您將希望使用一種可以合併這些梯度的方法,因為它們對於理解函數非常有幫助。如果您不能輕鬆計算梯度並且需要求助於有限差分近似,那麼在大多數情況下您真的不想這樣做。

BO 假設函數相當平滑(由 GP 中的內核定義)但不是凸函數。梯度下降,如果你想找到一個全局最大值,假設凸度以及一定程度的平滑度(如在步長參數中使用的那樣)。

BO 試圖最小化對目標函數的調用次數。如果計算成本很高,例如因為它需要大量計算,甚至需要與外部世界進行一些交互,那麼這是非常可取的。如果目標的計算成本很低,那麼不用擔心所需的輔助計算量可能會更快。

BO 通常不能很好地擴展到高維函數,無論是統計上還是計算上。最近的工作已經開始從各種方法解決這個問題。如果你小心的話,梯度下降和類似的方法通常可以合理地擴展到更高的維度。

BO 通常也不能很好地擴展來多次評估函數,因為 GP 推斷在輸入點的數量上是三次方的。最近有很多關於加速 GP 或使用類似的更具可擴展性的方法的工作,這可能會也可能不會根據您的需要解決這個問題。

引用自:https://stats.stackexchange.com/questions/161923

comments powered by Disqus