概率機器學習的重要性是什麼?
我正在參加一門關於“機器學習簡介”的課程,令我驚訝的是,這門課程的大部分內容都有機器學習 (ML) 的概率方法,例如線性和邏輯回歸的概率方法,並嘗試使用MLE、MAP或貝葉斯方法。但它的重要性是什麼?
我們也可以使用非概率方法來完成所有這些工作。我的導師只告訴我“從概率的角度來看,我們得到了更多關於數據的信息”,我理解,對於每個點,而不是直接聲稱是真或假,我們正在計算概率,這給了我們一個連續值並描述該值在多大程度上真正有用。但除此之外,概率機器學習的優勢是什麼,以及什麼可以作為這種觀點的動機?
當代機器學習作為一個領域,需要比傳統統計學甚至定量社會科學更熟悉貝葉斯方法和概率數學,後者仍然占主導地位。那些來自物理學的人不太可能對概率在 ML 中的重要性感到驚訝,因為量子物理學是如此徹底地概率化(事實上,許多關鍵的概率算法都是以物理學家的名字命名的)。事實上,三本領先的 ML 教科書(儘管它們的覆蓋面都足夠廣泛,可以被認為是對 ML 的公平概述)是由明確支持概率方法的作者編寫的(McKay 和 Bishop 都接受過物理學培訓):
- 凱文墨菲的機器學習:概率視角(一部百科全書,幾乎全面的參考風格作品)
- Christopher Bishop 的模式識別和機器學習(嚴格的介紹,假設背景知識少得多)
- David McKay’s Information Theory, Inference, and Learning Algorithms(前景化信息論,但歡迎貝葉斯方法)
我的觀點:最廣泛使用的 ML 教科書反映了您在 Intro to ML 課程中描述的相同概率焦點。
就您的具體問題而言,概率 ML 的另一位有影響力的支持者 Zoubin Ghahramani 認為,ML 的主要常客版本 - 深度學習 - 受到明確的概率貝葉斯方法經常避免的六個限制:
- 非常渴望數據
- 訓練和部署的計算密集型
- 不善於表達不確定性,不知道他們不知道什麼
- 很容易被對抗性的例子愚弄
- 優化的挑剔(非凸,架構和超參數的選擇)
- 無法解釋的黑匣子,缺乏透明度,難以信任
Ghahramani 在許多偉大的教程和這篇來自Nature(2015)關於概率機器學習和人工智能的非專業概述文章中詳細闡述了這些觀點。
Ghahramani 的文章強調,當您沒有足夠的數據時,概率方法至關重要。他解釋說(第 7 節),非參數貝葉斯模型可以擴展以匹配具有潛在無限數量參數的*任何大小的數據集。*他指出,許多看似龐大的數據集(數百萬個訓練示例)實際上是小型數據集的大型集合,其中概率方法對於處理因數據不足而產生的不確定性仍然至關重要。類似的論文以著名著作《深度學習》的第三部分為基礎,其中 Ian Goodfellow、Yoshua Bengio 和 Aaron Courville 認為,“深度學習研究”必須變得概率化,才能提高數據效率。
因為概率模型有效地“知道他們不知道的東西”,所以它們可以幫助防止基於數據不足的毫無根據的推斷做出的糟糕決策。隨著我們提出的問題和我們構建的模型變得越來越複雜,數據不足的風險也在增加。隨著我們基於 ML 模型的決策變得越來越高風險,與確信錯誤的模型相關的危險(無法退縮並說“嘿,等等,我以前從未真正見過這樣的輸入”)增加也是。由於這兩種趨勢似乎都是不可逆轉的——ML 的受歡迎程度和重要性都在增長——我預計概率方法會隨著時間的推移變得越來越普遍。只要我們的數據集相對於我們問題的複雜性和給出錯誤答案的風險來說仍然很小,我們應該使用知道自身局限性的概率模型。最好的概率模型具有類似於我們人類識別混亂和迷失方向的能力(記錄巨大或複雜的不確定性)的能力。當它們進入未知領域時,它們可以有效地警告我們,從而防止我們在它們接近或超過極限時做出潛在的災難性決定。