Machine-Learning

模式識別任務中最先進的集成學習算法?

  • September 1, 2016

**這個問題的結構如下:**首先,我提供集成學習的概念,進一步提供模式識別任務列表,然後給出集成學習算法的示例,最後介紹我的問題。那些不需要所有補充信息的人可能只看標題並直接回答我的問題。


什麼是集成學習?

根據維基百科文章

在統計和機器學習中,集成方法使用多種學習算法來獲得比單獨的任何組成學習算法更好的預測性能。與通常是無限的統計力學中的統計集成不同,機器學習集成僅指替代模型的具體有限集,但通常允許在這些替代模型中存在更靈活的結構。


模式識別任務示例:


集成學習算法示例:

以下用於 PR 任務的集成學習算法(根據 Wiki):

集成學習算法(用於將多種學習算法組合在一起的監督元算法):

  • Boosting(一種機器學習集成元算法,主要用於減少偏差,以及監督學習,以及將弱學習器轉換為強學習器的一系列機器學習算法)
  • Bootstrap 聚合(“裝袋”)(一種機器學習集成元算法,旨在提高用於統計分類回歸)。
  • 集合平均(創建多個模型並將它們組合以產生所需輸出的過程,而不是僅創建一個模型。通常,模型集合的性能優於任何單個模型,因為模型的各種錯誤“平均掉了”。 )
  • 專家混合,專家分層混合

不同的實現

  • 神經網絡的集合(一組神經網絡模型通過平均單個模型的結果來做出決定)。
  • 隨機森林(一種用於分類、回歸和其他任務的集成學習方法,通過在訓練時構建大量決策樹並輸出作為個人的類(分類)或平均預測(回歸)模式樹)。
  • AdaBoost(其他學習算法('弱學習器')的輸出組合成一個加權和,代表增強分類器的最終輸出)。

此外:

  • 使用一個神經網絡組合不同分類器的方法
  • 能力範圍法

我的問題

哪種集成學習算法被認為是當今最先進的,並被企業和組織實際用於實踐(用於人臉檢測、車牌識別、光學字符識別等)?使用集成學習算法應該可以提高識別精度並帶來更好的計算效率。但是,現實中的事情是這樣的嗎?

哪種集成方法可能在模式識別任務中表現出更好的分類精度和性能?也許,有些方法現在已經過時了,或者已經證明是無效的。也有可能由於一些新算法的優勢,現在不再使用集成方法。那些在該領域有經驗或在該領域有足夠知識的人,您能幫忙澄清一下嗎?

最先進的算法可能與行業生產中使用的算法不同。此外,後者可以投資於微調更基本(通常更可解釋)的方法,以使它們比學術界更好地工作。

示例 1:據TechCrunch 報導,Nuance 將於今年 9 月開始在其 Dragon 語音識別產品中使用“深度學習技術”。

示例 2:Chiticariu、Laura、Yunyao Li 和 Frederick R. Reiss。“基於規則的信息提取已死!基於規則的信息提取系統萬歲!” 在 EMNLP 中,沒有。10 月,第 827-832 頁。2013. https://scholar.google.com/scholar?cluster=12856773132046965379&hl=en&as_sdt=0,22http://www.aclweb.org/website/old_anthology/D/D13/D13-1079.pdf

在此處輸入圖像描述

話雖如此:

哪種集成學習算法被認為是當今最先進的

最先進的圖像分類系統之一通過集成獲得了一些不錯的收益(就像我所知的大多數其他系統一樣):He、Kaiming、Xiangyu Zhang、Shaoqing Ren 和 Jian Sun。“用於圖像識別的深度殘差學習。” arXiv 預印本 arXiv:1512.03385 (2015)。https://scholar.google.com/scholar?cluster=17704431389020559554&hl=en&as_sdt=0,22https://arxiv.org/pdf/1512.03385v1.pdf

在此處輸入圖像描述

引用自:https://stats.stackexchange.com/questions/232841

comments powered by Disqus