Regression

神經網絡和非線性回歸之間的本質區別是什麼?

  • May 5, 2018

人工神經網絡通常(貶義地)稱為“美化回歸”。人工神經網絡和多元/多元線性回歸之間的主要區別當然是人工神經網絡模型非線性關係。

那麼人工神經網絡和多元/多元非線性回歸模型有什麼區別呢?

我唯一能想到的是神經網絡的類圖結構,它允許有效的參數學習過程(反向傳播)和其他優點(深度網絡中層的靈活堆疊允許特徵學習等)。

它們可以有效地稱為“美化的非線性回歸”嗎?或者還有更多?

編輯:在這裡找到了一個很好的討論https://www.quora.com/Is-Machine-Learning-just-glorified-curve-fit 基本上同意差異主要是細微差別,但方法是相似的。

我知道在這種情況下,答案更多是主觀的,這個問題不適合 stackexchange。

理論上,是的。在實踐中,事情更加微妙。

首先,讓我們從評論中提出的疑問中清除該領域:神經網絡可以以無縫方式處理多個輸出,因此我們是否考慮多元回歸併不重要(參見統計學習的元素,第11.4)。

話雖如此,具有固定架構和損失函數的神經網絡確實只是一個參數非線性回歸模型。因此,它甚至不如高斯過程等非參數模型靈活。準確地說,具有 sigmoid 或 tanh 激活函數的單個隱藏層神經網絡不如高斯過程靈活:參見http://mlss.tuebingen.mpg.de/2015/slides/ghahramani/gp-neural-nets15 .pdf。對於深度網絡,這不是真的,但是當您考慮深度高斯過程時,它再次變得正確。

那麼,為什麼深度神經網絡如此重要?有很好的理由:

  1. 當您使用 Levenberg-Marquard 算法擬合非線性最小二乘模型時,它們允許擬合您甚至不會開始夢想的複雜模型。參見例如https://arxiv.org/pdf/1611.05431.pdfhttps://arxiv.org/pdf/1706.02677.pdfhttps://arxiv.org/pdf/1805.00932.pdf其中參數的數量從 25 到 8.29 億。當然,DNN 被過度參數化、不可識別等,因此參數的數量與模型的“自由度”非常不同(一些直覺參見https://arxiv.org/abs/1804.08838)。儘管如此,無可否認的驚人模型(樣本量)能夠很好地概括。
  2. 它們擴展到龐大的數據集。普通高斯過程是一個非常靈活的模型,但推理具有這對於像 ImageNet 或更大的數據集(如Open Image V4 )是完全不可接受的。GPs 的推斷與 NNs 的規模一樣大,但我不知道為什麼他們不享有同樣的名聲(好吧,我對此有自己的想法,但我們不要離題)。
  3. 對於某些任務,它們非常準確,比許多其他統計學習模型要好得多。您可以嘗試使用 65536 輸入內核 SVM 或隨機森林來匹配 ImageNet 上的 ResNeXt 精度。祝你好運。

但是,理論之間的真正區別:

所有神經網絡都是參數非線性回歸或分類模型

在我看來,實踐是,在實踐中,深度神經網絡的任何事情都沒有真正提前固定,所以你最終會從一個比你預期的更大的類別中擬合一個模型。在實際應用中,這些方面都不是真正固定的:

  • 架構(假設我進行序列建模:我應該使用 RNN 嗎?擴張的 CNN?基於注意力的模型?)
  • 架構的細節(有多少層?第 1 層有多少單元,第 2 層有多少單元,哪些激活函數等)
  • 如何預處理數據?標準化?最小最大歸一化?強大的縮放器?
  • 一種正則化(?? 批量規範?ReLU 之前還是之後?輟學?在哪幾層之間?)
  • 優化器(SGD?Path-SGD?Entropy-SGD?Adam?等)
  • 其他超參數,如學習率、提前停止等。
  • 甚至損失函數也往往沒有提前固定!我們主要將 NN 用於兩種應用(回歸和分類),但人們使用大量不同的損失函數

就 DNN 而言,即使在具有強烈季節性信號且特徵數量較少的相對簡單的情況下,也執行了多少選擇:

https://stackoverflow.com/questions/48929272/non-linear-multivariate-time-series-response-prediction-using-rnn

因此在實踐中,即使理想情況下擬合 DNN 也意味著只擬合該類型的模型

在哪裡具有一定的層次結構,實際上很少(如果有的話)預先定義函數和擬合方法,因此該模型比“經典”參數非線性模型靈活得多​​。

引用自:https://stats.stackexchange.com/questions/344658

comments powered by Disqus