Clustering

人工神經網絡 ANN 如何用於無監督聚類?

  • March 3, 2015

我了解如何artificial neural network (ANN)使用反向傳播以有監督的方式訓練 , 以通過減少預測中的誤差來改進擬合。我聽說 ANN 可以用於無監督學習,但是如果沒有某種成本函數來指導優化階段,如何做到這一點?使用 k-means 或 EM 算法,每次迭代搜索都會增加一個函數。

  • 我們如何使用 ANN 進行聚類,它使用什麼機制對同一位置的數據點進行分組?

(以及添加更多層會帶來哪些額外功能?)

神經網絡廣泛用於無監督學習,以便更好地學習輸入數據的表示。例如,給定一組文本文檔,NN 可以學習從文檔到實值向量的映射,使得結果向量對於具有相似內容的文檔是相似的,即保持距離。這可以使用例如自動編碼器來實現 - 一種經過訓練的模型,可以從較小的表示(隱藏層激活)重建原始向量,其中重建誤差(與 ID 函數的距離)作為成本函數。此過程不會為您提供集群,但它會創建可用於集群的有意義的表示。例如,您可以在隱藏層的激活上運行聚類算法。

聚類:有許多不同的神經網絡架構專門為聚類而設計。最廣為人知的可能是自組織地圖。SOM 是一個 NN,它具有一組連接在一起形成拓撲網格(通常是矩形)的神經元。當某些模式呈現給 SOM 時,具有最接近權重向量的神經元被認為是贏家,其權重會適應該模式,以及其鄰域的權重。通過這種方式,SOM 自然地找到數據集群。一個有點相關的算法是增長神經氣體(它不限於預定義的神經元數量)。

另一種方法是自適應共振理論,其中我們有兩層:“比較場”和“識別場”。識別場還確定與從比較場轉移的向量的最佳匹配(神經元),並且還具有橫向抑制連接。通過谷歌搜索這些模型的名稱可以很容易地找到實現細節和精確方程,所以我不會把它們放在這裡。

引用自:https://stats.stackexchange.com/questions/140148

comments powered by Disqus