Machine-Learning

DBSCAN 聚類中 eps 參數的解釋是什麼?

  • July 26, 2016

我想對經緯度數據進行聚類,以便形成的所有聚類的半徑<=1000米

問題

  1. eps參數的實際含義是什麼?請舉個例子。
  2. 如果距離測量是以米為單位的半正弦,那麼設置 eps=1000 會達到我的目的嗎?

我知道 minpts 參數是集群大小。

Epsilon 是擴展集群的局部半徑。將其視為步長 - DBSCAN 永遠不會比這更大,但是通過執行多個步驟DBSCAN 集群可以變得比 eps 大得多

如果您希望您的“集群”具有最大半徑,這是一個集合覆蓋類型的問題,因此您可能需要一個貪婪的近似值。這不是聚類問題,因為您不允許聚類算法發現比這更大的結構。你想用一個覆蓋,忽略結構來近似你的數據。

但是有一些聚類算法可以限制聚類半徑(但它們可能不會盡力優化您的問題):

  1. LEADER 有點像 DBSCAN 減去集群擴展。選擇一個未聚集的點並添加 x 半徑內的所有內容。重複直到所有點都“聚集”。它不會優化任何東西,你也不會得到很多理論屬性。但是集群中的最大距離是 2x。運行兩次,你會得到非常不同的結果。
  2. 在高度 x 處切割樹狀圖後的完整鏈接 HAC,即兩點的最大距離。結果應該比Leader的好很多,也更穩定。然而,全鏈路 HAC 可能找不到最佳值。3 CLINK 是完整鏈接的更快變體(僅 O(n²) 而不是 n³),但往往會找到更糟糕的解決方案。您可能希望對數據的排列運行多次。

引用自:https://stats.stackexchange.com/questions/225655

comments powered by Disqus