Clustering
為 DBSCAN 選擇 eps 和 minPts 的例程
DBSCAN 是一些文獻中引用最多的聚類算法,它可以根據密度找到任意形狀的聚類。它有兩個參數 eps(作為鄰域半徑)和 minPts(作為將一個點視為核心點的最小鄰域),我認為這高度依賴於它們。
有沒有常規或常用的方法來選擇這些參數?
有很多出版物提出了選擇這些參數的方法。
最值得注意的是 OPTICS,一種消除 epsilon 參數的 DBSCAN 變體;它產生一個分層結果,大致可以看作是“使用每個可能的 epsilon 運行 DBSCAN”。
對於 minPts,我建議不要依賴自動方法,而是依賴您的領域知識。
一個好的聚類算法具有參數,允許您根據需要對其進行自定義。
您忽略的一個參數是距離函數。對於 DBSCAN,首先要做的是為您的應用程序找到一個好的距離函數。不要依賴歐幾里得距離對每個應用程序都是最好的!