Clustering
如何定量判斷一維數據是圍繞 1 個值還是 3 個值聚集?
我有一些關於人類心跳之間時間的數據。異位(額外)心跳的一個跡像是這些間隔聚集在三個值而不是一個值周圍。我怎樣才能獲得對此的定量測量?
我正在尋找比較多個數據集,這兩個 100-bin 直方圖代表了所有數據集。
我可以比較方差,但我希望我的算法能夠檢測每種情況下是否存在一個或三個集群,而無需與其他情況進行比較。
這是用於離線處理的,因此如果需要,可以使用大量計算能力。
我強烈建議不要在這裡使用 k-means。不同 k 值的結果沒有很好的可比性。該方法只是一種粗略的啟發式方法。如果您真的想使用聚類,請使用 EM 聚類,因為您的數據似乎包含正態分佈。並驗證您的結果!
相反,顯而易見的方法是嘗試擬合單個高斯函數並(例如使用 Levenberg-Marquard 方法)擬合三個高斯函數,可能會限製到相同的高度(以避免退化)。
然後測試,這兩個分佈中哪個更適合。