Multivariate-Analysis
測量兩個多元分佈之間的“距離”
我正在尋找一些好的術語來描述我正在嘗試做的事情,以便更容易地尋找資源。
所以,假設我有兩個點 A 和 B 簇,每個點都與兩個值 X 和 Y 相關聯,我想測量 A 和 B 之間的“距離”——即它們從相同分佈中採樣的可能性有多大(我可以假設分佈是正常的)。例如,如果 X 和 Y 在 A 中相關但在 B 中不相關,則分佈不同。
直觀地說,我會得到 A 的協方差矩陣,然後看看 B 中的每個點適合在那裡的可能性有多大,反之亦然(可能使用類似 Mahalanobis 距離的東西)。
但這有點“臨時”,並且可能有一種更嚴格的描述方式(當然,在實踐中,我有兩個以上的數據集和兩個以上的變量 - 我試圖確定我的哪些數據集是異常值)。
謝謝!
還有Kullback-Leibler散度,這與您上面提到的 Hellinger 距離有關。