Random-Forest

將相似度矩陣轉換為(歐幾里得)距離矩陣

  • September 12, 2012

在隨機森林算法中,Breiman(作者)構造相似度矩陣如下:

  1. 將所有學習示例發送到森林中的每棵樹下
  2. 如果兩個示例落在同一葉中,則相似矩陣中的對應元素增加 1
  3. 用樹的數量對矩陣進行歸一化

他說:

案例 n 和 k 之間的接近度形成矩陣 {prox(n,k)}。根據他們的定義,很容易證明這個矩陣是對稱的、正定的,並且以 1 為界,對角線元素等於 1。因此,值 1-prox(n,k) 是歐幾里得距離的平方空間維度不大於案例數。來源

在他的實現中,他使用sqrt(1-prox)將其轉換為距離矩陣,其中prox是一個相似度矩陣。我想這與上面引用的“歐幾里得空間中的平方距離”有關。

有人可以解釋一下為什麼 1-prox 是歐幾里得空間中的平方距離以及為什麼他使用平方根來獲得距離矩陣嗎?

在此處輸入圖像描述

根據*余弦定理,在歐幾里得空間中,兩點(向量)1 和 2 之間的(歐幾里得)平方距離為. 平方長度和分別是點 1 和 2 的坐標平方和(它們是畢達哥拉斯斜邊)。數量稱為向量 1 和 2 的標量積*(= 點積,= 內積)。

標量積也稱為 1 和 2 之間的角度類型相似度,在歐幾里德空間中,它是幾何上最有效的相似度度量,因為它很容易轉換為歐幾里德距離,反之亦然(另見此處)。

協方差係數和皮爾遜相關標量積。如果您將多元數據居中(使原點位於點雲的中心),那麼的歸一化是向量的方差(不是上圖中的變量 X 和 Y),而對於居中的數據是 Pearson; 所以,一個標量產品是協方差。[附註。如果您現在正在考慮變量之間的協方差/相關性,而不是數據點,您可能會問是否可以將變量繪製為上圖中的向量。是的,可能,它被稱為“主題空間”的表示方式。餘弦定理仍然正確,無論在此實例中被視為“向量” - 數據點或數據特徵。]

每當我們有一個對角線上為 1 的相似矩陣時——也就是說,所有設置為 1,我們相信/期望相似度是歐幾里得標量積,如果需要,我們可以將其轉換為平方歐幾里得距離(例如,用於進行需要距離和理想歐幾里得距離的聚類或 MDS)。因為,根據上述餘弦定理公式,是平方歐幾里得. 你當然可以放棄因素如果您的分析不需要它,並通過公式轉換. 作為一個經常遇到的例子,這些公式用於轉換 Pearson進入歐幾里得距離。(另請參閱這個和那裡的整個線程,質疑一些要轉換的公式到遠處。)

就在上面我說如果“我們相信/期望……”。您可以檢查並確保相似性如果矩陣沒有負特徵值,則矩陣 - 手頭上的一個特定矩陣 - 在幾何上*是“OK”標量積矩陣。*但如果它有這些,那就意味著不是真正的標量產品,因為在的或在是矩陣背後的“隱藏”。在將其轉換為歐幾里德距離之前,有一些方法可以嘗試“修復”這樣的矩陣。

引用自:https://stats.stackexchange.com/questions/36152

comments powered by Disqus