Distance-Functions

何時使用加權歐幾里得距離以及如何確定要使用的權重?

  • September 7, 2011

我有一組數據,其中每個數據包含 $ n $ 不同的措施。對於每個度量,我都有一個基準值。我想知道每個數據與基準值的接近程度。

我想過像這樣使用加權歐幾里得距離:

$ \hspace{0.5in} d_{x,b}=\left( \sum_{i=1}^{n}w_i(x_i-b_i)^2)\right)^{1/2} $

在哪裡

$ \hspace{0.5in}x_i $ 是特定數據的第 i 個度量的值

$ \hspace{0.5in}b_i $ 是該度量的相應基準值。

$ \hspace{0.5in} w_i $ 是我將附加到第 i 個度量值之間的權重值,具體如下:

$ \hspace{1in}0<w_i<1 $ 和 $ \sum_{i=1}^{n}1 $

但是,根據這個文檔,我發現要使用的權重是第 i 個度量的方差的倒數。我認為這種加權不會說明我對每項措施的重視程度。

所以:

  1. 是否有方法可以提出一組反映觀察者對度量的相對重要性的權重,或者觀察者可以為權重分配任意值?
  2. 使用加權歐幾里得距離來解決這個問題是否合適?

標準化權重

您擁有的設置是Mahalanobis distance的變體。所以當是每個測量值方差的倒數,您實際上是將所有測量值放在同一尺度上。這意味著您認為每個變量的變化同樣“重要”,但有些變量是以無法立即比較的單位衡量的。

重要性權重

您可以自由地將任何您喜歡的東西作為權重,包括“重要性”度量(儘管如果度量單位不同,您可能希望在重要性加權之前進行標準化)。

一個例子可能有助於澄清問題:考慮估計政治行為者之間的意識形態“距離”的想法。在這個應用程序中和可能是兩個演員的位置-第一個問題,和該問題的突出性。例如,可能是某個維度上的現狀立場,不同演員的立場不同。在這個應用程序中,人們肯定更願意衡量而不是斷言顯著性和位置。無論哪種方式,如果根據您的第一個方程計算,較大的權重將使非顯著問題的差異對參與者之間的整體距離影響較小。還要注意,在這個版本中,我們隱含地假設位置之間沒有相關的協方差,這是一個相當強的主張。

現在關注問題 2:在應用程序中,我剛剛描述了權重和距離在博弈論假設中關於傳遞偏好結構等的理由。最終,這些是以這種方式計算距離“合適”的唯一原因。沒有它們,我們只有一堆服從三角不等式的數字。

權重作為隱式測量

在協方差主題上,將您的問題視為確定距離具有實質性意義的相關子空間之一可能會有所幫助,前提是您的許多測量實際上測量了類似的事物。測量模型,例如因子分析,將通過加權組合將所有內容投影到可以計算距離的公共空間中。但是,再一次,我們必須知道你的研究背景才能說明這是否有意義。

引用自:https://stats.stackexchange.com/questions/15289

comments powered by Disqus

相關問答