Distance

使用哪個距離?例如,曼哈頓、歐幾里得、布雷-柯蒂斯等

  • December 22, 2013

我不是社區生態學家,但這些天我正在研究社區生態數據。

除了這些距離的數學之外,我無法理解的是每個距離的使用標準以及可以在什麼情況下應用它。例如,如何處理計數數據?如何將兩個位置之間的斜角轉換為距離?還是兩個地方的溫度或降雨量?每個距離的假設是什麼,什麼時候有意義?

不幸的是,在大多數情況下,您的問題並沒有明確的答案。也就是說,對於任何給定的應用程序,肯定有許多距離度量會產生相似且準確的答案。考慮到有幾十個甚至可能數百個有效距離度量正在積極使用,您可以找到“正確”距離的概念並不是考慮選擇適當距離度量問題的有效方式。

相反,我會專注於選擇錯誤的距離度量。您是否希望您的距離反映“絕對幅度”(例如,您有興趣使用距離來識別具有相似平均值的股票),或反映響應的整體形狀(例如股票價格隨時間波動相似,但可能有完全不同的原始值)?例如,前一種情況將指示諸如曼哈頓和歐幾里德的距離,而後者將指示相關距離。

如果您知道數據的協方差結構,那麼馬氏距離可能更合適。對於純分類數據,有許多建議的距離,例如匹配距離。因為混合分類和連續的高爾距離很受歡迎,(儘管在我看來在理論上有些不令人滿意)。

最後,在我看來,如果您證明您的結果和結論對於距離度量的選擇是穩健的(當然,在適當距離的子集中),您的分析將得到加強。如果您的分析隨著使用的距離度量的細微變化而發生巨大變化,則應進行進一步研究以確定不一致的原因。

引用自:https://stats.stackexchange.com/questions/80377

comments powered by Disqus