Descriptive-Statistics

為什麼在使用具有正值和負值的數據時變異係數無效?

  • April 17, 2013

我似乎無法為我的問題找到明確的答案。

我的數據由幾個圖組成,測量平均值從 0.27 到 0.57 不等。在我的例子中,所有數據值都是正數,但測量本身是基於反射率值的比率,範圍可以從 -1 到 +1。這些圖代表了NDVI的值,這是一個遠程導出的植被“生產力”指標。

我的目的是比較每個地塊的值的可變性,但由於每個地塊的平均值不同,我選擇使用 CV 來衡量每個地塊的 NDVI 值的相對離散度。

據我了解,獲取這些地塊的 CV 並不合理,因為每個地塊都可以有正值和負值。為什麼在這種情況下不適合使用 CV?有哪些可行的替代方案(即,類似的相對分散測試、數據轉換等)?

想想什麼是 CV:標準差與均值的比率。但如果變量可以有正值和負值,則平均值可能非常接近 0;因此,CV 不再做它應該做的事情:也就是說,與平均值相比,給出 sd 有多大的感覺。

編輯:在評論中,我說如果你可以明智地為變量添加一個常量,CV 就不好了。這是一個例子:

set.seed(239920)
x <- rnorm(100, 10, 2)
min(x)#To check that none are negative
(CVX <- sd(x)/mean(x))
x2 <- x + 10
(CVX2 <- sd(x2)/mean(x2))

x2 只是 x + 10。我認為直觀地很清楚它們是同樣可變的;但簡歷不同。

一個現實生活中的例子是,如果 x 是以攝氏度為單位的溫度,而 x2 是以 K 度為單位的溫度(儘管有人可能會爭辯說 K 是正確的標度,因為它有一個定義的 0)。

引用自:https://stats.stackexchange.com/questions/56399

comments powered by Disqus

相關問答