Descriptive-Statistics
為什麼在使用具有正值和負值的數據時變異係數無效?
我似乎無法為我的問題找到明確的答案。
我的數據由幾個圖組成,測量平均值從 0.27 到 0.57 不等。在我的例子中,所有數據值都是正數,但測量本身是基於反射率值的比率,範圍可以從 -1 到 +1。這些圖代表了NDVI的值,這是一個遠程導出的植被“生產力”指標。
我的目的是比較每個地塊的值的可變性,但由於每個地塊的平均值不同,我選擇使用 CV 來衡量每個地塊的 NDVI 值的相對離散度。
據我了解,獲取這些地塊的 CV 並不合理,因為每個地塊都可以有正值和負值。為什麼在這種情況下不適合使用 CV?有哪些可行的替代方案(即,類似的相對分散測試、數據轉換等)?
想想什麼是 CV:標準差與均值的比率。但如果變量可以有正值和負值,則平均值可能非常接近 0;因此,CV 不再做它應該做的事情:也就是說,與平均值相比,給出 sd 有多大的感覺。
編輯:在評論中,我說如果你可以明智地為變量添加一個常量,CV 就不好了。這是一個例子:
set.seed(239920) x <- rnorm(100, 10, 2) min(x)#To check that none are negative (CVX <- sd(x)/mean(x)) x2 <- x + 10 (CVX2 <- sd(x2)/mean(x2))
x2 只是 x + 10。我認為直觀地很清楚它們是同樣可變的;但簡歷不同。
一個現實生活中的例子是,如果 x 是以攝氏度為單位的溫度,而 x2 是以 K 度為單位的溫度(儘管有人可能會爭辯說 K 是正確的標度,因為它有一個定義的 0)。