Correlation

為什麼不能對比例數據進行 Pearson 相關?

  • March 31, 2014

我正在研究的一個在線模塊指出,永遠不應該將皮爾遜相關性與比例數據一起使用。為什麼不?

或者,如果有時可以或總是可以,為什麼?

這是針對在每個觀察中多個變量總和為 1 的情況。我的回答將是直覺層面的;這是故意的(而且,我不是組成數據的專家)。

讓我們有iid(因此零相關)正值變量,然後我們將它們相加並重新計算為該總和的比例。然後,

  • 在兩個變量V1 V2的情況下,如果說 V1 可以自由變化,則 V2 沒有自由空間(因為 V1+V2=常數)並且完全固定;V1越大V2越小,V1越小V2越大。它們的相關性不過並且總是如此。
  • 在 3 個變量V1 V2 V3的情況下,如果說 V1 可以自由變化,則 V2+V3 是固定的;也就是說,在 (V2+V3) 內部,兩個變量中的每一個仍然是部分自由的:它們平均 每次固定時間,總共完全固定。因此,如果三個變量中的任何一個被認為是免費的(就像我們採用 V1 一樣),那麼其餘兩個中的任何一個都是預期的固定的。所以它們之間的相關性是 . 這是預期的相關性;它可能因樣品而異。
  • 在 4 個變量V1 V2 V3 V4的情況下,我們有同樣的推理,如果我們將四個變量中的任何一個作為免費,那麼剩餘的任何一個都應該是固定的; 因此,這四個中的任何一對之間的預期 相關性 - 一個自由,另一個 固定 - 是.
  • 隨著(最初是獨立同分佈)變量數量的增加,預期的成對相關性從負向增長, 並且其從樣本到樣本的變化變得更大。

引用自:https://stats.stackexchange.com/questions/91960

comments powered by Disqus