Correlation

連續變量和分類(名義)變量之間的相關性

  • June 10, 2014

我想找到連續(因變量)和分類(名義:性別,自變量)變量之間的相關性。連續數據不是正態分佈的。之前,我使用 Spearman 計算過. 但是,有人告訴我這是不對的。

在互聯網上搜索時,我發現箱線圖可以提供有關它們關聯程度的想法;但是,我正在尋找一個量化的值,例如 Pearson 的乘積矩係數或 Spearman 的. 你能幫我解決這個問題嗎?或者,告知哪種方法合適?

點雙列係數會是正確的選擇嗎?

審稿人應該告訴你為什麼 Spearman不合適。這是其中的一個版本:讓數據成為在哪裡是測量變量和是性別指標,比如說它是0(男人),1(女人)。然後是斯皮爾曼的是根據排名來計算的分別。由於該指標只有兩個可能的值,會有很多聯繫,所以這個公式是不合適的。如果您將排名替換為平均排名,那麼您將只得到兩個不同的值,一個用於男性,另一個用於女性。然後將基本上成為兩組之間平均排名的一些重新調整的版本。簡單地比較手段會更簡單(更容易解釋)!另一種方法如下。

讓是對男性連續變量的觀察,女性中也一樣。現在,如果分佈和是一樣的,那麼將為 0.5(假設分佈純粹是絕對連續的,所以沒有關係)。在一般情況下,定義

在哪裡是男性之間的隨機抽籤,女性之中。我們可以估計從我們的樣本中?形成所有對(假設沒有關係)併計算我們有多少“人更大”()()以及有多少“女人更大”() ()。然後一個樣本估計是

這是一種合理的相關性度量!(如果只有少數關係,請忽略它們)。但我不確定它叫什麼,如果它有名字的話。這個可能很接近: https ://en.wikipedia.org/wiki/Goodman_and_Kruskal%27s_gamma

引用自:https://stats.stackexchange.com/questions/102778

comments powered by Disqus