Correlation

(非二分)名義變量與數值(區間)或序數變量之間的相關係數

  • October 17, 2013

我已經閱讀了該站點中的所有頁面,試圖找到我的問題的答案,但似乎沒有人適合我……

首先,我向您解釋我正在使用的數據類型……

假設我有一個數組向量,其中包含多個城市名稱,300 個用戶每人一個。我還有另一個數組向量,其中包含對每個用戶的調查的分數響應或每個用戶的連續值。

我想知道是否存在計算這兩個變量之間相關性的相關係數,因此,在名義變量和數字/連續或有序變量之間。

我在互聯網上搜索過,在某些頁面中,他們建議使用 contingency coefficient 或 Cramer’s V 或 Lambda 係數或 Eta 。對於每一個測量值,只要說它們可以應用於我們有名義變量和區間或數值變量的數據。問題是搜索和搜索,試圖理解它們中的每一個,有時會寫或看例子,如果你有二分名義變量,它們是合理的,除了Cramer’s V,其他時候沒有寫任何要求數據的類型。許多其他頁面說應用回歸是正確的,這是正確的,但我只是想知道這種數據是否存在像 pearson/spearman 這樣的係數。

我也認為使用 Spearman Correlation coeff 不太合適,因為城市不可排序。

我還自己構建了 Cramer’sV 和 Eta 的函數(我正在使用 Matlab)但是對於 Eta,他們沒有談論任何 p 值來查看係數是否具有統計顯著性……

在 matlabWorks 站點中,還有一個不錯的工具箱,上面寫著要計算 eta^2,但它需要的輸入類型是無法理解的。

這裡有像我一樣做過測試的人嗎?如果您需要更多詳細信息來了解我正在使用的數據類型,請詢問我,我會盡力為您解釋得更好。

標稱與區間

名義變量和區間(“數值”)變量之間最經典的“相關”度量是Eta,也稱為相關比,等於單向 ANOVA 的 R 平方根(p 值 =方差分析)。Eta 可以看作是一種對稱關聯度量,就像相關性一樣,因為 ANOVA 的 Eta(名義上是獨立的,數值是相關的)等於 Pillai 的多元回歸軌跡(數值是獨立的,一組虛擬變量對應於名義上的依賴)。

一個更微妙的衡量標準是類內相關係數(ICC)。相對於數值變量,Eta 僅掌握組之間的差異(由名義變量定義),而 ICC 同時還測量組內數值之間的協調性或一致性;換句話說,ICC(尤其是原始的無偏“配對”ICC 版本)停留在值的水平上,而 Eta 在統計水平上運行(組均值與組方差)。

標稱與序數

關於名義變量和有序變量之間的“相關性”度量的問題不太明顯。困難的原因是,就其性質而言,序數尺度比間隔或名義尺度更“神秘”或“扭曲”。難怪到目前為止,專門針對序數數據的統計分析的表述相對較差。

一種方法可能是將您的序數數據轉換為等級,然後計算Eta,就好像等級是區間數據一樣。這種 Eta 的 p 值 = Kruskal-Wallis 分析的 p 值。由於與 Spearman rho 用於關聯兩個序數變量的原因相同,這種方法似乎是有道理的。這個邏輯是“當你不知道尺度上的間隔寬度時,通過線性化任何可能的單調性來打破快死結:對數據進行排名”。

另一種方法(可能更嚴格和更靈活)是使用序數邏輯回歸,序數變量作為 DV,名義變量作為 IV。Nagelkerke 的偽 R 平方的平方根(帶有回歸的 p 值)是另一個相關性度量。請注意,您可以在序數回歸中試驗各種鏈接函數。然而,這種關聯不是對稱的:名義上的假設是獨立的。

另一種方法可能是找到這種將序數數據單調轉換為區間的方法——而不是對倒數第二段進行排名——這將為您最大化R (即Eta)。這是分類回歸(= 具有最佳縮放比例的線性回歸)。

還有一種方法是使用序數變量作為預測變量來執行分類樹,例如 CHAID。此過程將合併在一起(因此它是與前一個相反的方法)相鄰的有序類別,這些類別不區分名義預測變量的類別。然後,您可以依賴基於卡方的關聯度量(例如 Cramer’s V),就好像您將名義變量與名義變量相關聯一樣。

@Michael 在他的評論中提出了另一種方法 - 一種稱為 Freeman’s Theta的特殊係數。

所以,到目前為止,我們已經找到了這些機會:(1)排序,然後計算 Eta;(2) 使用序數回歸;(3)使用分類回歸(“優化”將序數變量轉換為區間);(4)使用分類樹(“優化”減少有序類別的數量);(5) 使用弗里曼的 Theta。

引用自:https://stats.stackexchange.com/questions/73065

comments powered by Disqus