Correlation
連續數據與計數數據的相關性
假設我們正在處理這個數據集在哪裡是連續變量(例如指數)和是離散分佈(例如泊松). 讓我們這麼說是之間的相關性和. 有人怎麼定義?
我想說至少有 3 個不錯的選擇對你來說是有意義的:
- 多序列相關- 這將是 3 個選項中最奇特的一個,涉及用於構建離散變量的潛在連續變量的近似值 (在您的情況下)以及最有可能的最大似然估計程序這可能會導致潛在的連續變量和真實的變量,,當被視為二元正態樣本時(R 中的示例實現:polycor)。有幾個關於這個想法的參考資料,但這是 1974 年關於該主題的原始出版物:Estimation of the Correlation Between a Continuous and a Discrete Variable。
- Nonparametric Correlation - Spearman 等級相關係數在這種情況下可能是一個不錯的選擇。Spearman 的 Rho 的計算基於每個變量的值的等級而不是值本身,這使得它更廣泛地適用於存在非線性關係或混合數據類型的情況。
- 建模- 我知道您在評論中提到您沒有嘗試進行任何類型的建模,但我仍然認為來自兩個變量之間的良好擬合的函數關係的一兩個參數估計比您會發現任何相關係數(除非離散變量真的是從二元正態分佈值的一半創建的——我對此表示懷疑)。
為了更直接地回答您的問題,計算像往常一樣(假設您的意思是乘積矩相關係數)可能具有您期望的屬性,或者至少隨著變量之間的線性相關性的增長它會變得更大。但是,相關性顯著性的統計檢驗將無效,因為此類檢驗所需的假設之一是雙變量正態性,如果其中一個變量是離散的,這顯然是不正確的。
不過,使用非參數相關係數(例如 Spearman 的)進行顯著性測試是可能的,並且很容易找到任何語言中記錄良好的實現。