儘管有正態性假設,為什麼排名的 Pearson 相關性仍然有效?
我目前正在閱讀有關 Pearson 相關性的假設。隨後的 t 檢驗的一個重要假設似乎是兩個變量都來自正態分佈。如果他們不這樣做,則提倡使用 Spearman rho 等替代措施。Spearman 相關性的計算類似於 Pearson 相關性,僅使用 X 和 Y 的等級而不是 X 和 Y 本身,對嗎?
我的問題是:如果 Pearson 相關的輸入變量需要正態分佈,為什麼即使輸入變量是秩,Spearman 相關的計算仍然有效?我的排名當然不是來自正態分佈…
到目前為止,我提出的唯一解釋是 rho 的顯著性可能與 Pearson 相關 t 檢驗的檢驗不同(以不需要正態性的方式),但到目前為止我還沒有找到任何公式。但是,當我運行一些示例時,rho 的 p 值和秩的 Pearson 相關性的 t 檢驗始終匹配,除了最後幾位數字。對我來說,這看起來不像是一個開創性的不同程序。
您可能有的任何解釋和想法將不勝感激!
計算 Pearson 相關性不需要正態性;只是關於相應人口數量的某些形式的推斷是基於正常假設(CI 和假設檢驗)。
如果您沒有正態性,則該特定推理形式的隱含屬性將不成立。
在 Spearman 相關的情況下,您沒有正態性,但這很好,因為 Spearman 相關性的推理計算(例如假設檢驗)不是基於正態性假設。
它們是基於連續雙變量分佈的一組配對秩而得出的;在這種情況下,假設檢驗使用基於等級的檢驗統計量的排列分佈。
當使用 Pearson 相關進行推斷的通常假設成立(二元正態性)時,Spearman 相關通常非常接近(儘管平均而言更接近 0)。
(因此,當您可以使用 Pearson 時,Spearman 通常會做得很好。如果除了某些其他過程(導致異常值)的污染之外,您幾乎擁有二元正態數據,那麼 Spearman 將是一種更可靠的方法來估計相關性未污染的分佈。)