Correlation

諸如加權相關之類的東西?

  • June 29, 2016

我有一些關於最受歡迎的音樂藝術家的有趣數據,這些數據按地點分為大約 200 個國會選區。我想看看是否有可能對一個人的音樂偏好進行民意調查,並確定他或她是“像民主黨人一樣傾聽”還是“像共和黨人一樣傾聽”。(當然這很輕鬆,但數據中有真正的熵!)

我有大約 100 位藝術家的數據,加上過去三個選舉週期中每個地區的共和黨人和民主黨人的平均投票百分比。因此,我對每位藝術家進行了相關性分析,以查看哪些藝術家最不成比例地聽取了民主黨的投票份額。對於任何給定的藝術家,這些相關性從大約 -0.3 到 0.3,中間有很多預測能力很小或沒有預測能力。

我有兩個問題:首先,每個地區的溪流總數差異很大。現在,我正在將每個地區屬於碧昂絲的所有流的百分比與投給民主黨的選票百分比相關聯。但是一個地區的總流量可能是數百萬,而另一個地區的流量只有 100,000 人。我是否需要以某種方式加權相關性來解釋這一點?

其次,我很好奇如何將這些相關性組合成對用戶政治的綜合猜測。假設我選取絕對相關值(正負)最高的 20 位藝術家,每個方向 10 位,然後對用戶進行調查,了解他或她對每位藝術家的喜愛程度。因此,我對每位藝術家的讚成票或反對票加上所有 20 種價值觀與政治的相關性。有沒有一種標準方法可以將這些相關性組合成一個單一的估計值?(我在想類似紐約時報著名的方言測驗,它將 25 個問題的區域概率組合成一張熱圖。但在這種情況下,我只需要一個關於民主黨或共和黨人對音樂的品味如何的單一值。

謝謝!

加權 Pearson 相關公式可以在 webStackOverflowWikipedia上輕鬆找到,並在多個 R 包中實現,例如psychweights以及 Python 的statsmodels包。它像常規相關性一樣計算,但使用加權平均值

$$ m_X = \frac{\sum_i w_i x_i}{\sum_i w_i}, ~~~~ m_Y = \frac{\sum_i w_i y_i}{\sum_i w_i} $$

加權方差

$$ s_X = \frac{\sum_i w_i (x_i - m_X)^2}{ \sum_i w_i}, ~~~~ s_Y = \frac{\sum_i w_i (y_i - m_Y)^2}{ \sum_i w_i} $$

和加權協方差

$$ s_{XY} = \frac{\sum_i w_i (x_i - m_X)(y_i - m_Y)}{ \sum_i w_i} $$

擁有所有這些,您可以輕鬆計算加權相關性

$$ \rho_{XY} = \frac{s_{XY}}{\sqrt{s_X s_Y}} $$

至於您的第二個問題,據我了解,您將獲得有關 20 位藝術家和用戶關於他/她的偏好的二元答案的政治取向和偏好之間相關性的數據,並且您希望獲得某種綜合衡量標準。

讓我們從平均相關性開始。有多種平均概率的方法,但似乎沒有太多平均相關性的方法。可以做的一件事是使用Fisher 的 $ z $ - MathOverflow描述的轉換,即

$$ \bar\rho = \tanh \left(\frac{\sum_{j=1}^K \tanh^{-1}(\rho_j)}{K} \right) $$

它減少了分佈的偏度並使其更接近正常。Bushman 和 Wang (1995) 以及 Corey、Dunlap 和 Burke (1998) 也描述了這一過程。

接下來,您必須注意,如果 $ r = \mathrm{cor}(X,Y) $ , 然後 $ -r = \mathrm{cor}(-X,Y) = \mathrm{cor}(X,-Y) $ ,因此音樂偏好與某種政治傾向的正相關與音樂厭惡與這種政治傾向的負相關相同,反之亦然。

現在,讓我們定義 $ r_j $ 作為音樂偏好的相關性 $ j $ - 具有某種政治傾向的藝術家,以及 $ x_{ij} $ 作為 $ i $ -th 用戶偏好 $ j $ - 藝術家,在哪裡 $ x_{ij} = 1 $ 為偏好和 $ x_{ij} = -1 $ 因為不喜歡。您可以將最終估計定義為

$$ \bar r_i = \tanh \left(\frac{\sum_{j=1}^K \tanh^{-1}(r_j x_{ij})}{K} \right) $$

即計算平均相關性,從而為喜歡和不喜歡的藝術家相應地反轉相關性的符號。通過應用這樣的程序,您最終會得到用戶偏好和政治取向的平均“相關性”,因為常規相關性範圍從 $ -1 $ 到 $ 1 $ .

但…

你不認為所有這些對於基本上是一個多元回歸問題的東西來說都是多餘的嗎?除了所有的加權和平均,您可以簡單地使用加權多元回歸(線性或邏輯,取決於您是否預測二元偏好或任一方向的偏好程度),其中權重基於子樣本的大小。您可以使用每位藝術家的音樂偏好作為預測指標。最後,您將使用用戶的偏好進行預測。這種方法更簡單,統計上更優雅。它也適用於相對對藝術家的權重,而平均相關性並不能糾正他們對最終得分的相對“影響”。此外,回歸考慮了基本利率(或默認政治方向),而平均相關性則沒有。想像一下,絕大多數人都喜歡聚會 $ A $ ,這應該讓你不那麼急於預測 $ B $ ‘s,回歸通過包含截距來解釋這一點。唯一的問題是多重共線性,但是在平均相關性時,您會忽略它而不是處理它。


Bushman, BJ, & Wang, MC (1995)。結合樣本相關係數和投票計數以獲得總體相關係數的估計值和置信區間的過程。心理公報,117(3),530。

Corey, DM, Dunlap, WP 和 Burke, MJ (1998)。平均相關性:聯合 Pearson rs 和 Fisher 的 z 變換中的預期值和偏差,普通心理學雜誌,125(3),245-261。

引用自:https://stats.stackexchange.com/questions/221246

comments powered by Disqus