Variance

你將如何向只了解均值的人解釋協方差?

  • November 7, 2011

…假設我能夠以直觀的方式增加他們關於方差的知識(直觀地理解“方差”)或者說:這是數據值與“平均值”的平均距離 - 因為方差是平方的單位,我們取平方根以保持單位相同,這稱為標準偏差。

讓我們假設“接收者”清楚地表達並(希望)理解了這一點。現在什麼是協方差,如何在不使用任何數學術語/公式的情況下用簡單的英語解釋它?(即,直觀的解釋。;)

請注意:我確實知道這個概念背後的公式和數學。我希望能夠以一種易於理解的方式“解釋”相同的內容,而不包括數學;即,“協方差”是什麼意思?

有時我們可以用一種不尋常或不同的方法來“增加知識”。我希望這個回復能被幼兒園的孩子們看到,並且也能獲得一些樂趣,所以每個人都拿出你的蠟筆!

給定配對 $ (x,y) $ 數據,繪製它們的散點圖。(年幼的學生可能需要老師為他們製作這個。:-) 每對點 $ (x_i,y_i) $ , $ (x_j,y_j) $ 在該圖中確定一個矩形:它是最小的矩形,其邊平行於軸,包含這些點。因此,這些點要么位於右上角和左下角(“正”關係),要么位於左上角和右下角(“負”關係)。

**繪製所有可能的此類矩形。**將它們透明地著色,使正矩形變為紅色(例如),將負矩形變為“反紅色”(藍色)。以這種方式,在矩形重疊的地方,它們的顏色要么在它們相同時增強(藍色和藍色或紅色和紅色),要么在它們不同時抵消。

正矩形和負矩形

在這個正(紅色)和負(藍色)矩形的插圖中,重疊應該是白色的;不幸的是,這個軟件沒有真正的“反紅”顏色。重疊是灰色的,所以它會使情節,但總體上紅色的量是正確的。

現在我們準備好解釋協方差了。

協方差是圖中紅色的淨數量(將藍色視為負值)。

以下是一些示例,其中 32 個副正態點從具有給定協方差的分佈中提取,從最負(最藍)到最正(最紅)排序。

協方差圖,2019 年更新

它們被繪製在公共軸上以使它們具有可比性。矩形被輕輕勾勒,以幫助您查看它們。這是原始版本的更新(2019 年)版本:它使用的軟件可以正確取消重疊矩形中的紅色和青色。

讓我們推導出協方差的一些性質。 任何實際繪製了一些矩形的人都可以理解這些屬性。:-)

  • **雙線性。**因為紅色的數量取決於繪圖的大小,所以協方差與 x 軸上的比例和 y 軸上的比例成正比。
  • **相關性。**協方差隨著點接近向上傾斜的線而增加,並且隨著點接近向下傾斜的線而減小。這是因為在前一種情況下,大多數矩形是正的,而在後一種情況下,大多數是負的。
  • **與線性關聯的關係。**因為非線性關聯可以創建正負矩形的混合,它們會導致不可預測的(並且不是非常有用的)協方差。線性關聯可以通過前兩個表徵來完全解釋。
  • **對異常值的敏感性。**幾何異常值(遠離質量的一個點)將創建許多與所有其他點相關的大矩形。它本身就可以在整體畫面中產生淨正或負的紅色量。

順便說一下,這個協方差的定義與通常的定義不同,只是有一個通用的比例常數(與數據集大小無關)。有數學傾向的人可以毫不費力地進行代數證明,即這裡給出的公式總是兩倍於通常的協方差。

引用自:https://stats.stackexchange.com/questions/18058

comments powered by Disqus