為什麼離散度的度量不如中心度那麼直觀?
在我們人類的理解中,似乎有些東西在直覺上難以理解方差的概念。在狹義上,答案是立竿見影的:平方使我們脫離了我們的反身理解。但是,只是差異帶來了問題,還是數據傳播的整個想法?我們在範圍內尋求庇護,或者只是說明最小值和最大值,但我們只是在避免真正的困難嗎?在平均值(眾數或中位數)中,我們找到了中心,總結……簡化;差異會傳播事物並使他們感到不舒服。原始人肯定會通過對祈禱進行三角測量來利用平均值來獵殺動物,但我想是很久以後我們才覺得有必要量化事物的傳播。事實上,方差一詞最早由 Ronald Fisher 於 1918 年在論文“孟德爾遺傳假設上的親屬之間的相關性”中首次引入。
大多數關注新聞的人都會聽說拉里薩默斯關於性別數學能力的不幸演講的故事,這可能與他離開哈佛有關。簡而言之,他建議男性與女性相比,數學能力的分佈存在更廣泛的差異,儘管兩性享有相同的平均值。無論適當性或政治含義如何,這似乎在科學文獻中得到證實。
更重要的是,也許普通民眾對氣候變化等問題的理解——請原諒我提出可能導致完全不值得討論的話題——可以通過提高對方差概念的熟悉程度來幫助。
當我們試圖掌握協方差時,問題變得更加複雜,如本文所示, @whuber在這裡提供了一個很棒的、豐富多彩的答案。
認為這個問題過於籠統可能很誘人,但很明顯,我們是在間接討論它,就像在這篇文章中一樣,數學是微不足道的,但這個概念仍然難以捉摸,掩蓋了對范圍作為更舒適的接受反對更細微的想法差異。
在費舍爾寫給 EBFord 的一封信中,提到了他對孟德爾實驗的懷疑引起的爭議,我們讀到:“現在,當數據被偽造時,我非常清楚人們普遍低估了大概率偏差的頻率,因此趨勢總是讓他們與預期非常吻合……[孟德爾數據中的]偏差非常小。” 偉大的 RA 費舍爾非常熱衷於懷疑小樣本中的微小差異,以至於他寫道:“孟德爾仍然有可能被某個非常了解預期結果的助手欺騙了。”
這種對低估或誤解傳播的偏見完全有可能在今天仍然存在。如果是這樣,有什麼解釋為什麼我們更喜歡中心性概念而不是分散性?我們能做些什麼來內化這個想法嗎?
一些概念我們在一瞬間“看到”,然後我們沒有,但我們接受它們並繼續前進。例如,或者,但我們甚至不需要知道這些身份就可以在日常生活中做出決定。方差也不一樣。那麼,不應該更直觀嗎?
納西姆·塔勒布 (Nassim Taleb) 將他(嗯,真的是Benoit Mandelbrot 的)對方差的錯誤理解的理解應用於利用危機時期,並試圖通過諸如“方差的方差在認識論上是, 衡量缺乏平均知識的知識” - 是的,這個滿嘴的內容有更多的背景……而且值得稱讚的是,他還通過感恩節火雞的想法讓它變得更簡單。有人可能會爭辯說,投資的關鍵是理解方差(和協方差)。
那麼為什麼會這麼滑,如何補救呢?沒有公式……只是多年處理不確定性的直覺……我不知道答案,但它不是數學的(必然是):例如,我想知道峰度的想法是否會干擾方差。在下圖中,我們有兩個重疊的直方圖,方差幾乎相同;然而,我的下意識反應是尾巴最長的那個,最高的峰(更高的峰度)更“分散”:
我同意你的感覺,即方差稍微不那麼直觀。更重要的是,作為度量的方差針對某些分佈進行了優化,並且對於非對稱分佈的價值較小。在我看來,平均值與平均值的絕對差並不直觀,因為它需要選擇平均值作為集中趨勢的度量。我更喜歡 Gini 的平均差——所有觀察值對的平均絕對差。它直觀、強大且高效。在效率方面,如果數據來自高斯分佈,則應用適當的重新縮放因子的 Gini 平均差是樣本標準差的 0.98。對數據進行排序後,有一個有效的 Gini 均值差計算公式。R代碼如下。
w <- 4 * ((1:n) - (n - 1)/2)/n/(n - 1) sum(w * sort(x - mean(x)))