Mathematical-Statistics

用於教學目的的著名統計勝利和恐怖故事

  • November 1, 2019

我正在與當地社區大學一起設計一個為期一年的數據分析課程。該計劃旨在讓學生準備好處理數據分析、可視化和總結、高級 Excel 技能和 R 編程方面的基本任務。

我想準備一組簡短的、真實的例子來說明普通直覺在哪裡失敗並且統計分析是必要的。我也對“著名的統計失敗”感興趣,但對勝利更感興趣。所涉及的數據應該是免費的。

我正在尋找的一個完美例子是伯克利歧視案,它說明了辛普森的悖論。相關數據記錄在 R 的數據集中。

歷史案例也很有趣。John Snow 對 Broad Street 泵數據的分析是可視化力量的一個很好的例子。

在數據收集(選擇偏差)等方面有很多失敗,醫學統計學的文獻中充滿了。

在變量選擇和抽樣設計領域出現了很多“統計上的勝利”。我對發生在其他領域的悖論感興趣——比如分析本身。

本福德定律:

描述在這裡。數字出現在數字前面的頻率並不統一,而是遵循特定的模式:數字 1 最有可能成為第一位數字,有 30% 的機會,其次是 2(17.6% 的機會),依此類推。下圖(來自維基百科)顯示了在一些自然出現的數據集中每個數字開頭的每個數字的頻率:

在一些自然出現的數據集中,每個數字開頭的每個數字的頻率

法律在某些條件下成立(例如,數據應該跨越多個尺度,所以像人的身高這樣的東西不符合條件),但它是相當通用的。

也許最令人驚訝的應用是欺詐檢測。這是基於這樣的假設,即試圖捏造數字的人傾向於均勻地分佈數字,從而違反了本福德定律。

我記得有一次我在課堂上解釋這一點,在課間休息時,一個學生從他的公司拿出了一份會計電子表格,他試圖在其中驗證我的說法。有效 :)

齊夫定律

此處描述:語料庫中單詞的頻率與其排名成反比。令人驚訝的是,這種關係適用於任何語料庫,甚至適用於尚未翻譯的古代語言。一個有趣的視頻解釋了為什麼這種模式可能存在在這裡。下圖顯示了 30 個 Wikipedia 中前 1000 萬個單詞的排名(水平)與頻率(垂直)的對數比例(來源)。請注意,該定律將預測一條直線: 排名與頻率

這兩條定律是強大而反直覺的,在它們通過統計增強人們對世界的理解的意義上,它們可以稱為“統計勝利”。

引用自:https://stats.stackexchange.com/questions/434128

comments powered by Disqus