Normal-Distribution
數據呈正態分佈的原因
有哪些定理可以解釋(即生成地)為什麼現實世界的數據可能是正態分佈的?
我知道的有兩個:
- 中心極限定理(當然),它告訴我們幾個具有均值和方差的獨立隨機變量的總和(即使它們不是同分佈的)趨向於正態分佈
- 讓 X 和 Y 是具有可微分密度的獨立連續 RV,使得它們的聯合密度僅取決於+. 那麼 X 和 Y 是正常的。
(來自mathexchange的交叉帖子)
編輯: 澄清一下,我並沒有聲稱有多少真實世界的數據是正常分佈的。我只是在詢問可以深入了解哪種過程可能導致正態分佈數據的定理。
離散 RV 的許多限制分佈(泊松、二項式等)近似正態。想想普林科。在幾乎所有近似正態性成立的情況下,正態性僅適用於大樣本。
大多數現實世界的數據不是正態分佈的。Micceri (1989) 的一篇名為“獨角獸、正態曲線和其他不可能的生物”的論文研究了 440 種大規模的成就和心理測量指標。他發現分佈在它們的時刻存在很多可變性,並且沒有太多證據證明(甚至是近似的)正態性。
在 1977 年 Steven Stigler 的一篇名為“ Do Robust Estimators Work with Real Data ”的論文中,他使用了從 18 世紀著名的測量地球到太陽距離的嘗試和 19 世紀測量光速的嘗試中收集的 24 個數據集。他在表 3 中報告了樣本偏度和峰度。數據是重尾的。
在統計學中,我們經常假設正態性,因為它使最大似然(或其他方法)很方便。然而,上面引用的兩篇論文表明,這個假設往往是脆弱的。這就是穩健性研究有用的原因。