Normal-Distribution

數據呈正態分佈的原因

  • December 2, 2014

有哪些定理可以解釋(即生成地)為什麼現實世界的數據可能是正態分佈的?

我知道的有兩個:

  1. 中心極限定理(當然),它告訴我們幾個具有均值和方差的獨立隨機變量的總和(即使它們不是同分佈的)趨向於正態分佈
  2. 讓 X 和 Y 是具有可微分密度的獨立連續 RV,使得它們的聯合密度僅取決於+. 那麼 X 和 Y 是正常的。

(來自mathexchange的交叉帖子)

編輯: 澄清一下,我並沒有聲稱有多少真實世界的數據是正常分佈的。我只是在詢問可以深入了解哪種過程可能導致正態分佈數據的定理。

離散 RV 的許多限制分佈(泊松、二項式等)近似正態。想想普林科。在幾乎所有近似正態性成立的情況下,正態性僅適用於大樣本。

大多數現實世界的數據不是正態分佈的。Micceri (1989) 的一篇名為“獨角獸、正態曲線和其他不可能的生物”的論文研究了 440 種大規模的成就和心理測量指標。他發現分佈在它們的時刻存在很多可變性,並且沒有太多證據證明(甚至是近似的)正態性。

在 1977 年 Steven Stigler 的一篇名為“ Do Robust Estimators Work with Real Data ”的論文中,他使用了從 18 世紀著名的測量地球到太陽距離的嘗試和 19 世紀測量光速的嘗試中收集的 24 個數據集。他在表 3 中報告了樣本偏度和峰度。數據是重尾的。

在統計學中,我們經常假設正態性,因為它使最大似然(或其他方法)很方便。然而,上面引用的兩篇論文表明,這個假設往往是脆弱的。這就是穩健性研究有用的原因。

引用自:https://stats.stackexchange.com/questions/126351

comments powered by Disqus