什麼時候可以寫出經驗測量的“我們假設正態分佈”？

March 12, 2016

在醫學等應用學科的教學中根深蒂固，人口中生物醫學數量的測量遵循正常的“鐘形曲線”。對字符串*“我們假設一個正態分佈”*的 Google 搜索返回結果！在氣候變化研究中，它們聽起來像是“鑑於極少數數據點，我們假設溫度異常的正態分佈” ；或者“我們假設小雞孵化日期的正態分佈”在一份關於企鵝的爭議可能較小的文件中；或 “我們假設 GDP 增長衝擊的正態分佈”，指的是市場中的宏觀經濟變化（回憶這本書，……和其他事情）。

最近，我發現自己質疑將計數數據視為正態分佈的處理方式，因為它們具有嚴格的積極性質。當然，計數數據是離散的，這使得它們的正態性更加人為。但即使撇開後一點不談，為什麼連續的經驗測量，如體重、身高或葡萄糖濃度，被認為是典型的“連續”的，被認為是正常的？與計數一樣，他們不能有負面的已實現觀察！

我知道，當標準偏差大大低於平均值時，表明很少有負值（“95% 範圍檢查”），這可能是一個實際的假設，如果不是太偏斜，頻率直方圖可能會支持它。但這個問題似乎並不簡單，快速搜索產生了有趣的東西。

在*《自然》中，我們可以在*DF Heath的一封信中找到以下陳述：“我想指出，對於某些類型的數據的統計分析，數據來自正常人群的假設通常是錯誤的，而替代方案“對數正態分佈的假設更好。這種替代方法被統計學家、經濟學家和物理學家廣泛使用，但由於某種原因，經常被其他學科的科學家忽略。”

Limpert 指出“對數正態模型可以作為一種近似值，因為許多科學家現在認為正態是一個有效的近似值”，同時注意到正態性擬合優度檢驗的低功效，以及選擇的困難在處理小樣本時，憑經驗得出正確的分佈。

因此，問題是，“在沒有進一步支持證據的情況下，在應用科學中假設經驗測量的正態分佈何時可以接受？” 而且，為什麼其他替代方案，例如對數正態法，沒有，而且可能只是不會佔據上風？

我覺得你的問題很有趣。讓我們考慮一些事情：

說一個觀察到的變量在現實生活中是連續的總是有點錯誤的，因為很難真正連續地測量。

現在添加一個正常隨機變量的屬性：範圍，對稱分佈（均值=眾數=中值），概率密度函數有拐點在和.

說一個隨機變量遵循對數正態分佈意味著變量服從正態分佈。

話雖如此，說任何觀察到的變量都遵循正態或對數正態分佈聽起來有點瘋狂。在實踐中，所做的是測量觀察到的頻率與預期頻率的偏差，如果該變量來自正態（或任何其他分佈）總體。如果您可以說這些偏差只是隨機的，因為您正在抽樣，那麼您可以說沒有足夠的證據來拒絕該變量來自正常人群的零假設，這被翻譯成我們將像 (假設）變量服從正態分佈。

在回答你的第一個問題時，我認為沒有人敢說假設變量是正態分佈的*，沒有進一步的證據*。要說這樣的話，您至少需要一個 qq 圖、一個直方圖、一個擬合優度檢驗或這些的組合。

要回答第二個問題，對正態分佈特別感興趣的是，許多經典檢驗都基於變量正態性的假設，例如 t 檢驗或- 檢驗方差。所以，常態簡化了工作，僅此而已。

引用自：https://stats.stackexchange.com/questions/201350

comments powered by Disqus

什麼時候可以寫出經驗測量的“我們假設正態分佈”？

相關問答

實際上，獨立同分佈假設是否適用於絕大多數監督學習任務？

從 log y 預測 y 作為因變量

線性回歸的線性假設

有人可以向我解釋對數正態分佈的參數嗎？

什麼是夏皮羅-威爾克的 CDFWWW統計？

線性回歸中的假設需要什麼？