什麼時候可以寫出經驗測量的“我們假設正態分佈”?
在醫學等應用學科的教學中根深蒂固,人口中生物醫學數量的測量遵循正常的“鐘形曲線”。對字符串*“我們假設一個正態分佈”*的 Google 搜索返回結果!在氣候變化研究中,它們聽起來像是“鑑於極少數數據點,我們假設溫度異常的正態分佈” ;或者“我們假設小雞孵化日期的正態分佈”在一份關於企鵝的爭議可能較小的文件中;或 “我們假設 GDP 增長衝擊的正態分佈”,指的是市場中的宏觀經濟變化(回憶這本書,……和其他事情)。
最近,我發現自己質疑將計數數據視為正態分佈的處理方式,因為它們具有嚴格的積極性質。當然,計數數據是離散的,這使得它們的正態性更加人為。但即使撇開後一點不談,為什麼連續的經驗測量,如體重、身高或葡萄糖濃度,被認為是典型的“連續”的,被認為是正常的?與計數一樣,他們不能有負面的已實現觀察!
我知道,當標準偏差大大低於平均值時,表明很少有負值(“95% 範圍檢查”),這可能是一個實際的假設,如果不是太偏斜,頻率直方圖可能會支持它。但這個問題似乎並不簡單,快速搜索產生了有趣的東西。
在*《自然》中,我們可以在*DF Heath的一封信中找到以下陳述:“我想指出,對於某些類型的數據的統計分析,數據來自正常人群的假設通常是錯誤的,而替代方案“對數正態分佈的假設更好。這種替代方法被統計學家、經濟學家和物理學家廣泛使用,但由於某種原因,經常被其他學科的科學家忽略。”
Limpert 指出“對數正態模型可以作為一種近似值,因為許多科學家現在認為正態是一個有效的近似值”,同時注意到正態性擬合優度檢驗的低功效,以及選擇的困難在處理小樣本時,憑經驗得出正確的分佈。
因此,問題是,“在沒有進一步支持證據的情況下,在應用科學中假設經驗測量的正態分佈何時可以接受?” 而且,為什麼其他替代方案,例如對數正態法,沒有,而且可能只是不會佔據上風?
我覺得你的問題很有趣。讓我們考慮一些事情:
- 說一個觀察到的變量在現實生活中是連續的總是有點錯誤的,因為很難真正連續地測量。
- 現在添加一個正常隨機變量的屬性: 範圍,對稱分佈(均值=眾數=中值),概率密度函數有拐點在和.
- 說一個隨機變量遵循對數正態分佈意味著變量服從正態分佈。
話雖如此,說任何觀察到的變量都遵循正態或對數正態分佈聽起來有點瘋狂。在實踐中,所做的是測量觀察到的頻率與預期頻率的偏差,如果該變量來自正態(或任何其他分佈)總體。如果您可以說這些偏差只是隨機的,因為您正在抽樣,那麼您可以說沒有足夠的證據來拒絕該變量來自正常人群的零假設,這被翻譯成我們將像 (假設)變量服從正態分佈。
在回答你的第一個問題時,我認為沒有人敢說假設變量是正態分佈的*,沒有進一步的證據*。要說這樣的話,您至少需要一個 qq 圖、一個直方圖、一個擬合優度檢驗或這些的組合。
要回答第二個問題,對正態分佈特別感興趣的是,許多經典檢驗都基於變量正態性的假設,例如 t 檢驗或- 檢驗方差。所以,常態簡化了工作,僅此而已。