根據理論、擬合或其他選擇分佈是否更好？

March 28, 2014

這接近於一個哲學問題，但我對其他有更多經驗的人如何看待分佈選擇很感興趣。在某些情況下，很明顯理論可能最有效（老鼠尾巴的長度可能是正態分佈的）。在很多情況下，可能沒有理論來描述一組數據，所以您只需使用與您所擁有的相當吻合的東西，而不管它最初是為了描述什麼而開發的？我可以想像與其中一個或另一個一起使用的一些陷阱，然後當然似乎存在一個問題，如果你真的不知道，也許你應該只使用經驗分佈。

所以我想我真正要問的是：有人有一種連貫的方式來處理/思考這個問題嗎？您是否可以建議任何資源來對此進行良好的處理？

絕對取決於所討論的數據是什麼，以及人們對它們了解或希望假設的程度。正如@whuber 最近在聊天中所說，“在涉及物理定律的地方，您幾乎總是可以對數據建模的適當方式做出合理的猜測。” （我懷疑這對他來說比對我更真實！另外，我希望這不會被誤用在其原始背景之外……）在更像是社會科學中的潛在構造建模的情況下，關注經驗分佈作為理解鮮為人知現象的細微差別的一種方式。假設一個正態分佈並將整體形狀中的不匹配視為可以忽略不計，這有點太容易了，而且在沒有更多理由的情況下將異常值視為錯誤是非常似是而非的。

當然，這種行為的大部分是由人們想要應用的分析假設所推動的。最有趣的問題通常遠遠超出對變量分佈的描述或分類。這也會影響給定場景的正確答案；可能有原因（例如，力量需要）假設一個正態分佈，當它不是特別好（也不是太差）時，因為非參數否則強大的方法也不完美。儘管如此，習慣性地這樣做的風險是忘記提出關於單個變量分佈的有趣問題。

例如，考慮財富與幸福之間的關係：人們普遍想問的一個熱門問題。假設財富服從伽馬(Salem & Mount, 1974)或廣義貝塔(Parker, 1999)分佈可能是安全的，但假設幸福是正態分佈真的安全嗎？真的，完全沒有必要為了回答最初的問題而假設這一點，但人們有時會這樣做，然後忽略潛在的重要問題，如反應偏見和文化差異。例如，一些文化傾向於給出或多或少的極端反應（參見@chl 對由李克特項目組成的問卷的因子分析的回答），並且關於積極和消極情緒的公開表達規範有所不同（Tucker、Ozer、Lyubomirsky 和 Boehm，2006 年）。這可能會增加經驗分佈特徵（如偏度和峰度）差異的重要性。如果我將俄羅斯、中國和美國的財富與主觀幸福感評級的關係進行比較，我可能想要評估幸福感評級中心趨勢的差異。這樣做時，為了單向方差分析，我會毫不猶豫地假設每個人的正態分佈（即使它可能對違規行為相當穩健) 當有理由預期中國的“肥尾”分佈、俄羅斯的正偏態分佈和美國的負偏態分佈時，由於各種依賴於文化的規範和反應偏差。為了進行顯著性檢驗（老實說，即使我可能更願意只報告效果大小），我寧願使用非參數方法，並且為了實際了解每個人群的主觀幸福感，我會而是從經驗上描述分佈，而不是試圖將其歸類為一些簡單的理論分佈並忽略或掩蓋任何不合適的情況。這是對IMO信息的浪費。

參考資料

Parker, SC (1999)。作為收益分配模型的廣義貝塔。經濟學快報，62 (2)，197–200。

-塞勒姆，ABZ 和芒特，TD（1974 年）。一個方便的收入分配描述模型：伽馬密度。計量經濟學，42 (6), 1115–1127。

Tucker, KL, Ozer, DJ, Lyubomirsky, S., & Boehm, JK (2006)。對生活滿意度量表測量不變性的測試：俄羅斯人和北美人的比較。社會指標研究，78 (2), 341–360。取自http://drsonja.net/wp-content/themes/drsonja/papers/TOLB2006.pdf。

引用自：https://stats.stackexchange.com/questions/91715

comments powered by Disqus

根據理論、擬合或其他選擇分佈是否更好？

相關問答

對訓練集進行插值實際上意味著什麼？

過擬合比欠擬合“更好”嗎？

為什麼邏輯回歸在高維度上特別容易過擬合？

當報告的相關性不接近 +1/-1 時如何簡化奇異隨機結構

為什麼即使“所有模型都錯了”，我們還要擔心過擬合？

K-fold 交叉驗證會導致過擬合嗎？