Distributions

在 Casella & Berger 之後要學習什麼?

  • March 30, 2014

我是一名純數學研究生,幾乎沒有應用數學背景。自去年秋天以來,我一直在學習 Casella & Berger 的書,我已經完成了書中數百(230+)頁的練習題。現在我在第10章。

但是,由於我沒有主修統計學,也沒有計劃成為統計學家,我認為我無法定期投入時間繼續學習數據分析。到目前為止,我的經驗告訴我,要成為一名統計學家,需要承受大量涉及各種分佈的繁瑣計算(Weibull、Cauchy、,…)。我發現雖然基本思想很簡單,但由於技術問題,實現(例如假設檢驗中的 LRT)仍然很困難。

我的理解正確嗎?有沒有一種方法可以讓我學習概率和統計,不僅涵蓋更高級的材料,而且還可以幫助我在現實生活中需要數據分析?我需要花費嗎像以前一樣每週20小時?

雖然我相信學習數學沒有王道,但我常常不禁想知道——大多數時候我們不知道現實生活數據的分佈是什麼,那麼我們專注於各種分佈家族的目的是什麼? 如果樣本量較小且中心極限定理不適用,那麼在分佈未知的情況下,除了樣本均值和方差外,我們如何正確分析數據?

我的學期將在一個月後結束,我不希望我的知識在我開始專注於我的博士研究後蒸發。所以我決定問問。我正在學習R,我有一些編程背景,但我的水平和碼猴差不多。

我認為我無法定期投入時間繼續學習數據分析

我不認為 Casella & Berger 是一個以數據分析的方式學習數據的地方。這是一個學習一些統計理論工具的地方。

到目前為止,我的經驗告訴我要成為一名統計學家,需要承受大量繁瑣的計算,涉及各種分佈(Weibull、Cauchy、t、F…)。

作為一名統計學家,我花了很多時間進行數據分析。它很少(幾乎從不)涉及我進行繁瑣的計算。它有時涉及一些簡單的代數,但通常會解決常見問題,我不需要每次都花費任何精力來複製它。

計算機完成所有繁瑣的計算。

如果我不准備假設一個合理的標準情況(例如不准備使用 GLM),我通常也沒有足夠的信息來假設任何其他分佈,所以計算的問題LRT 通常是沒有實際意義的(我可以在需要時執行它們,它們要么往往已經解決,要么很少出現,以至於這是一個有趣的轉移)。

我傾向於做很多模擬;我也經常嘗試在參數假設旁邊或代替參數假設使用某種形式的重採樣。

我需要像以前一樣每週花 20 小時以上的時間在上面嗎?

這取決於您希望能夠做什麼,以及您想在多長時間內擅長它。

數據分析是一種技能,它需要實踐和大量的知識基礎。你已經掌握了一些你需要的知識。

如果你想在各種各樣的事情上成為一名優秀的練習者,這將需要很多時間——但在我看來,這比代數和卡塞拉和伯傑練習更有趣。

我建立的一些技能說回歸問題對時間序列很有幫助,比如說——但需要很多新技能。因此,學習解釋殘差圖和 QQ 圖很方便,但它們並沒有告訴我我有多少需要擔心 PACF 圖中的小顛簸,也沒有給我使用一步超前預測之類的工具錯誤。

因此,例如,我不需要花費精力來弄清楚如何為典型的gamma 或 weibull 模型進行合理的 ML ,因為它們的標準足以解決已經在很大程度上以方便形式出現的問題。

如果你來做研究,你將需要更多在 Casella & Berger 這樣的地方學到的技能(但即使有這些技能,你也應該閱讀不止一本書)。


一些建議的事情:

你絕對應該建立一些回歸技能,即使你什麼都不做。

有很多很好的書,但也許是 Draper & Smith Applied Regression Analysis加上 Fox 和 Weisberg An R Companion to Applied Regression;我還建議您考慮遵循 Harrell 的回歸建模策略

(你可以用任意數量的好書代替德雷珀和史密斯——找到一兩本適合你的書。)

第二本書有許多非常值得閱讀的在線附加章節(以及它自己的R-package)

一個很好的第二個服務將是 Venables & Ripley 的現代應用統計與 S

這是相當廣泛的想法的一些基礎。

在某些主題中,您可能需要一些更基本的材料(我不知道您的背景)。

然後你需要開始考慮你想要/需要哪些統計領域——貝葉斯統計、時間序列、多變量分析等

引用自:https://stats.stackexchange.com/questions/91863

comments powered by Disqus