Mathematical-Statistics

在一個經常由外行進行分析的時代,我們是否誇大了模型假設和評估的重要性

  • May 7, 2015

歸根結底,我對統計學的了解越多,我就越不信任在我的領域發表的論文;我只是認為研究人員的統計數據做得不夠好。


我是外行,可以這麼說。我受過生物學培訓,但沒有受過正規的統計學或數學教育。我喜歡 R,並且經常努力閱讀(並理解……)我在研究時應用的方法的一些理論基礎。如果今天進行分析的大多數人實際上都沒有經過正式培訓,我不會感到驚訝。我發表了大約 20 篇原創論文,其中一些已被知名期刊接受,統計學家經常參與評審過程。我的分析通常包括生存分析、線性回歸、邏輯回歸、混合模型。從來沒有審閱者詢問過模型假設、擬合或評估。

因此,我從來沒有真正過多地關心模型假設、擬合和評估。我從一個假設開始,執行回歸,然後呈現結果。在某些情況下,我努力評估這些事情,但我總是以“好吧,它並沒有滿足所有假設,但我相信結果(“主題知識”)並且它們是合理的,所以這很好”和在諮詢統計學家時,他們似乎總是同意。

現在,我與其他自己進行分析的統計學家和非統計學家(化學家、醫生和生物學家)交談過;似乎人們並不太關心所有這些假設和正式評估。但是在 CV 上,有很多人詢問殘差、模型擬合、評估方法、特徵值、向量等等。讓我這樣說吧,當 lme4 警告大特徵值時,我真的懷疑它的許多用戶是否願意解決這個問題……

值得付出額外的努力嗎?是不是所有公佈的結果中的大多數都不尊重這些假設,甚至可能沒有評估它們?這可能是一個日益嚴重的問題,因為數據庫每天都在變大,並且有一種觀念認為數據越大,假設和評估就越不重要。

我可能完全錯了,但這就是我的看法。

更新: 從 StasK 借來的引文(下): http: //www.nature.com/news/science-joins-push-to-screen-statistics-in-papers-1.15509

我接受過統計學家的培訓,而不是生物學家或醫生。但是我做了很多醫學研究(與生物學家和醫生一起工作),作為我研究的一部分,我學到了很多關於治療幾種不同疾病的知識。這是否意味著如果一個朋友問我關於我研究過的一種疾病,我可以給他們開一個我知道通常用於該特定疾病的藥物的處方?如果我這樣做(我不這樣做),那麼在許多情況下它可能會成功(因為醫生只會開相同的藥物),但他們總是有可能過敏/藥物醫生會知道的互動/其他問題,我不知道,最終造成的弊大於利。

如果您在不了解您的假設和可能出錯的情況下進行統計(或在尋找這些事情的過程中諮詢統計學家),那麼您就是在練習統計舞弊行為。大多數情況下它可能沒問題,但是在一個重要假設不成立但你忽略它的情況下呢?

我與一些具有相當統計能力並且可以自己進行大部分分析的醫生一起工作,但他們仍然會從我身邊跑過去。我經常確認他們做了正確的事情並且他們可以自己進行分析(他們通常會感謝確認)但有時他們會做一些更複雜的事情,當我提到更好的方法時,他們通常會放棄分析對我或我的團隊來說,或者至少讓我擔任更積極的角色。

所以我對你的標題問題的回答是“不”,我們並沒有誇大其詞,而是我們應該更多地強調一些事情,以便外行更有可能至少與統計學家仔細檢查他們的程序/結果。

編輯

這是基於亞當下面的評論的補充(另一條評論會有點長)。

亞當,謝謝你的評論。簡短的回答是“我不知道”。我認為在提高文章的統計質量方面正在取得進展,但是事情在許多不同的方面發展得如此之快,以至於需要一段時間才能趕上並保證質量。部分解決方案側重於介紹統計課程中違規的假設和後果。當課程由統計學家教授時,這更有可能發生,但需要在所有課程中發生。

有些期刊做得更好,但我希望看到特定的統計學家審稿人成為標準。幾年前有一篇文章(對不起,手邊沒有參考文獻,但它在 JAMA 或新英格蘭醫學雜誌上)顯示被發表的可能性更高(雖然沒有應該的那麼大的差異be) 在 JAMA 或 NEJM 中,如果生物統計學家或流行病學家是合著者之一。

最近發表的一篇有趣的文章是:http ://www.nature.com/news/statistics-p-values-are-just-the-tip-of-the-iceberg-1.17412 ,其中討論了一些相同的問題。

引用自:https://stats.stackexchange.com/questions/151216

comments powered by Disqus