Hypothesis-Testing

40,000 篇神經科學論文可能是錯誤的

  • July 25, 2016

我在《經濟學人》上看到了一篇關於一篇看似毀滅性的論文[1] 對“大約 40,000 項已發表的 [fMRI] 研究”提出質疑的文章。他們說,這個錯誤是因為“錯誤的統計假設”。我閱讀了這篇論文,發現它在一定程度上是多重比較校正的問題,但我不是 fMRI 專家,我發現很難理解。

作者所說的錯誤假設是什麼?為什麼做出這些假設?有什麼方法可以繞過這些假設?

信封背面的計算表明,40,000 篇 fMRI 論文的資金(研究生工資、運營成本等)超過了 10 億美元。


[1] Eklund 等人,集群故障:為什麼空間範圍的 fMRI 推斷會誇大假陽性率,PNAS 2016

在40000這個數字上

新聞確實是聳人聽聞的,但這篇論文確實很有根據。在我的實驗室裡討論了好幾天,總而言之,這是一個真正必要的批評,讓研究人員反思他們的工作。我建議閱讀Thomas Nichols 的以下評論,他是*“集群故障:為什麼 fMRI 對空間範圍的推斷導致誤報率高”*論文的作者之一(對不起,引述過長)。

**然而,有一個數字讓我感到遺憾:40,000。**在試圖提及 fMRI 學科的重要性時,我們使用了對整個 fMRI 文獻的估計,作為我們的研究結果影響的研究數量。在我們的辯護中,我們發現總體上集群大小推斷存在問題(P=0.01 CDT 嚴重,P=0.001 有偏差),這是主要的推斷方法,表明大多數文獻受到了影響。然而,影響聲明中的數字已被大眾媒體報導並引發了一場小型推特風暴。因此,我覺得至少粗略估計一下“我們的工作影響了多少篇文章?”是我的責任。我不是文獻計量學家,這確實是一個粗略的練習,但它希望能夠讓人們了解問題的數量級。

分析代碼(在 Matlab 中)如下所示,但這裡是精簡的: 基於一些合理的概率計算,但可能是文獻的脆弱樣本,我估計大約 15,000 篇論文使用集群大小推斷和校正進行多次測試;其中,大約 3,500 人使用 P=0.01 的 CDT。3,500 篇論文約佔全部文獻的 9%,或者更有用的是,佔包含原始數據的論文的 11%。(當然,這 15,000 或 3,500 個中的一些可能使用非參數推理,但不幸的是,fMRI 很少見——相比之下,它是 FSL 中結構 VBM/DTI 分析的默認推理工具)。

坦率地說,我認為這個數字會更高,但沒有意識到大部分研究從未使用任何類型的多重測試校正。(如果你不正確,就不能誇大正確的意義!)。這些計算表明 13,000 篇論文沒有使用多重測試校正。當然,其中一些可能使用感興趣區域或子體積分析,但很少有(即臨床試驗類型的結果)完全沒有多重性。我們的論文不是直接關於這個群體的,但是對於使用民間多重測試校正的出版物,P<0.001 & k>10,我們的論文表明這種方法的家庭錯誤率遠遠超過 50%。

那麼,我們是說 3,500 篇論文是“錯誤的”嗎?這取決於。我們的結果表明 CDT P=0.01 結果誇大了 P 值,但必須檢查每項研究……如果效果真的很強,那麼 P 值是否有偏差可能並不重要,科學推斷將保持不變。但如果效果真的很弱,那麼結果可能確實與噪聲一致。而且,那些沒有更正的 13,000 篇論文呢,尤其是在早期文獻中很常見?不,它們也不應該被丟掉,但是這些作品需要特別厭倦的眼睛,尤其是在將它們與具有改進的方法標準的新參考文獻進行比較時。

他還在最後包括了這張表:

       AFNI     BV    FSL    SPM   OTHERS
       ____     __    ___    ___   ______

>.01      9       5     9       8    4     
.01       9       4    44      20    3     
.005     24       6     1      48    3     
.001     13      20    11     206    5     
<.001     2       5     3      16    2    

基本上,SPM(Statistical Parametric Mapping,Matlab 的工具箱)是 fMRI 神經科學研究中使用最廣泛的工具。如果您查看論文,您會發現使用 SPM 中的集群的 CDT 為 P = 0.001(標準)幾乎可以提供預期的家庭錯誤率。

由於論文的措辭,作者甚至填寫了勘誤表:

鑑於對我們論文的廣泛誤解,Eklund 等人,集群故障:為什麼 fMRI 推斷空間範圍會誇大假陽性率,我們向 PNAS 編輯辦公室提交了勘誤表:

Eklund 等人的勘誤表,集群故障:為什麼 fMRI 對空間範圍的推斷誇大了假陽性率。埃克倫德,安德斯;尼科爾斯,托馬斯 E;克努特森,漢斯

有兩句話措辭不當,很容易被誤解為誇大了我們的結果。

意義聲明的最後一句應為:“這些結果質疑許多功能磁共振成像研究的有效性,並可能對弱顯著神經影像結果的解釋產生重大影響。”

標題“fMRI 的未來”之後的第一句話應該是:“由於可悲的存檔和數據共享實踐,有問題的分析不太可能重做。”

這些替換了錯誤地暗示我們的工作影響了所有 40,000 份出版物的兩個句子(請參閱集群推理的文獻計量學,以猜測有多少文獻可能受到影響)。

在最初拒絕勘誤表後,PNAS 同意按照我們在上面提交的內容髮布它,理由是它是在糾正解釋而不是事實。


關於所謂的 Bug

一些新聞還提到了一個錯誤作為研究無效的原因。事實上,AFNI 工具之一是對推理的校正不足,在預印本發佈在arXiv後,這個問題得到了解決。


用於功能性神經成像的統計推斷

功能性神經成像包括許多旨在測量大腦中神經元活動的技術(例如 fMRI、EEG、MEG、NIRS、PET 和 SPECT)。這些基於不同的對比機制。fMRI 基於血氧水平依賴 (BOLD) 對比。在基於任務的 fMRI 中,給定一個刺激,大腦中負責接收該刺激的神經元開始消耗能量,這會觸發改變磁共振信號的血流動力學反應。) 在招募的微血管附近。

使用廣義線性模型(GLM),您可以確定哪些體素信號時間序列與實驗範式的設計相關(通常是與規範血流動力學響應函數卷積的布爾時間序列,但存在變化)。

因此,此 GLM 為您提供了每個體素時間序列與任務的相似程度。現在,假設您有兩組人:通常是患者和對照組。比較各組之間的 GLM 分數可用於顯示各組的狀況如何調節他們的大腦“激活”模式。

組之間的體素比較是可行的,但由於設備固有的點擴散功能加上平滑預處理步驟,期望體素單獨攜帶所有信息是不合理的。實際上,組間體素的差異應該分佈在相鄰的體素上。

因此,進行了聚類比較,即只考慮形成聚類的組之間的差異。這種聚類範圍閾值是 fMRI 研究中最流行的多重比較校正技術。問題就在這裡。

SPM 和 FSL 依賴於高斯隨機場理論 (RFT) 進行 FWE 校正的體素和集群推理。然而,RFT 集群推理依賴於兩個額外的假設。第一個假設是 fMRI 信號的空間平滑度在大腦中是恆定的,第二個假設是空間自相關函數具有特定的形狀(平方指數)(30)

在 SPM 中,至少您必須設置標稱 FWE 速率以及集群定義閾值 (CDT)。基本上,SPM 發現體素與任務高度相關,並且在使用 CDT 進行閾值處理後,將相鄰的體素聚合成簇。[在給定 FWER 集 1 ]的情況下,將這些集群大小與隨機場理論 (RFT) 中的預期集群範圍進行比較。

隨機場理論要求活動圖是平滑的,是隨機場的良好晶格近似。這與應用於卷的平滑量有關。平滑還會影響殘差是正態分佈的假設,因為通過中心極限定理進行平滑會使數據更加高斯。

作者在 [ 1 ] 中表明,與從隨機排列測試 (RPT) 獲得的集群範圍閾值相比,RFT 的預期集群大小非常小。

在他們最近的論文中,使用靜息狀態(fMRI 的另一種模式,參與者被指示不要特別思考任何事情)數據,就像人們在圖像採集期間執行任務一樣,並且進行了組比較,體素和集群-明智的。觀察到的誤報率(即當您觀察到組之間對虛擬任務的信號響應存在差異時)率應該合理地低於設定的預期 FWE 率. 對具有不同範式的隨機抽樣組重做數百萬次分析表明,大多數觀察到的 FWE 率高於可接受的水平。


@amoeba 在評論中提出了這兩個高度相關的問題:

(1) Eklund 等人。PNAS 論文談到了所有測試的“標稱 5% 水平”(參見例如圖 1 上的水平黑線)。但是,同一圖中的 CDT 是變化的,例如可以是 0.01 和 0.001。CDT 閾值與標稱的 I 類錯誤率有何關係?我對此感到困惑。(2) 你看過 Karl Friston 的回复 http://arxiv.org/abs/1606.08199嗎?我讀了它,但我不太確定他們在說什麼:我是否正確地看到他們同意 Eklund 等人的觀點。但是說這是一個“眾所周知”的問題?

(1) 好問題。我實際上審查了我的參考資料,讓我們看看我現在是否可以更清楚。集群推理基於在應用主閾值CDT,它是任意的)之後形成的集群範圍。在二次分析中,應用**了每個集群的體素數量的閾值。該閾值基於空簇範圍的預期分佈,可以從理論(例如RFT)估計,並設置標稱FWER。一個很好的參考是[ 2 ]。

(2)感謝這個參考,以前沒見過。Flandin & Friston 認為 Eklund 等人。證實了 RFT 推斷,因為它們基本上表明,尊重其假設(關於 CDT 和平滑),結果是無偏的。在這種情況下,新結果表明,文獻中的不同實踐傾向於使推理產生偏差,因為它打破了 RFT 的假設。


關於多重比較

眾所周知,神經科學領域的許多研究並不能糾正多重比較,估計在文獻的 10% 到 40% 之間。但這些並沒有被該聲明所解釋,每個人都知道這些論文的有效性很脆弱,並且可能存在巨大的誤報率。


FWER 超過 70%

作者還報告了一種產生超過 70% 的 FWER 的程序。這個“民間”程序包括應用 CDT 以僅保留高度重要的集群,然後應用另一個任意選擇的集群範圍閾值(以體素數量計)。這有時稱為“集合推斷”,統計基礎薄弱,可能會產生最不可信的結果。


以前的報告

同一作者已經報告了 SPM [ 1 ] 在個別分析中的有效性問題。該領域還有其他被引用的著作。

奇怪的是,基於模擬數據的幾份關於群體和個人層面分析的報告得出結論,RFT 閾值實際上是保守的。隨著最近處理能力的進步,儘管 RPT 可以更容易地在真實數據上執行,但與 RFT 存在很大差異。


更新:2017 年 10 月 18 日

去年 6 月出現了關於*“集群故障”的評論[ 3 ]。有穆勒等人。認為 Eklund 等人提出的結果可能*是由於他們的研究中使用了特定的成像預處理技術。基本上,他們在平滑之前將功能圖像重新採樣到更高的分辨率(雖然可能不是每個研究人員都這樣做,但這是大多數 fMRI 分析軟件中的常規程序)。他們還注意到 Flandin & Friston 沒有。實際上,我在同一個月在溫哥華舉行的人腦圖譜組織 (OHBM) 年會上看到了 Eklund 的演講,但我不記得對這個問題有任何評論,但這似乎對這個問題至關重要。


[1] Eklund, A.、Andersson, M.、Josephson, C.、Johannesson, M. 和 Knutsson, H. (2012)。使用 SPM 進行參數 fMRI 分析是否產生有效結果?——對 1484 個剩餘數據集的實證研究。神經影像學,61(3),565-578。

[2] Woo, CW, Krishnan, A., & Wager, TD (2014)。fMRI 分析中基於集群範圍的閾值:陷阱和建議。神經影像學,91, 412-419。

[3] Mueller, K.、Lepsien, J.、Möller, HE 和 Lohmann, G. (2017)。評論:集群失敗:為什麼 fMRI 對空間範圍的推斷會誇大假陽性率。人類神經科學前沿,11。

引用自:https://stats.stackexchange.com/questions/225557

comments powered by Disqus