40,000 篇神經科學論文可能是錯誤的

July 25, 2016

我在《經濟學人》上看到了一篇關於一篇看似毀滅性的論文[1] 對“大約 40,000 項已發表的 [fMRI] 研究”提出質疑的文章。他們說，這個錯誤是因為“錯誤的統計假設”。我閱讀了這篇論文，發現它在一定程度上是多重比較校正的問題，但我不是 fMRI 專家，我發現很難理解。

作者所說的錯誤假設是什麼？為什麼做出這些假設？有什麼方法可以繞過這些假設？

信封背面的計算表明，40,000 篇 fMRI 論文的資金（研究生工資、運營成本等）超過了 10 億美元。

[1] Eklund 等人，集群故障：為什麼空間範圍的 fMRI 推斷會誇大假陽性率，PNAS 2016

在40000這個數字上

新聞確實是聳人聽聞的，但這篇論文確實很有根據。在我的實驗室裡討論了好幾天，總而言之，這是一個真正必要的批評，讓研究人員反思他們的工作。我建議閱讀Thomas Nichols 的以下評論，他是*“集群故障：為什麼 fMRI 對空間範圍的推斷導致誤報率高”*論文的作者之一（對不起，引述過長）。

**然而，有一個數字讓我感到遺憾：40,000。**在試圖提及 fMRI 學科的重要性時，我們使用了對整個 fMRI 文獻的估計，作為我們的研究結果影響的研究數量。在我們的辯護中，我們發現總體上集群大小推斷存在問題（P=0.01 CDT 嚴重，P=0.001 有偏差），這是主要的推斷方法，表明大多數文獻受到了影響。然而，影響聲明中的數字已被大眾媒體報導並引發了一場小型推特風暴。因此，我覺得至少粗略估計一下“我們的工作影響了多少篇文章？”是我的責任。我不是文獻計量學家，這確實是一個粗略的練習，但它希望能夠讓人們了解問題的數量級。

分析代碼（在 Matlab 中）如下所示，但這裡是精簡的：基於一些合理的概率計算，但可能是文獻的脆弱樣本，我估計大約 15,000 篇論文使用集群大小推斷和校正進行多次測試；其中，大約 3,500 人使用 P=0.01 的 CDT。3,500 篇論文約佔全部文獻的 9%，或者更有用的是，佔包含原始數據的論文的 11%。（當然，這 15,000 或 3,500 個中的一些可能使用非參數推理，但不幸的是，fMRI 很少見——相比之下，它是 FSL 中結構 VBM/DTI 分析的默認推理工具）。

坦率地說，我認為這個數字會更高，但沒有意識到大部分研究從未使用任何類型的多重測試校正。（如果你不正確，就不能誇大正確的意義！）。這些計算表明 13,000 篇論文沒有使用多重測試校正。當然，其中一些可能使用感興趣區域或子體積分析，但很少有（即臨床試驗類型的結果）完全沒有多重性。我們的論文不是直接關於這個群體的，但是對於使用民間多重測試校正的出版物，P<0.001 & k>10，我們的論文表明這種方法的家庭錯誤率遠遠超過 50%。

那麼，我們是說 3,500 篇論文是“錯誤的”嗎？這取決於。我們的結果表明 CDT P=0.01 結果誇大了 P 值，但必須檢查每項研究……如果效果真的很強，那麼 P 值是否有偏差可能並不重要，科學推斷將保持不變。但如果效果真的很弱，那麼結果可能確實與噪聲一致。而且，那些沒有更正的 13,000 篇論文呢，尤其是在早期文獻中很常見？不，它們也不應該被丟掉，但是這些作品需要特別厭倦的眼睛，尤其是在將它們與具有改進的方法標準的新參考文獻進行比較時。

他還在最後包括了這張表：
       AFNI     BV    FSL    SPM   OTHERS
       ____     __    ___    ___   ______

>.01      9       5     9       8    4     
.01       9       4    44      20    3     
.005     24       6     1      48    3     
.001     13      20    11     206    5     
<.001     2       5     3      16    2    
基本上，SPM（Statistical Parametric Mapping，Matlab 的工具箱）是 fMRI 神經科學研究中使用最廣泛的工具。如果您查看論文，您會發現使用 SPM 中的集群的 CDT 為 P = 0.001（標準）幾乎可以提供預期的家庭錯誤率。

由於論文的措辭，作者甚至填寫了勘誤表：

鑑於對我們論文的廣泛誤解，Eklund 等人，集群故障：為什麼 fMRI 推斷空間範圍會誇大假陽性率，我們向 PNAS 編輯辦公室提交了勘誤表：

Eklund 等人的勘誤表，集群故障：為什麼 fMRI 對空間範圍的推斷誇大了假陽性率。埃克倫德，安德斯；尼科爾斯，托馬斯 E；克努特森，漢斯

有兩句話措辭不當，很容易被誤解為誇大了我們的結果。

意義聲明的最後一句應為：“這些結果質疑許多功能磁共振成像研究的有效性，並可能對弱顯著神經影像結果的解釋產生重大影響。”

標題“fMRI 的未來”之後的第一句話應該是：“由於可悲的存檔和數據共享實踐，有問題的分析不太可能重做。”

這些替換了錯誤地暗示我們的工作影響了所有 40,000 份出版物的兩個句子（請參閱集群推理的文獻計量學，以猜測有多少文獻可能受到影響）。

在最初拒絕勘誤表後，PNAS 同意按照我們在上面提交的內容髮布它，理由是它是在糾正解釋而不是事實。

關於所謂的 Bug

一些新聞還提到了一個錯誤作為研究無效的原因。事實上，AFNI 工具之一是對推理的校正不足，在預印本發佈在arXiv後，這個問題得到了解決。

用於功能性神經成像的統計推斷

功能性神經成像包括許多旨在測量大腦中神經元活動的技術（例如 fMRI、EEG、MEG、NIRS、PET 和 SPECT）。這些基於不同的對比機制。fMRI 基於血氧水平依賴 (BOLD) 對比。在基於任務的 fMRI 中，給定一個刺激，大腦中負責接收該刺激的神經元開始消耗能量，這會觸發改變磁共振信號的血流動力學反應。) 在招募的微血管附近。

使用廣義線性模型(GLM)，您可以確定哪些體素信號時間序列與實驗範式的設計相關（通常是與規範血流動力學響應函數卷積的布爾時間序列，但存在變化）。

因此，此 GLM 為您提供了每個體素時間序列與任務的相似程度。現在，假設您有兩組人：通常是患者和對照組。比較各組之間的 GLM 分數可用於顯示各組的狀況如何調節他們的大腦“激活”模式。

組之間的體素比較是可行的，但由於設備固有的點擴散功能加上平滑預處理步驟，期望體素單獨攜帶所有信息是不合理的。實際上，組間體素的差異應該分佈在相鄰的體素上。

因此，進行了聚類比較，即只考慮形成聚類的組之間的差異。這種聚類範圍閾值是 fMRI 研究中最流行的多重比較校正技術。問題就在這裡。

SPM 和 FSL 依賴於高斯隨機場理論 (RFT) 進行 FWE 校正的體素和集群推理。然而，RFT 集群推理依賴於兩個額外的假設。第一個假設是 fMRI 信號的空間平滑度在大腦中是恆定的，第二個假設是空間自相關函數具有特定的形狀（平方指數）（30）

在 SPM 中，至少您必須設置標稱 FWE 速率以及集群定義閾值 (CDT)。基本上，SPM 發現體素與任務高度相關，並且在使用 CDT 進行閾值處理後，將相鄰的體素聚合成簇。[在給定 FWER 集 1 ]的情況下，將這些集群大小與隨機場理論 (RFT) 中的預期集群範圍進行比較。

隨機場理論要求活動圖是平滑的，是隨機場的良好晶格近似。這與應用於卷的平滑量有關。平滑還會影響殘差是正態分佈的假設，因為通過中心極限定理進行平滑會使數據更加高斯。

作者在 [ 1 ] 中表明，與從隨機排列測試 (RPT) 獲得的集群範圍閾值相比，RFT 的預期集群大小非常小。

在他們最近的論文中，使用靜息狀態（fMRI 的另一種模式，參與者被指示不要特別思考任何事情）數據，就像人們在圖像採集期間執行任務一樣，並且進行了組比較，體素和集群-明智的。觀察到的誤報率（即當您觀察到組之間對虛擬任務的信號響應存在差異時）率應該合理地低於設定的預期 FWE 率. 對具有不同範式的隨機抽樣組重做數百萬次分析表明，大多數觀察到的 FWE 率高於可接受的水平。

@amoeba 在評論中提出了這兩個高度相關的問題：

(1) Eklund 等人。PNAS 論文談到了所有測試的“標稱 5% 水平”（參見例如圖 1 上的水平黑線）。但是，同一圖中的 CDT 是變化的，例如可以是 0.01 和 0.001。CDT 閾值與標稱的 I 類錯誤率有何關係？我對此感到困惑。(2) 你看過 Karl Friston 的回复 http://arxiv.org/abs/1606.08199嗎？我讀了它，但我不太確定他們在說什麼：我是否正確地看到他們同意 Eklund 等人的觀點。但是說這是一個“眾所周知”的問題？

(1) 好問題。我實際上審查了我的參考資料，讓我們看看我現在是否可以更清楚。集群推理基於在應用主閾值（CDT，它是任意的）之後形成的集群範圍。在二次分析中，應用**了每個集群的體素數量的閾值。該閾值基於空簇範圍的預期分佈，可以從理論（例如RFT）估計，並設置標稱FWER。一個很好的參考是[ 2 ]。

（2）感謝這個參考，以前沒見過。Flandin & Friston 認為 Eklund 等人。證實了 RFT 推斷，因為它們基本上表明，尊重其假設（關於 CDT 和平滑），結果是無偏的。在這種情況下，新結果表明，文獻中的不同實踐傾向於使推理產生偏差，因為它打破了 RFT 的假設。

關於多重比較

眾所周知，神經科學領域的許多研究並不能糾正多重比較，估計在文獻的 10% 到 40% 之間。但這些並沒有被該聲明所解釋，每個人都知道這些論文的有效性很脆弱，並且可能存在巨大的誤報率。

FWER 超過 70%

作者還報告了一種產生超過 70% 的 FWER 的程序。這個“民間”程序包括應用 CDT 以僅保留高度重要的集群，然後應用另一個任意選擇的集群範圍閾值（以體素數量計）。這有時稱為“集合推斷”，統計基礎薄弱，可能會產生最不可信的結果。

以前的報告

同一作者已經報告了 SPM [ 1 ] 在個別分析中的有效性問題。該領域還有其他被引用的著作。

奇怪的是，基於模擬數據的幾份關於群體和個人層面分析的報告得出結論，RFT 閾值實際上是保守的。隨著最近處理能力的進步，儘管 RPT 可以更容易地在真實數據上執行，但與 RFT 存在很大差異。

更新：2017 年 10 月 18 日

去年 6 月出現了關於*“集群故障”的評論[ 3 ]。有穆勒等人。認為 Eklund 等人提出的結果可能*是由於他們的研究中使用了特定的成像預處理技術。基本上，他們在平滑之前將功能圖像重新採樣到更高的分辨率（雖然可能不是每個研究人員都這樣做，但這是大多數 fMRI 分析軟件中的常規程序）。他們還注意到 Flandin & Friston 沒有。實際上，我在同一個月在溫哥華舉行的人腦圖譜組織 (OHBM) 年會上看到了 Eklund 的演講，但我不記得對這個問題有任何評論，但這似乎對這個問題至關重要。

[1] Eklund, A.、Andersson, M.、Josephson, C.、Johannesson, M. 和 Knutsson, H. (2012)。使用 SPM 進行參數 fMRI 分析是否產生有效結果？——對 1484 個剩餘數據集的實證研究。神經影像學，61（3），565-578。

[2] Woo, CW, Krishnan, A., & Wager, TD (2014)。fMRI 分析中基於集群範圍的閾值：陷阱和建議。神經影像學，91, 412-419。

[3] Mueller, K.、Lepsien, J.、Möller, HE 和 Lohmann, G. (2017)。評論：集群失敗：為什麼 fMRI 對空間範圍的推斷會誇大假陽性率。人類神經科學前沿，11。

引用自：https://stats.stackexchange.com/questions/225557

comments powered by Disqus

40,000 篇神經科學論文可能是錯誤的

在40000這個數字上

關於所謂的 Bug

用於功能性神經成像的統計推斷

關於多重比較

FWER 超過 70%

以前的報告

更新：2017 年 10 月 18 日

相關問答

我們什麼時候“停止”使用多種校正技術？

為什麼神經網絡需要這麼多訓練樣本來執行？

用 R 中的 GAM 對象 {mgcv} 校正多個成對比較

相關性 = 0.2 是否意味著“只有五分之一的人”存在關聯？

一步一步的普通克里金例子？

Matérn協方差函數的基本原理是什麼？