Hypothesis-Testing

為什麼 0.05 < p < 0.95 結果稱為誤報?

  • February 27, 2014

**編輯:**我的問題的基礎是有缺陷的,我需要花一些時間來弄清楚它是否可以變得有意義。

**編輯 2:**澄清我認識到 p 值不是零假設概率的直接度量,但我假設 p 值越接近 1,假設越有可能被選擇用於相應零假設為真的實驗測試,而 p 值越接近 0,則越有可能選擇了相應零假設為假的假設用於實驗測試。除非所有假設(或為實驗挑選的所有假設)的集合在某種程度上是病態的,否則我看不出這是怎麼回事。

**編輯3:**我想我仍然沒有使用明確的術語來問我的問題。隨著彩票號碼被讀出,並且您將它們與您的彩票一一匹配,一些事情發生了變化。您獲勝的概率不會改變,但您可以關閉收音機的概率會改變。完成實驗時也會發生類似的變化,但我感覺我使用的術語 - “p 值改變了選擇真實假設的可能性” - 不是正確的術語。

**編輯 4:**我收到了兩個非常詳細且內容豐富的答案,其中包含大量信息供我處理。我現在會投票給他們兩個,然後當我從兩個答案中學到足夠的知識以知道他們已經回答或使我的問題無效時,我會回來接受一個。這個問題打開了一罐比我預期吃的大得多的蠕蟲。

在我讀過的論文中,我看到驗證後 p > 0.05 的結果稱為“誤報”。但是,當實驗數據的 ap < 0.50較低但 > 0.05 並且既不是原假設和考慮到@NickStauner 的鏈接中指出的不對稱性,研究假設在統計上不確定/不顯著(考慮到傳統的統計顯著性截止值)在 0.05 < p < 0.95之間,無論 p < 0.05 的倒數是多少?

讓我們將該數字稱為 A,並將其定義為 p 值,它表示您為實驗/分析選擇了一個真正的零假設的可能性與 0.05 的 p 值表示您的可能性相同為您的實驗/分析選擇了一個真正的非零假設。0.05 < p < A 不只是說,“您的樣本量不足以回答這個問題,並且在您獲得更大的樣本並獲得統計數據之前,您將無法判斷應用程序/現實世界的重要性意義整理”?

換句話說,當且僅當 p > A 時,將結果稱為絕對錯誤(而不是簡單地不受支持)不應該是正確的嗎?

這對我來說似乎很簡單,但如此廣泛的用法告訴我,我可能錯了。我是:

a)誤解數學,

b)抱怨一個無害的,如果不是完全正確的約定,

c)完全正確,或

d)其他?

我承認這聽起來像是在徵求意見,但這似乎是一個具有明確數學正確答案的問題(一旦設置了顯著性截止值),我或(幾乎)其他人都錯了。

你的問題是基於一個錯誤的前提:

當 p < 0.50 時,零假設是否仍然更有可能出錯?

p 值不是原假設為真的概率。例如,如果您選取一千個零假設為真的案例,其中一半將具有p < .5. 那一半都將空的。

事實上,p > .95意味著零假設“可能是真的”的想法同樣具有誤導性。如果原假設為真,則 的概率p > .95與 的概率完全相同p < .05

ETA:您的編輯更清楚地說明了問題所在:您仍然存在上述問題(您將 p 值視為後驗概率,而實際上並非如此)。重要的是要注意,這不是一個微妙的哲學區別(正如我認為你在討論彩票時所暗示的那樣):它對 p 值的任何解釋都有巨大的實際意義。

但是您可以對 p執行一種轉換,它可以讓您得到您正在尋找的東西,它被稱為本地錯誤發現率。(正如這篇好論文所描述的,它是“後驗錯誤概率”的常客等價物,所以如果你願意,可以這樣想)。

讓我們看一個具體的例子。假設您正在執行 t 檢驗,以確定 10 個數字的樣本(來自正態分佈)的平均值是否為 0(單樣本雙邊 t 檢驗)。首先,讓我們看看當均值實際上為零時的 p 值分佈是什麼樣的*,*用一個簡短的 R 模擬:

null.pvals = replicate(10000, t.test(rnorm(10, mean=0, sd=1))$p.value)
hist(null.pvals)

在此處輸入圖像描述

正如我們所看到的,空 p 值具有均勻分佈(在 0 和 1 之間的所有點上的可能性均等)。這是 p 值的必要條件:確實,這正是 p 值的含義!(假設 null 為真,有 5% 的可能性小於 0.05,有 10% 的可能性小於 0.1…)

現在讓我們考慮備擇假設——null 為假的情況。現在,這有點複雜:當 null 為假時,“有多假”?樣本的平均值不是 0,而是 0.5?1?10?它是否隨機變化,有時小有時大?為簡單起見,假設它始終等於 0.5(但請記住這個複雜性,稍後會很重要):

alt.pvals = replicate(10000, t.test(rnorm(10, mean=.5, sd=1))$p.value)
hist(alt.pvals)

在此處輸入圖像描述

請注意,分佈現在不均勻:它向 0 移動!在您的評論中,您提到了提供信息的“不對稱”:這就是不對稱。

所以想像一下你知道這兩種分佈,但是你正在做一個新的實驗,你也有一個先驗,它有 50% 的可能性是空的,50% 的可能性是替代的。你得到一個 0.7 的 p 值。你怎麼能從那個和p值中得到一個概率?

你應該做的是比較密度

lines(density(alt.pvals, bw=.02))
plot(density(null.pvals, bw=.02))

並查看您的 p 值:

abline(v=.7, col="red", lty=2)

在此處輸入圖像描述

零密度和替代密度之間的比率可用於計算局部錯誤發現率:零相對於替代密度越高,本地 FDR 越高。這是假設為空的概率(從技術上講,它有一個更嚴格的常客解釋,但我們在這裡保持簡單)。如果值非常高,那麼您可以解釋為“零假設幾乎可以肯定是正確的”。實際上,您可以為本地 FDR 設置 0.05 和 0.95 的閾值:這將具有您正在尋找的屬性。(並且由於局部 FDR 隨 p 值單調增加,至少如果你做得對,這些將轉化為一些閾值 A 和 B,你可以說“

現在,我已經聽到你在問“那我們為什麼不使用它來代替 p 值呢?” 兩個原因:

  1. 您需要確定測試為空的先驗概率
  2. 您需要知道替代方案下的密度。這很難猜到,因為您需要確定效果大小和方差多大,以及它們的頻率有多高!

您不需要其中任何一個來進行 p 值測試,p 值測試仍然可以讓您避免誤報(這是它的主要目的)。現在,當您有數千個 p 值,可以在多個假設檢驗中估計這兩個值(例如,對數千個基因中的每一個進行一個測試:例如,參見本文本文),但當您’正在做一個測試。

最後,您可能會說“論文是否仍然錯誤地說導致 p 值高於 0.05 的複制必然是誤報?” 好吧,雖然得到一個 0.04 的 p 值和另一個 0.06 的 p 值確實並不意味著原始結果是錯誤的,但實際上它是一個合理的選擇指標。但無論如何,您可能會很高興知道其他人對此表示懷疑!你提到的那篇論文在統計學上有些爭議:這篇論文使用了不同的方法,對醫學研究的 p 值得出了非常不同的結論,然後該研究受到了一些著名的貝葉斯主義者的批評(並且一圈又一圈地進行下去) …)。因此,儘管您的問題是基於對 p 值的一些錯誤假設,但我認為它確實檢查了您引用的論文部分的一個有趣假設。

引用自:https://stats.stackexchange.com/questions/88188

comments powered by Disqus