誤解了 P 值？

August 9, 2015

因此，我一直在閱讀很多有關如何正確解釋 P 值的內容，並且從我所讀到的內容中，p 值沒有說明原假設為真或假的概率。但是，當閱讀以下聲明時：

p - 值表示犯 I 類錯誤或拒絕原假設為真時的概率。p 值越小，您錯誤地拒絕原假設的概率就越小。

編輯：然後 5 分鐘後我讀到：

對 P 值的錯誤解釋很常見。最常見的錯誤是將 P 值解釋為通過拒絕真正的零假設（I 類錯誤）而犯錯誤的概率。

這讓我很困惑。哪一個是正確的？誰能解釋一下如何正確解釋 p 值以及它如何正確地與犯 I 型錯誤的概率相關聯？

由於您的評論，我將製作兩個單獨的部分：

p 值

在統計假設檢驗中，您可以找到替代假設的“統計證據”；正如我在如果我們未能拒絕零假設會發生什麼中解釋的那樣？，它類似於數學中的“反證法”。

因此，如果我們想找到“統計證據”，那麼我們假設相反，我們表示我們試圖證明的東西，我們稱之為. 在此之後，我們抽取一個樣本，並從樣本中計算所謂的檢驗統計量（例如 t 檢驗中的 t 值）。

然後，正如我們假設是真的，我們的樣本是從分佈中隨機抽取的，我們可以計算觀察值超過或等於從我們的（隨機）樣本中得出的值的概率。這個概率稱為 p 值。

如果這個值“足夠小”，即小於我們選擇的顯著性水平，那麼我們拒絕我們認為是“統計證明的”。

在這種方式中，有幾件事很重要：

我們在以下假設下推導出概率是真的

我們從假設的分佈中抽取了一個隨機樣本

我們決定找到證據如果從隨機樣本得出的檢驗統計量被超過的概率很低。所以超過它不是不可能的，而是真的，在這些情況下，我們會犯第一類錯誤。

那麼什麼是 I 類錯誤：當樣本隨機抽取時，會產生 I 類錯誤, 得出的結論是是假的，而實際上它是真的。

請注意，這意味著p 值不是 I 類錯誤的概率。實際上，I 類錯誤是測試的錯誤決定，只能通過將 p 值與所選顯著性水平進行比較來做出決定，僅憑 p 值無法做出決定，**只有在比較之後做出決定的所選顯著性水平的 p 值，**只要不做出決定，甚至沒有定義 I 類錯誤。

那麼 p 值是多少？潛在的錯誤拒絕是因為我們在下面抽取了一個隨機樣本，所以可能是我們通過抽取樣本“運氣不好”，而這種“運氣不好”會導致錯誤的拒絕. 所以 p 值（儘管這並不完全正確）更像是抽取“壞樣本”的概率。p值的正確解釋是它是檢驗統計量超過或等於從隨機抽取的樣本中得出的檢驗統計量值的概率

錯誤發現率 (FDR)

如上所述，每次拒絕原假設時，人們都認為這是“統計證據”. 所以我們發現了新的科學知識，所以叫做發現。上面還解釋了我們可以做出錯誤的發現（即錯誤地拒絕) 當我們犯了 I 類錯誤時。在那種情況下，我們對科學真理有錯誤的信念。我們只想發現真正真實的事物，因此人們試圖將錯誤的發現保持在最低限度，即人們將控制第一類錯誤。不難看出，I 類錯誤的概率是選擇的顯著性水平. 因此，為了控制 I 類錯誤，需要修復一個-反映你願意接受“虛假證據”的程度。

直觀地說，這意味著如果我們抽取大量樣本，並對每個樣本進行測試，那麼只有一小部分這些測試將導致錯誤的結論。重要的是要注意我們正在**“對許多樣本進行平均”**；所以同樣的測試，很多樣品。

如果我們使用相同的樣本進行許多不同的測試，那麼我們就會出現多重測試錯誤（請參閱我在Family-wise error boundary 上的分析：在獨立問題的不同研究中重複使用數據集會導致多重測試問題嗎？）。在這種情況下，可以控制使用控制全**族錯誤率 (FWER)**的技術進行膨脹，例如 Bonferroni 校正。

與 FWER 不同的方法是控制錯誤發現率 (FDR)。在這種情況下，一個控制所有發現 (D) 中錯誤發現 (FD) 的數量，因此一個控制, D 是被拒絕的次數.

因此，第一類錯誤概率與對許多不同樣本執行相同的測試有關。對於大量樣本，I 類錯誤概率將收斂於導致錯誤拒絕的樣本數除以抽取的樣本總數。

FDR與對同一樣本的許多測試有關，對於大量測試，它將收斂於發生 I 類錯誤的測試數量（即錯誤發現的數量）除以拒絕的總數量（即發現的總數）。

請注意，比較上面的兩段：

上下文不同；一項測試和許多樣品與許多測試和一份樣品。

計算第一類錯誤概率的分母明顯不同於計算 FDR 的分母。分子在某種程度上相似，但具有不同的上下文。

FDR 告訴您，如果您對同一個樣本進行多次測試並發現 1000 個發現（即拒絕) 那麼 FDR 為 0.38，您將擁有錯誤的發現。

引用自：https://stats.stackexchange.com/questions/166323

comments powered by Disqus

誤解了 P 值？

p 值

錯誤發現率 (FDR)

相關問答

關於文章“拋棄 p 值。改用 Bootstrap 置信區間”的三個問題

我可以比較 p 值嗎？

為什麼當平均值看起來真的不同時，t.test() 的 p 值在統計上不顯著

為什麼均值 ± 2*SEM（95% 置信區間）重疊，但 p 值為 0.05？

如果您多次執行相同的測試，您可以將 p 值相乘嗎？

自舉回歸分析後，所有 p 值都是 0.001996 的倍數