統計上顯著的相關性是否總能提供預測能力？

July 27, 2016

假設您正在嘗試預測異常。也就是說，考慮這樣一種情況，您有一個數據集，其中有一個名為result的列。假設數據集有 365 行，結果只有 12 行的值為 1，其他行的值為 0。

現在假設您在數據集中有另一列稱為val1。進一步假設結果和val1之間相關性的 p 值很小（比如 < 0.05）。請注意，我正在使用R cor.test method進行測量。

這是否意味著我們應該能夠在給定val1值的情況下稍微準確地預測**result的值？

我天真地認為它確實如此，並使用邏輯回歸進行預測，但得到了非常糟糕的 F1 結果。（基本上，邏輯回歸模型總是預測結果為 0，因此沒有真陽性。）

在回歸中，係數的 p 值是對相關性進行假設檢驗的結果，零假設是相關性等於 0。具有統計上顯著的相關性僅意味著我們的 p 值很小；而一個非常小的 p 值意味著我們可以非常確定相關性不為零。但是，請注意，確保相關性不為零並不能告訴我們相關性有多大——而且它可能非常小。

一個非常小的 p 值和一個小的相關性只是告訴我們，我們可以確定我們的自變量解釋了我們響應的一小部分方差，因此它的預測能力非常小。

總而言之，可以獲得具有統計顯著性且非常小的相關性。除了可能之外，當我們有大量樣本時，這很常見。

**編輯補充：**這只是一個相當普遍的現象，即得到一個統計顯著性大但實際意義很小的結果，這種現象經常發生在樣本量大的情況下。

例如，在進行 t 檢驗以評估藥物是否會降低患癌症的概率時，我們可能會得到 0.00001 的 p 值來表示大於零的降低，同時我們估計概率降低 0.000000001%。我們可以非常確定癌症的概率會降低（基於我們的 p 值），但出於任何實際目的，這種降低是如此之小，以至於我們可以看到藥物沒有效果。

與相關性相同：小 p 值和小相關性使我們確信相關性存在但它很小。然而，有時相關性大到足以具有實際意義（自變量解釋了因變量方差的很大一部分），但又不足以具有預測能力。

引用自：https://stats.stackexchange.com/questions/226005

comments powered by Disqus

統計上顯著的相關性是否總能提供預測能力？

相關問答

關於文章“拋棄 p 值。改用 Bootstrap 置信區間”的三個問題

我可以比較 p 值嗎？

為什麼當平均值看起來真的不同時，t.test() 的 p 值在統計上不顯著

為什麼均值 ± 2*SEM（95% 置信區間）重疊，但 p 值為 0.05？

如果您多次執行相同的測試，您可以將 p 值相乘嗎？

自舉回歸分析後，所有 p 值都是 0.001996 的倍數