統計上顯著的相關性是否總能提供預測能力?
假設您正在嘗試預測異常。也就是說,考慮這樣一種情況,您有一個數據集,其中有一個名為result的列。假設數據集有 365 行,結果只有 12 行的值為 1,其他行的值為 0。
現在假設您在數據集中有另一列稱為val1。進一步假設結果和val1之間相關性的 p 值很小(比如 < 0.05)。請注意,我正在使用R cor.test method進行測量。
這是否意味著我們應該能夠在給定val1值的情況下稍微準確地預測**result的值?
我天真地認為它確實如此,並使用邏輯回歸進行預測,但得到了非常糟糕的 F1 結果。(基本上,邏輯回歸模型總是預測結果為 0,因此沒有真陽性。)
在回歸中,係數的 p 值是對相關性進行假設檢驗的結果,零假設是相關性等於 0。具有統計上顯著的相關性僅意味著我們的 p 值很小;而一個非常小的 p 值意味著我們可以非常確定相關性不為零。但是,請注意,確保相關性不為零並不能告訴我們相關性有多大——而且它可能非常小。
一個非常小的 p 值和一個小的相關性只是告訴我們,我們可以確定我們的自變量解釋了我們響應的一小部分方差,因此它的預測能力非常小。
總而言之,可以獲得具有統計顯著性且非常小的相關性。除了可能之外,當我們有大量樣本時,這很常見。
**編輯補充:**這只是一個相當普遍的現象,即得到一個統計顯著性大但實際意義很小的結果,這種現象經常發生在樣本量大的情況下。
例如,在進行 t 檢驗以評估藥物是否會降低患癌症的概率時,我們可能會得到 0.00001 的 p 值來表示大於零的降低,同時我們估計概率降低 0.000000001%。我們可以非常確定癌症的概率會降低(基於我們的 p 值),但出於任何實際目的,這種降低是如此之小,以至於我們可以看到藥物沒有效果。
與相關性相同:小 p 值和小相關性使我們確信相關性存在但它很小。然而,有時相關性大到足以具有實際意義(自變量解釋了因變量方差的很大一部分),但又不足以具有預測能力。