Neural-Networks

找到神經網絡的置信區間是否有意義?

  • July 16, 2021

我試圖在最好的情況下找出置信區間預測區間可信區間之間的差異,作為考慮與對未見數據的預測相關的不確定性的工具。

我注意到,例如,當我們查看Linear Regression時,一些研究建議計算置信區間以量化與回歸模型參數相關的不確定性( $ \beta_0, \beta_1 , : y_i = \beta_1x_i + \beta_0 $ ).

因此,例如,在這種情況下,我們找到一個區間,使得在一定的置信度下,例如 $ 95% $ 參數 $ \beta_0 $ 要么 $ \beta_1 $ 將位於該區間。

當談到神經網絡梯度提升等其他方法時,我從未遇到過類似的方法來預測與預測相關的不確定性,但相反,我看到人們運行模型集合以得出輸出分佈和通過取輸出分佈的均值和標準差來量化不確定性。

那麼這裡有什麼區別呢?這當然與考慮置信區間不同,因為我們現在考慮的是輸出分佈而不是模型參數的分佈。這種其他方法與預測區間可信區間有關嗎?為什麼我們應該選擇一件事而不是另一件事?

非常感謝您的幫助,

詹姆士

對於簡單的回歸模型,如果你有參數的聯合分佈,你會得到置信區間和某種派生的預測區間。您通常具有回歸模型的聯合分佈,對於使用 MCMC 採樣器擬合的貝葉斯模型,您具有來自該分佈的偽隨機樣本,對於最大似然估計,您通常具有多元正態分佈近似值。

讓我們從後一種情況和您的示例開始:參數的置信區間通常類似於 $ (\hat{\beta}_0 - 1.96 \times \text{SE}(\hat{\beta}_0),\ \hat{\beta}_0 + 1.96 \times \text{SE}(\hat{\beta}_0)) $ 你也有同樣的 $ \hat{\beta}1 $ . 一旦你想要一個預測區間,你就會得到一個帶有協變量的新觀察的點預測 $ x* $ 是 $ \hat{\beta}_0 + \hat{\beta}1 x* $ ,但標準誤為 $ \sqrt{ \text{SE}(\hat{\beta}0)^2 + x^2 \text{SE}(\hat{\beta}1)^2 + 2 x \text{Cov}(\hat{\beta}_0, \hat{\beta}_1) + \sigma^2} $ (如果我們知道標準差 $ \sigma $ 殘差項——如果我們也估計一下,它會變得有點複雜)。因此,一個區別是預測區間是它們也考慮了結果的變化(來自殘差項)。兩者都很有用,因為我們對預測的不確定性感興趣,但也可能對解釋單個係數並查看它們可能因抽樣變化而變化多少感興趣。

同樣,對於貝葉斯模型,您可以從 $ K $ 通過考慮樣本分佈的MCMC樣本 $ \hat{\beta}^{(k)}_0 $ 為了 $ k=1,\ldots,K $ . 您可以通過以下分佈獲得線性預測項的置信區間 $ \hat{\beta}^{(k)}_0 + \hat{\beta}^{(k)}1 x* $ 以及通過對每個採樣的預測間隔 $ k $ 從一個 $ N(\hat{\beta}^{(k)}_0 + \hat{\beta}^{(k)}1 x*, \hat{\sigma}^{(k)}) $ 分發(根據需要重複或僅一次)。您可能會說這比常客案例更容易和更直接,尤其是考慮到估計的殘差標準偏差的不確定性是微不足道的。

對於神經網絡、梯度提升樹等,我不認為單個模型參數/權重/樹拆分的 CI 真的有用,即使你可以計算它。我們通常只是在解釋單個參數時遇到很多麻煩,而是傾向於查看輸入特徵對輸出的影響。我想你可以得到類似 SHAP 值的置信區間(可能只是通過引導),但我確實從未見過。人們更(僅?)感興趣的是預測區間。獲得它們的想法包括:

  • 理論上(實際上僅適用於超級簡單的情況),您可以執行與上述相同的操作,但複雜性通常使這具有挑戰性
  • 基於集成的方法(正如您所提到的 - 其中一種變體是在使用 dropout 訓練的神經網絡中的推理時留下 dropout)
  • 自舉(顯然相當耗時)
  • 分位數回歸(例如,您的神經網絡具有三個輸出:一個點預測,例如,具有此類協變量的點的分佈的第 10 個和第 90 個百分位數,使用某種形式的分位數回歸損失/彈球損失進行擬合 - 參見例如這個關於 Kaggle 比賽的討論

可能還有很多方法。

引用自:https://stats.stackexchange.com/questions/534797

comments powered by Disqus