RMSE的置信區間
我取了一個樣本來自人群的數據點。這些點中的每一個都有一個真實值(從基本事實已知)和一個估計值。然後我計算每個採樣點的誤差,然後計算樣本的 RMSE。
然後我如何根據樣本大小推斷出圍繞這個 RMSE 的某種置信區間?
如果我使用的是平均值而不是 RMSE,那麼這樣做不會有問題,因為我可以使用標準方程
但我不知道這是否適用於 RMSE 而不是平均值。有什麼方法可以讓我適應嗎?
(我見過這個問題,但我的人口是否是正態分佈的,這就是那裡的答案所涉及的)
在某些情況下,我也許可以回答您的問題。
讓 $ x_{i} $ 成為你真正的價值 $ i^{th} $ 數據點和 $ \hat{x}_{i} $ 估計值。如果我們假設估計值和真實值之間的差異有
- 均值為零(即 $ \hat{x}{i} $ 分佈在周圍 $ x{i} $ )
- 服從正態分佈
- 並且都具有相同的標準偏差 $ \sigma $
簡而言之:
$$ \hat{x}{i}-x{i} \sim \mathcal{N}\left(0,\sigma^{2}\right), $$
那麼你真的想要一個置信區間 $ \sigma $ .
如果上述假設成立$$ \frac{n\mbox{RMSE}^{2}}{\sigma^{2}} = \frac{n\frac{1}{n}\sum_{i}\left(\hat{x_{i}}-x_{i}\right)^{2}}{\sigma^{2}} $$ 遵循一個 $ \chi_{n}^{2} $ 分佈與 $ n $ (不是 $ n-1 $ ) 自由程度。這意味著
$$ \begin{align} P\left(\chi_{\frac{\alpha}{2},n}^{2}\le\frac{n\mbox{RMSE}^{2}}{\sigma^{2}}\le\chi_{1-\frac{\alpha}{2},n}^{2}\right) = 1-\alpha\ \Leftrightarrow P\left(\frac{n\mbox{RMSE}^{2}}{\chi_{1-\frac{\alpha}{2},n}^{2}}\le\sigma^{2}\le\frac{n\mbox{RMSE}^{2}}{\chi_{\frac{\alpha}{2},n}^{2}}\right) = 1-\alpha\ \Leftrightarrow P\left(\sqrt{\frac{n}{\chi_{1-\frac{\alpha}{2},n}^{2}}}\mbox{RMSE}\le\sigma\le\sqrt{\frac{n}{\chi_{\frac{\alpha}{2},n}^{2}}}\mbox{RMSE}\right) = 1-\alpha. \end{align} $$
所以,$$ \left[\sqrt{\frac{n}{\chi_{1-\frac{\alpha}{2},n}^{2}}}\mbox{RMSE},\sqrt{\frac{n}{\chi_{\frac{\alpha}{2},n}^{2}}}\mbox{RMSE}\right] $$ 是你的置信區間。
這是一個模擬您的情況的python程序
from scipy import stats from numpy import * s = 3 n=10 c1,c2 = stats.chi2.ppf([0.025,1-0.025],n) y = zeros(50000) for i in range(len(y)): y[i] =sqrt( mean((random.randn(n)*s)**2)) print "1-alpha=%.2f" % (mean( (sqrt(n/c2)*y < s) & (sqrt(n/c1)*y > s)),)
希望有幫助。
如果您不確定這些假設是否適用,或者您想將我寫的內容與不同的方法進行比較,您可以隨時嘗試bootstrapping。