RMSE的置信區間

November 29, 2013

我取了一個樣本來自人群的數據點。這些點中的每一個都有一個真實值（從基本事實已知）和一個估計值。然後我計算每個採樣點的誤差，然後計算樣本的 RMSE。

然後我如何根據樣本大小推斷出圍繞這個 RMSE 的某種置信區間?

如果我使用的是平均值而不是 RMSE，那麼這樣做不會有問題，因為我可以使用標準方程

但我不知道這是否適用於 RMSE 而不是平均值。有什麼方法可以讓我適應嗎？

（我見過這個問題，但我的人口是否是正態分佈的，這就是那裡的答案所涉及的）

在某些情況下，我也許可以回答您的問題。

讓 $ x_{i} $ 成為你真正的價值 $ i^{th} $ 數據點和 $ \hat{x}_{i} $ 估計值。如果我們假設估計值和真實值之間的差異有

均值為零（即 $ \hat{x}{i} $ 分佈在周圍 $ x{i} $ )

服從正態分佈

並且都具有相同的標準偏差 $ \sigma $

簡而言之：

$$ \hat{x}{i}-x{i} \sim \mathcal{N}\left(0,\sigma^{2}\right), $$

那麼你真的想要一個置信區間 $ \sigma $ .

如果上述假設成立$$ \frac{n\mbox{RMSE}^{2}}{\sigma^{2}} = \frac{n\frac{1}{n}\sum_{i}\left(\hat{x_{i}}-x_{i}\right)^{2}}{\sigma^{2}} $$ 遵循一個 $ \chi_{n}^{2} $ 分佈與 $ n $ （不是 $ n-1 $ ）自由程度。這意味著

$$ \begin{align} P\left(\chi_{\frac{\alpha}{2},n}^{2}\le\frac{n\mbox{RMSE}^{2}}{\sigma^{2}}\le\chi_{1-\frac{\alpha}{2},n}^{2}\right) = 1-\alpha\ \Leftrightarrow P\left(\frac{n\mbox{RMSE}^{2}}{\chi_{1-\frac{\alpha}{2},n}^{2}}\le\sigma^{2}\le\frac{n\mbox{RMSE}^{2}}{\chi_{\frac{\alpha}{2},n}^{2}}\right) = 1-\alpha\ \Leftrightarrow P\left(\sqrt{\frac{n}{\chi_{1-\frac{\alpha}{2},n}^{2}}}\mbox{RMSE}\le\sigma\le\sqrt{\frac{n}{\chi_{\frac{\alpha}{2},n}^{2}}}\mbox{RMSE}\right) = 1-\alpha. \end{align} $$

所以，$$ \left[\sqrt{\frac{n}{\chi_{1-\frac{\alpha}{2},n}^{2}}}\mbox{RMSE},\sqrt{\frac{n}{\chi_{\frac{\alpha}{2},n}^{2}}}\mbox{RMSE}\right] $$ 是你的置信區間。

這是一個模擬您的情況的python程序
from scipy import stats
from numpy import *
s = 3
n=10
c1,c2 = stats.chi2.ppf([0.025,1-0.025],n)
y = zeros(50000)
for i in range(len(y)):
   y[i] =sqrt( mean((random.randn(n)*s)**2))

print "1-alpha=%.2f" % (mean( (sqrt(n/c2)*y < s) & (sqrt(n/c1)*y > s)),)
希望有幫助。

如果您不確定這些假設是否適用，或者您想將我寫的內容與不同的方法進行比較，您可以隨時嘗試bootstrapping。

引用自：https://stats.stackexchange.com/questions/78079

comments powered by Disqus

RMSE的置信區間

相關問答