為什麼我們使用有偏見和誤導性的標準差公式𝜎σsigma的正態分佈?
當我第一次進行正態分佈蒙特卡羅模擬並發現標準差樣本,所有樣本的大小都只有,證明遠小於,即平均時代周刊用於生成人口。但是,這是眾所周知的,如果很少記得的話,而且我確實知道,否則我不會進行模擬。這是一個模擬。
這是一個預測 95% 置信區間的示例使用 100,, 估計, 和.
RAND() RAND() Calc Calc N(0,1) N(0,1) SD E(s) -1.1171 -0.0627 0.7455 0.9344 1.7278 -0.8016 1.7886 2.2417 1.3705 -1.3710 1.9385 2.4295 1.5648 -0.7156 1.6125 2.0209 1.2379 0.4896 0.5291 0.6632 -1.8354 1.0531 2.0425 2.5599 1.0320 -0.3531 0.9794 1.2275 1.2021 -0.3631 1.1067 1.3871 1.3201 -1.1058 1.7154 2.1499 -0.4946 -1.1428 0.4583 0.5744 0.9504 -1.0300 1.4003 1.7551 -1.6001 0.5811 1.5423 1.9330 -0.5153 0.8008 0.9306 1.1663 -0.7106 -0.5577 0.1081 0.1354 0.1864 0.2581 0.0507 0.0635 -0.8702 -0.1520 0.5078 0.6365 -0.3862 0.4528 0.5933 0.7436 -0.8531 0.1371 0.7002 0.8775 -0.8786 0.2086 0.7687 0.9635 0.6431 0.7323 0.0631 0.0791 1.0368 0.3354 0.4959 0.6216 -1.0619 -1.2663 0.1445 0.1811 0.0600 -0.2569 0.2241 0.2808 -0.6840 -0.4787 0.1452 0.1820 0.2507 0.6593 0.2889 0.3620 0.1328 -0.1339 0.1886 0.2364 -0.2118 -0.0100 0.1427 0.1788 -0.7496 -1.1437 0.2786 0.3492 0.9017 0.0022 0.6361 0.7972 0.5560 0.8943 0.2393 0.2999 -0.1483 -1.1324 0.6959 0.8721 -1.3194 -0.3915 0.6562 0.8224 -0.8098 -2.0478 0.8754 1.0971 -0.3052 -1.1937 0.6282 0.7873 0.5170 -0.6323 0.8127 1.0186 0.6333 -1.3720 1.4180 1.7772 -1.5503 0.7194 1.6049 2.0115 1.8986 -0.7427 1.8677 2.3408 2.3656 -0.3820 1.9428 2.4350 -1.4987 0.4368 1.3686 1.7153 -0.5064 1.3950 1.3444 1.6850 1.2508 0.6081 0.4545 0.5696 -0.1696 -0.5459 0.2661 0.3335 -0.3834 -0.8872 0.3562 0.4465 0.0300 -0.8531 0.6244 0.7826 0.4210 0.3356 0.0604 0.0757 0.0165 2.0690 1.4514 1.8190 -0.2689 1.5595 1.2929 1.6204 1.3385 0.5087 0.5868 0.7354 1.1067 0.3987 0.5006 0.6275 2.0015 -0.6360 1.8650 2.3374 -0.4504 0.6166 0.7545 0.9456 0.3197 -0.6227 0.6664 0.8352 -1.2794 -0.9927 0.2027 0.2541 1.6603 -0.0543 1.2124 1.5195 0.9649 -1.2625 1.5750 1.9739 -0.3380 -0.2459 0.0652 0.0817 -0.8612 2.1456 2.1261 2.6647 0.4976 -1.0538 1.0970 1.3749 -0.2007 -1.3870 0.8388 1.0513 -0.9597 0.6327 1.1260 1.4112 -2.6118 -0.1505 1.7404 2.1813 0.7155 -0.1909 0.6409 0.8033 0.0548 -0.2159 0.1914 0.2399 -0.2775 0.4864 0.5402 0.6770 -1.2364 -0.0736 0.8222 1.0305 -0.8868 -0.6960 0.1349 0.1691 1.2804 -0.2276 1.0664 1.3365 0.5560 -0.9552 1.0686 1.3393 0.4643 -0.6173 0.7648 0.9585 0.4884 -0.6474 0.8031 1.0066 1.3860 0.5479 0.5926 0.7427 -0.9313 0.5375 1.0386 1.3018 -0.3466 -0.3809 0.0243 0.0304 0.7211 -0.1546 0.6192 0.7760 -1.4551 -0.1350 0.9334 1.1699 0.0673 0.4291 0.2559 0.3207 0.3190 -0.1510 0.3323 0.4165 -1.6514 -0.3824 0.8973 1.1246 -1.0128 -1.5745 0.3972 0.4978 -1.2337 -0.7164 0.3658 0.4585 -1.7677 -1.9776 0.1484 0.1860 -0.9519 -0.1155 0.5914 0.7412 1.1165 -0.6071 1.2188 1.5275 -1.7772 0.7592 1.7935 2.2478 0.1343 -0.0458 0.1273 0.1596 0.2270 0.9698 0.5253 0.6583 -0.1697 -0.5589 0.2752 0.3450 2.1011 0.2483 1.3101 1.6420 -0.0374 0.2988 0.2377 0.2980 -0.4209 0.5742 0.7037 0.8819 1.6728 -0.2046 1.3275 1.6638 1.4985 -1.6225 2.2069 2.7659 0.5342 -0.5074 0.7365 0.9231 0.7119 0.8128 0.0713 0.0894 1.0165 -1.2300 1.5885 1.9909 -0.2646 -0.5301 0.1878 0.2353 -1.1488 -0.2888 0.6081 0.7621 -0.4225 0.8703 0.9141 1.1457 0.7990 -1.1515 1.3792 1.7286 0.0344 -0.1892 0.8188 1.0263 mean E(.) SD pred E(s) pred -1.9600 -1.9600 -1.6049 -2.0114 2.5% theor, est 1.9600 1.9600 1.6049 2.0114 97.5% theor, est 0.3551 -0.0515 2.5% err -0.3551 0.0515 97.5% err
向下拖動滑塊以查看總計。現在,我使用普通的 SD 估計器來計算均值為零附近的 95% 置信區間,它們相差 0.3551 個標準差單位。E(s) 估計量僅偏離 0.0515 個標準差單位。如果估計標準差、均值的標準誤差或 t 統計量,則可能存在問題。
我的推理如下,人口平均數,, 的兩個值可以是關於 a 的任何位置並且絕對不位於, 後者導致絕對最小可能的平方和,因此我們低估了大致如下
wlog 讓, 然後是,最小可能的結果。
這意味著標準差計算為
,
是總體標準差的有偏估計量 ()。請注意,在該公式中,我們減少了自由度除以 1 並除以,即我們做了一些修正,但它只是漸近正確的,並且將是一個更好的經驗法則。對於我們的例如公式會給我們,統計上不可信的最小值為, 其中一個更好的期望值 () 將是. 對於通常的計算,對於,s 遭受非常顯著的低估,稱為小數偏差,僅接近 1% 的低估什麼時候大約是. 由於許多生物實驗已經,這確實是個問題。為了,誤差約為 100,000 分之 25。一般來說,小數偏差校正意味著正態分佈的總體標準差的無偏估計量是
來自維基百科在知識共享許可下,有一個 SD 低估的情節
由於 SD 是總體標準差的有偏估計量,因此它不能是總體標準差的最小方差無偏估計量MVUE,除非我們很高興地說它是 MVUE,我,一方面,不是。
關於非正態分佈和近似無偏讀這個。
現在是問題Q1
能不能證明以上是MVUE樣本量的正態分佈, 在哪裡是大於一的正整數嗎?
提示:(但不是答案)請參閱如何從正態分佈中找到樣本標準差的標準差?.
下一個問題,Q2
**有人可以向我解釋為什麼我們使用無論如何,因為它明顯有偏見和誤導?也就是說,為什麼不使用對於大多數事情?**補充一下,在下面的答案中已經清楚地表明方差是無偏的,但它的平方根是有偏的。我會要求答案解決何時應該使用無偏標準偏差的問題。
事實證明,部分答案是為了避免上述模擬中的偏差,方差可以被平均而不是 SD 值。要查看此效果,如果我們對上面的 SD 列進行平方,並將這些值取平均值,我們得到 0.9994,其平方根是標準偏差 0.9996915 的估計值,對於 2.5% 尾部和誤差僅為 0.0006 -0.0006 表示 95% 的尾部。請注意,這是因為方差是相加的,因此對它們進行平均是一個低誤差過程。然而,標準偏差是有偏差的,在那些我們沒有能力使用方差作為中介的情況下,我們仍然需要進行少量修正。即使我們可以使用方差作為中介,在這種情況下,小樣本校正建議將無偏方差 0.9996915 的平方根乘以 1.002528401,得到 1.002219148 作為標準差的無偏估計。所以,是的,我們可以延遲使用小數校正,但我們應該完全忽略它嗎?
這裡的問題是我們什麼時候應該使用小數校正,而不是忽略它的使用,而且我們主要是避免使用它。
這是另一個示例,建立具有誤差的線性趨勢的空間中的最小點數是三個。如果我們用普通最小二乘法擬合這些點,如果存在非線性,則許多此類擬合的結果是折疊正態殘差模式,如果存在線性則為半正態。在半正態情況下,我們的分佈均值需要少量修正。如果我們用 4 個或更多點嘗試相同的技巧,則分佈通常不會是正態相關的或易於表徵。我們可以使用方差以某種方式組合這些 3 點結果嗎?也許,也許不是。然而,根據距離和矢量來構思問題更容易。
對於更受限制的問題
為什麼通常使用有偏標準差公式?
簡單的答案
因為相關的方差估計是無偏的。沒有真正的數學/統計證明。
在許多情況下可能是準確的。
然而,情況並非總是如此。這些問題至少有兩個重要方面需要理解。
一、樣本方差不僅對高斯隨機變量無偏。對於任何具有有限方差的分佈都是無偏的(如下所述,在我的原始答案中)。該問題指出不是公正的, 並提出了一個對高斯隨機變量無偏的替代方案。然而,重要的是要注意,與方差不同,對於標準偏差,不可能有一個“無分佈”無偏估計量(*見下面的註釋)。
其次,正如 whuber 在評論中提到的那樣,有偏不影響標準“t檢驗”。首先註意,對於高斯變量,如果我們從樣本中估計 z 分數作為
那麼這些就會有偏見。 然而,t 統計量通常用於. 在這種情況下,z 分數將是
雖然我們都不能計算也不, 因為我們不知道. 儘管如此,如果統計是正常的,那麼統計量將遵循 Student-t 分佈。這不是一個大近似。唯一的假設是樣本是獨立同分佈的高斯。 (通常 t 檢驗更廣泛地應用於可能的非高斯. 這確實依賴於大, 通過中心極限定理確保仍然是高斯的。)
*澄清“無分佈無偏估計量”
通過“無分佈”,我的意思是估計器不能依賴於有關人口的任何信息除了樣品. “無偏見”是指預期的錯誤一致為零,與樣本量無關. (與僅漸近無偏的估計量相反,即“一致”,其偏差消失為.)
在評論中,這是作為“無分佈無偏估計器”的可能示例給出的。稍微抽像一下,這個估計器的形式是, 在哪裡是的超峰態. 這個估計器不是“無分佈的”,因為取決於分佈. 估計量滿足, 在哪裡是方差. 因此,估計量是一致的,但不是(絕對)“無偏的”,因為可以任意大為小.
**注意:**以下是我原來的“答案”。從這裡開始,評論是關於標準“樣本”均值和方差,它們是“無分佈”無偏估計量(即總體不假定為高斯)。
這不是一個完整的答案,而是對為什麼通常使用樣本方差公式的澄清。
給定一個隨機樣本,只要變量具有共同的均值,估計量將是公正的,即
如果變量也有一個共同的有限方差,並且它們是不相關的,那麼估計量也將是公正的,即
請注意,這些估計量的無偏性僅取決於上述假設(以及期望的線性;證明只是代數)。結果不依賴於任何特定的分佈,例如高斯分佈。變量不必有一個共同的分佈,它們甚至不必是獨立的(即樣本不必是iid)。 “樣本標準差”不是無偏估計量,,但它仍然是常用的。我的猜測是,這僅僅是因為它是無偏樣本方差的平方根。(沒有更複雜的理由。)
在 iid 高斯樣本的情況下,參數的最大似然估計(MLE) 為和,即方差除以而不是. 此外,在 iid Gaussian 情況下,標準差 MLE 只是 MLE 方差的平方根。但是,這些公式以及您的問題中暗示的公式取決於高斯獨立同分佈假設。
**更新:**關於“有偏見”與“無偏見”的額外說明。
考慮一個- 元素樣本如上,, 平方和偏差
鑑於上述第一部分中概述的假設,我們必然有 所以 (Gaussian-)MLE 估計量是有偏的
而“樣本方差”估計量是無偏的
現在是真的隨著樣本量的增加,偏差變得更小增加。然而無論樣本大小如何(只要)。對於這兩個估計器,它們的抽樣分佈的方差都將是非零的,並且取決於.
例如,下面的 Matlab 代碼考慮了一個實驗來自標準正態總體的樣本. 估計抽樣分佈, 重複實驗次。(您可以在此處剪切並粘貼代碼以自己嘗試。)
% n=sample size, N=number of samples n=2; N=1e6; % generate standard-normal random #'s z=randn(n,N); % i.e. mu=0, sigma=1 % compute sample stats (Gaussian MLE) zbar=sum(z)/n; zvar_mle=sum((z-zbar).^2)/n; % compute ensemble stats (sampling-pdf means) zbar_avg=sum(zbar)/N, zvar_mle_avg=sum(zvar_mle)/N % compute unbiased variance zvar_avg=zvar_mle_avg*n/(n-1)
典型的輸出就像
zbar_avg = 1.4442e-04 zvar_mle_avg = 0.49988 zvar_avg = 0.99977
確認
**更新 2:**注意無偏性的基本“代數”性質。
在上面的數值演示中,代碼逼近了真實的期望使用整體平均實驗的重複(即每個都是一個大小的樣本)。即使有這麼大的數字,上面引用的典型結果也遠非準確。
為了在數值上證明估計量確實是無偏的,我們可以使用一個簡單的技巧來近似案例:只需將以下行添加到代碼中
% optional: "whiten" data (ensure exact ensemble stats) [U,S,V]=svd(z-mean(z,2),'econ'); z=sqrt(N)*U*V';
(放置在“生成標準正態隨機數”之後和“計算樣本統計信息”之前)
通過這個簡單的更改,即使運行代碼給出類似的結果
zbar_avg = 1.1102e-17 zvar_mle_avg = 0.50000 zvar_avg = 1.00000