如何確定樣本是否在多元正態分佈的標準差內
對於來自一維正態分佈的樣本 $ x \sim \mathcal{N}(\mu, \sigma) $ ,我可以計算一個樣本是否在某個倍數內 $ \eta $ 的 $ \sigma $ 通過測量 x 是否超出 $ \mu \pm \eta\sigma $ .
MVN的情況如何?如何進行相同的測量?具體來說,鑑於…
$$ \begin{bmatrix}x_1 \ x_2\end{bmatrix} \sim \mathcal{N}\Big( \begin{bmatrix}\mu_1 \ \mu_2\end{bmatrix}, \begin{bmatrix}\sigma_{11} & \sigma_{12} \ \sigma_{21} & \sigma_{22}\end{bmatrix} \Big) $$
我該如何計算如果 $ \mathbf{x} $ 是在 $ \pm\eta\Sigma $ ?
這裡使用的常用度量是縮放的馬氏距離:
$$ S(\mathbf{x}) \equiv \frac{D(\mathbf{x})}{\sqrt{n}} = \sqrt{\frac{(\mathbf{x} - \boldsymbol{\mu})^\text{T} \mathbf{\Sigma}^{-1} (\mathbf{x} - \boldsymbol{\mu})}{n}}. $$
如果我們讓 $ \mathbf{\Sigma}^{1/2} $ 表示多元“標準差矩陣”(即方差矩陣的主平方根),那麼這個距離可以用另一種形式寫成:
$$ S(\mathbf{x}) = \frac{||\mathbf{\Sigma}^{-1/2} (\mathbf{x} - \boldsymbol{\mu})||}{\sqrt{n}}, $$
這是標準化向量範數的縮放版本(通過縮放調整以消除向量中元素數量對范數的影響)。該度量具有一些有用的屬性,使其成為與平均值的標準化距離的良好度量。特別是,在特殊情況下 $ n=1 $ 你得到 $ S(\mathbf{x}) = |x - \mu|/\sigma $ ,這是與平均值的絕對標準化距離。(因此,你得到 $ x = \mu \pm S(\mathbf{x}) \sigma $ 在這種特殊情況下。)更廣泛的距離度量以解釋方差矩陣中的方差和協方差以及隨機向量長度的方式概括了與樣本均值的標準化距離的單變量概念。
使用縮放的馬氏距離,您可以計算該值是否 $ \mathbf{x} $ 位於以特定縮放距離內的平均向量為中心的橢圓區域內 $ r $ . 該區域可以確定為:
$$ \begin{align} \mathscr{X}(r) &\equiv { \mathbf{x} \in \mathbb{R}^n | S(\mathbf{x}) \leqslant r } \[6pt] &= { \mathbf{x} \in \mathbb{R}^n | S(\mathbf{x})^2 \leqslant r^2 } \[6pt] &= { \mathbf{x} \in \mathbb{R}^n | (\mathbf{x} - \boldsymbol{\mu})^\text{T} \mathbf{\Sigma}^{-1} (\mathbf{x} - \boldsymbol{\mu}) \leqslant n r^2 }. \[6pt] \end{align} $$
在正常數據的情況下,您有 $ S(\mathbf{X}) \sim \text{Chi}(n)/\sqrt{n} $ 使用chi 分佈,因此可以計算位於這些區域之一的特定值的概率 $ r $ . 具體來說,你會得到:
$$ \begin{align} \mathbb{P}(X \in \mathscr{X}(r)) &= \mathbb{P}(S(\mathbf{X}) \leqslant r) \[16pt] &= \int \limits_0^{r} \text{Chi}(s|n) \ ds \[6pt] &= \frac{2 (n/2)^{n/2}}{\Gamma(n/2)} \int \limits_0^{r} s^{n-1} \exp \Big( - \frac{n s^2}{2} \Big) \ ds. \[6pt] \end{align} $$