不獨立於樣本分佈的統計示例？

March 11, 2019

這是維基百科上統計的定義

更正式地說，統計理論將統計定義為樣本的函數，其中函數本身與樣本的分佈無關。即功能可以在數據實現之前說明。統計量一詞既用於函數，也用於給定樣本上的函數值。

我想我理解了這個定義的大部分內容，但是函數獨立於樣本分佈的部分我無法理清。

到目前為止我對統計的理解

樣本是一組具有分佈 F 的獨立同分佈 (iid) 隨機變量的實現（一卷 20 面公平骰子的 10 個實現，5 卷 6 面公平骰子的 100 個實現，從人群中隨機抽取 100 人）。

一個函數，其域是該集合，其範圍是實數（或者它可以產生其他東西，如向量或其他數學對象……）將被視為statistic。

當我想到例子時，均值、中值、方差在這種情況下都是有意義的。它們是一組實現的函數（來自隨機樣本的血壓測量值）。我還可以看到線性回歸模型如何被視為統計數據 $ y_{i} = \alpha + \beta \cdot x_{i} $ - 這不只是一組實現的功能嗎？

我困惑的地方

假設我從上面的理解是正確的，我無法理解函數在哪裡可能不獨立於樣本的分佈。我一直在想一個例子來理解它，但沒有運氣。任何見解將不勝感激！

這個定義是一種有點尷尬的表述方式。“統計”是可觀察值的任何函數。該定義的所有含義是統計數據僅是可觀察值的函數，而不是分佈或其任何參數的函數。例如，如果 $ X_1, X_2, …, X_n \sim \text{N}(\mu, 1) $ 那麼統計數據將是任何函數 $ T(X_1,…,X_n) $ 而一個函數 $ H(X_1,….,X_n, \mu) $ 不會是統計數據，因為它取決於 $ \mu $ . 以下是一些進一步的例子：

$$ \begin{equation} \begin{aligned} \text{Statistic} & & & & & \bar{X}n = \frac{1}{n} \sum{i=1}^n X_i, \[12pt] \text{Statistic} & & & & & S_n^2 = \frac{1}{n} \sum_{i=1}^n (X_i - \bar{X}_n)^2, \[12pt] \text{Not a statistic} & & & & & D_n = \bar{X}_n - \mu, \[12pt] \text{Not a statistic} & & & & & p_i = \text{N}(x_i | \mu, 1), \[12pt] \text{Not a statistic} & & & & & Q = 10 \mu. \[12pt] \end{aligned} \end{equation} $$

每個統計量只是可觀察值的函數，而不是它們的分佈或其參數的函數。因此，沒有作為分佈或其參數函數的統計數據示例（任何此類函數都不是統計數據）。但是，重要的是要注意統計數據的分佈（與統計數據本身相反）通常取決於值的基本分佈。（對於除輔助統計數據以外的所有統計數據都是如此。）

那麼參數已知的函數呢？在下面的評論中，Alecos提出了一個很好的後續問題。使用參數的固定假設值的函數呢？例如，統計數據如何 $ \sqrt{n} (\bar{x} - \mu) $ 在哪裡 $ \mu = \mu_0 $ 被認為等於一個已知的假設值 $ \mu_0 \in \mathbb{R} $ . 這裡的函數確實是一個統計量，只要它是在適當的限制域上定義的。所以函數 $ H_0: \mathbb{R}^n \rightarrow \mathbb{R} $ 和 $ H_0(x_1,…,x_n) = \sqrt{n} (\bar{x} - \mu_0) $ 將是一個統計數據，但函數 $ H: \mathbb{R}^{n+1} \rightarrow \mathbb{R} $ 和 $ H(x_1,…,x_n, \mu) = \sqrt{n} (\bar{x} - \mu) $ 不會是統計數據。

引用自：https://stats.stackexchange.com/questions/396815

comments powered by Disqus

不獨立於樣本分佈的統計示例？

相關問答

統計測試“穩健”意味著什麼？

離散變量和連續變量。定義是什麼？

樣條插值是否被視為非參數模型？

為什麼將 p 值稱為 P(Data | Hypothesis/Model)？

什麼是潛在空間？

監督學習是強化學習的一個子集嗎？