不獨立於樣本分佈的統計示例?
這是維基百科上統計的定義
更正式地說,統計理論將統計定義為樣本的函數,其中函數本身與樣本的分佈無關。即功能可以在數據實現之前說明。統計量一詞既用於函數,也用於給定樣本上的函數值。
我想我理解了這個定義的大部分內容,但是函數獨立於樣本分佈的部分我無法理清。
到目前為止我對統計的理解
樣本是一組具有分佈 F 的獨立同分佈 (iid) 隨機變量的實現(一卷 20 面公平骰子的 10 個實現,5 卷 6 面公平骰子的 100 個實現,從人群中隨機抽取 100 人)。
一個函數,其域是該集合,其範圍是實數(或者它可以產生其他東西,如向量或其他數學對象……)將被視為statistic。
當我想到例子時,均值、中值、方差在這種情況下都是有意義的。它們是一組實現的函數(來自隨機樣本的血壓測量值)。我還可以看到線性回歸模型如何被視為統計數據 $ y_{i} = \alpha + \beta \cdot x_{i} $ - 這不只是一組實現的功能嗎?
我困惑的地方
假設我從上面的理解是正確的,我無法理解函數在哪裡可能不獨立於樣本的分佈。我一直在想一個例子來理解它,但沒有運氣。任何見解將不勝感激!
這個定義是一種有點尷尬的表述方式。“統計”是可觀察值的任何函數。該定義的所有含義是統計數據僅是可觀察值的函數,而不是分佈或其任何參數的函數。例如,如果 $ X_1, X_2, …, X_n \sim \text{N}(\mu, 1) $ 那麼統計數據將是任何函數 $ T(X_1,…,X_n) $ 而一個函數 $ H(X_1,….,X_n, \mu) $ 不會是統計數據,因為它取決於 $ \mu $ . 以下是一些進一步的例子:
$$ \begin{equation} \begin{aligned} \text{Statistic} & & & & & \bar{X}n = \frac{1}{n} \sum{i=1}^n X_i, \[12pt] \text{Statistic} & & & & & S_n^2 = \frac{1}{n} \sum_{i=1}^n (X_i - \bar{X}_n)^2, \[12pt] \text{Not a statistic} & & & & & D_n = \bar{X}_n - \mu, \[12pt] \text{Not a statistic} & & & & & p_i = \text{N}(x_i | \mu, 1), \[12pt] \text{Not a statistic} & & & & & Q = 10 \mu. \[12pt] \end{aligned} \end{equation} $$
每個統計量只是可觀察值的函數,而不是它們的分佈或其參數的函數。因此,沒有作為分佈或其參數函數的統計數據示例(任何此類函數都不是統計數據)。但是,重要的是要注意統計數據的分佈(與統計數據本身相反)通常取決於值的基本分佈。(對於除輔助統計數據以外的所有統計數據都是如此。)
那麼參數已知的函數呢?在下面的評論中,Alecos提出了一個很好的後續問題。使用參數的固定假設值的函數呢?例如,統計數據如何 $ \sqrt{n} (\bar{x} - \mu) $ 在哪裡 $ \mu = \mu_0 $ 被認為等於一個已知的假設值 $ \mu_0 \in \mathbb{R} $ . 這裡的函數確實是一個統計量,只要它是在適當的限制域上定義的。所以函數 $ H_0: \mathbb{R}^n \rightarrow \mathbb{R} $ 和 $ H_0(x_1,…,x_n) = \sqrt{n} (\bar{x} - \mu_0) $ 將是一個統計數據,但函數 $ H: \mathbb{R}^{n+1} \rightarrow \mathbb{R} $ 和 $ H(x_1,…,x_n, \mu) = \sqrt{n} (\bar{x} - \mu) $ 不會是統計數據。