Hypothesis-Testing

如何找到未在(插入)統計表中給出的值?

  • July 16, 2013

人們經常使用程序來獲取 p 值,但有時——無論出於何種原因——可能需要從一組表中獲取一個臨界值。

給定一個具有有限數量的顯著性水平和有限數量的自由度的統計表,我如何獲得其他顯著性水平或自由度的近似臨界值(例如, 卡方, 或表)?

也就是說,如何在表中的值“之間”找到值?

這個答案分為兩個主要部分:首先,使用線性插值,其次,使用變換進行更準確的插值。當可用表有限時,此處討論的方法適用於手動計算,但如果您正在實施計算機例程來生成 p 值,則應該使用更好的方法(如果手動完成時很乏味)。

如果您知道 z 檢驗的 10%(單尾)臨界值為 1.28,而 20% 臨界值為 0.84,則對 15% 臨界值的粗略猜測將介於 - (1.28+0.84) 之間/2 = 1.06(實際值為 1.0364),而 12.5% 的值可以猜測為介於 10% 值 (1.28+1.06)/2 = 1.17(實際值為 1.15+)之間。這正是線性插值所做的 - 但不是“中間”,而是查看兩個值之間的任何部分。

單變量線性插值

讓我們看一下簡單線性插值的情況。

所以我們有一些功能(比如說) 我們認為在我們試圖逼近的值附近是近似線性的,並且我們在我們想要的值的任一側都有一個函數值,例如,像這樣:

他們倆價值觀我們知道相距 12 (20-8)。看看如何-value(我們想要一個近似值-value for) 以 8:4 的比例(16-8 和 20-16)除以 12 的差異?也就是距離第一個的2/3-值到最後。如果關係是線性的,則 y 值的相應範圍將具有相同的比率。

線性插值

所以應該與.

那是

重新排列:

統計表的示例:如果我們有一個 t 表,其中 12 df 的臨界值如下:

我們想要具有 12 df 和 0.025 的雙尾 alpha 的 t 的臨界值。也就是說,我們在該表的 0.02 和 0.05 行之間進行插值:

值在 ““ 是個我們希望使用線性插值來近似的值。(經過我的意思是a 的逆 cdf 的點分配。)

和以前一樣,將區間從到在比率到(IE) 和未知數-value 應該除以範圍到比例相同;等效地,發生一路上-範圍,所以未知-值應該出現 一路上-範圍。

那是或等效地

實際答案是…這不是特別接近,因為我們正在逼近的函數在該範圍內不是非常接近線性(更接近它是)。

t 表中臨界值的線性插值

通過變換獲得更好的近似值

我們可以用其他函數形式代替線性插值;實際上,我們轉換到線性插值效果更好的尺度。在這種情況下,在尾部,許多列表中的臨界值更接近線性的顯著性水平。我們拿了之後s,我們像以前一樣簡單地應用線性插值。讓我們試試上面的例子:

現在

或等效地

這對引用的數字是正確的。這是因為 - 當我們以對數方式轉換 x 尺度時 - 關係幾乎是線性的:

對數 alpha 中的線性插值

事實上,從視覺上看,曲線(灰色)整齊地位於直線(藍色)的頂部。

在某些情況下,顯著性水平的logit () 可能在更廣泛的範圍內工作得很好,但通常不是必需的(我們通常只關心準確的臨界值,當足夠小效果很好)。

跨不同自由度的插值

, 卡方和表也​​有自由度,不是每個 df (-) 值列於表中。臨界值大多df 中的線性插值不能準確表示。實際上,通常情況下,表格值在 df 的倒數中是線性的,.

(在舊表中,您經常會看到使用的建議- 分子上的常數沒有區別,但在沒有計算器的日子裡更方便,因為 120 有很多因素,所以通常是整數,使計算更簡單。)

以下是逆插值對 5% 臨界值的執行方式之間和. 也就是說,只有端點參與插值. 例如,計算臨界值,我們採取(並註意這裡表示 cdf 的倒數):

df中的逆插值

(此處與圖表比較)


大多數但並非總是如此。這是一個示例,其中 df 中的線性插值更好,並解釋瞭如何從表中判斷線性插值將是準確的。

這是一張卡方表

           Probability less than the critical value
df           0.90      0.95     0.975      0.99     0.999
______   __________________________________________________

40         51.805    55.758    59.342    63.691    73.402
50         63.167    67.505    71.420    76.154    86.661
60         74.397    79.082    83.298    88.379    99.607
70         85.527    90.531    95.023   100.425   112.317

想像一下,我們希望找到 57 個自由度的 5% 臨界值(第 95 個百分位數)。

仔細觀察,我們看到表中的 5% 臨界值在這裡幾乎呈線性增長:

在此處輸入圖像描述

(綠線連接 50 和 60 df 的值;您可以看到它觸及 40 和 70 的點)

所以線性插值會做得很好。但是我們當然沒有時間畫圖;如何決定何時使用線性插值以及何時嘗試更複雜的東西?

除了我們尋求的值的任一側,取下一個最接近的值(在本例中為 70)。如果中間列表值(df=60 的值)在最終值(50 和 70)之間接近線性,則線性插值將是合適的。在這種情況下,值是等距的,因此特別容易:相近?

我們發現,與 60 df 的實際值 79.082 相比,我們可以看到幾乎可以精確到三個完整的數字,這通常對於插值來說非常好,所以在這種情況下,你會堅持使用線性插值;隨著我們需要的值的更精細的步驟,我們現在期望有效地具有 3 位數的精度。

所以我們得到:或者

.

實際值是 75.62375,所以我們確實得到了 3 個數字的準確度,而在第四個數字中只差了 1 個。

通過使用有限差分法(特別是通過除法差分)仍然可以得到更精確的插值,但這對於大多數假設檢驗問題來說可能是多餘的。

如果您的自由度超出了表格的末端,則此問題將討論該問題。

引用自:https://stats.stackexchange.com/questions/64538

comments powered by Disqus