如何找到未在（插入）統計表中給出的值？

July 16, 2013

人們經常使用程序來獲取 p 值，但有時——無論出於何種原因——可能需要從一組表中獲取一個臨界值。

給定一個具有有限數量的顯著性水平和有限數量的自由度的統計表，我如何獲得其他顯著性水平或自由度的近似臨界值（例如, 卡方, 或表）？

也就是說，如何在表中的值“之間”找到值？

這個答案分為兩個主要部分：首先，使用線性插值，其次，使用變換進行更準確的插值。當可用表有限時，此處討論的方法適用於手動計算，但如果您正在實施計算機例程來生成 p 值，則應該使用更好的方法（如果手動完成時很乏味）。

如果您知道 z 檢驗的 10%（單尾）臨界值為 1.28，而 20% 臨界值為 0.84，則對 15% 臨界值的粗略猜測將介於 - (1.28+0.84) 之間/2 = 1.06（實際值為 1.0364），而 12.5% 的值可以猜測為介於 10% 值 (1.28+1.06)/2 = 1.17（實際值為 1.15+）之間。這正是線性插值所做的 - 但不是“中間”，而是查看兩個值之間的任何部分。

單變量線性插值

讓我們看一下簡單線性插值的情況。

所以我們有一些功能（比如說) 我們認為在我們試圖逼近的值附近是近似線性的，並且我們在我們想要的值的任一側都有一個函數值，例如，像這樣：

他們倆價值觀我們知道相距 12 (20-8)。看看如何-value（我們想要一個近似值-value for) 以 8:4 的比例（16-8 和 20-16）除以 12 的差異？也就是距離第一個的2/3-值到最後。如果關係是線性的，則 y 值的相應範圍將具有相同的比率。

所以應該與.

那是

重新排列：

統計表的示例：如果我們有一個 t 表，其中 12 df 的臨界值如下：

我們想要具有 12 df 和 0.025 的雙尾 alpha 的 t 的臨界值。也就是說，我們在該表的 0.02 和 0.05 行之間進行插值：

值在 ““ 是個我們希望使用線性插值來近似的值。（經過我的意思是a 的逆 cdf 的點分配。）

和以前一樣，將區間從到在比率到（IE) 和未知數-value 應該除以範圍到比例相同；等效地，發生一路上-範圍，所以未知-值應該出現一路上-範圍。

那是或等效地

實際答案是…這不是特別接近，因為我們正在逼近的函數在該範圍內不是非常接近線性（更接近它是）。

通過變換獲得更好的近似值

我們可以用其他函數形式代替線性插值；實際上，我們轉換到線性插值效果更好的尺度。在這種情況下，在尾部，許多列表中的臨界值更接近線性的顯著性水平。我們拿了之後s，我們像以前一樣簡單地應用線性插值。讓我們試試上面的例子：

現在

或等效地

這對引用的數字是正確的。這是因為 - 當我們以對數方式轉換 x 尺度時 - 關係幾乎是線性的：

事實上，從視覺上看，曲線（灰色）整齊地位於直線（藍色）的頂部。

在某些情況下，顯著性水平的logit () 可能在更廣泛的範圍內工作得很好，但通常不是必需的（我們通常只關心準確的臨界值，當足夠小效果很好）。

跨不同自由度的插值

, 卡方和表也有自由度，不是每個 df (-) 值列於表中。臨界值大多df 中的線性插值不能準確表示。實際上，通常情況下，表格值在 df 的倒數中是線性的，.

（在舊表中，您經常會看到使用的建議- 分子上的常數沒有區別，但在沒有計算器的日子裡更方便，因為 120 有很多因素，所以通常是整數，使計算更簡單。）

以下是逆插值對 5% 臨界值的執行方式之間和. 也就是說，只有端點參與插值. 例如，計算臨界值，我們採取（並註意這裡表示 cdf 的倒數）：

（此處與圖表比較）

大多數但並非總是如此。這是一個示例，其中 df 中的線性插值更好，並解釋瞭如何從表中判斷線性插值將是準確的。

這是一張卡方表
           Probability less than the critical value
df           0.90      0.95     0.975      0.99     0.999
______   __________________________________________________

40         51.805    55.758    59.342    63.691    73.402
50         63.167    67.505    71.420    76.154    86.661
60         74.397    79.082    83.298    88.379    99.607
70         85.527    90.531    95.023   100.425   112.317
想像一下，我們希望找到 57 個自由度的 5% 臨界值（第 95 個百分位數）。

仔細觀察，我們看到表中的 5% 臨界值在這裡幾乎呈線性增長：

（綠線連接 50 和 60 df 的值；您可以看到它觸及 40 和 70 的點）

所以線性插值會做得很好。但是我們當然沒有時間畫圖；如何決定何時使用線性插值以及何時嘗試更複雜的東西？

除了我們尋求的值的任一側，取下一個最接近的值（在本例中為 70）。如果中間列表值（df=60 的值）在最終值（50 和 70）之間接近線性，則線性插值將是合適的。在這種情況下，值是等距的，因此特別容易：相近?

我們發現，與 60 df 的實際值 79.082 相比，我們可以看到幾乎可以精確到三個完整的數字，這通常對於插值來說非常好，所以在這種情況下，你會堅持使用線性插值；隨著我們需要的值的更精細的步驟，我們現在期望有效地具有 3 位數的精度。

所以我們得到：或者

.

實際值是 75.62375，所以我們確實得到了 3 個數字的準確度，而在第四個數字中只差了 1 個。

通過使用有限差分法（特別是通過除法差分）仍然可以得到更精確的插值，但這對於大多數假設檢驗問題來說可能是多餘的。

如果您的自由度超出了表格的末端，則此問題將討論該問題。