Hypothesis-Testing

為什麼 Wilks 1938 年的證明對錯誤指定的模型不起作用?

  • June 19, 2014

在 1938 年的著名論文(“ The large-sample distribution of thelikelihood ratio for testing complex hypotheses ”,Annals of Mathematical Statistics,9:60-62)中,Samuel Wilks 推導出了(對數似然比)用於嵌套假設,假設正確指定了較大的假設。極限分佈是(卡方)與自由度,其中是較大假設中的參數數量,並且是嵌套假設中自由參數的數量。然而,眾所周知,當假設被錯誤指定時(即,當較大的假設不是採樣數據的真實分佈時),該結果不成立。

誰能解釋為什麼?在我看來,威爾克斯的證明在稍作修改後仍應有效。它依賴於最大似然估計 (MLE) 的漸近正態性,這仍然適用於錯誤指定的模型。唯一的區別是限制多元正態的協方差矩陣:對於正確指定的模型,我們可以用逆費舍爾信息矩陣來近似協方差矩陣,如果指定錯誤,我們可以使用協方差矩陣的三明治估計()。當正確指定模型時,後者簡化為 Fisher 信息矩陣的逆矩陣(因為)。AFAICT,威爾克斯證明不關心協方差矩陣的估計來自哪裡,只要我們有 MLE 的多元正態的可逆漸近協方差矩陣(在威爾克斯的論文中)。

RV Foutz 和 RC Srivastava 詳細研究了這個問題。他們 1977 年的論文“模型不正確時似然比檢驗的性能”包含了對錯誤指定情況下的分佈結果的陳述以及非常簡短的證明草圖,而他們 1978 年的論文“當模型不正確時似然比的漸近分佈”模型不正確”包含證明——但後者是用老式打字機輸入的(儘管兩篇論文使用相同的符號,因此您可以將它們結合起來閱讀)。此外,對於證明的某些步驟,他們參考了 KP Roy 於 1957 年發表的一篇論文“關於似然比的漸近分佈的說明”,該論文似乎無法在線獲得,甚至是封閉的。

在分佈錯誤指定的情況下,如果 MLE 仍然一致且漸近正態(並非總是如此),則 LR 統計量漸近遵循獨立卡方的線性組合(每個自由度)

在哪裡. 可以看到“相似性”:而不是一個卡方與自由度,我們有卡方每個都有一個自由度。但是“類比”到此為止,因為卡方的線性組合沒有閉合形式的密度。每個縮放的卡方都是一個伽瑪,但具有不同的導致伽馬的不同比例參數的參數 - 並且這些伽馬的總和不是封閉形式的,儘管可以計算其值。

為了常數,我們有,它們是矩陣的特徵值……哪個矩陣?好吧,使用作者符號,設置成為對數似然的 Hessian 矩陣和是對數似然梯度的外積(以期望的形式)。所以是 MLE 的漸近方差-協方差矩陣。

然後設置成為上對角線塊.

也寫塊狀

並設置(是 Schur Complement 的負數)。

然後是矩陣的特徵值在參數的真實值進行評估。

附錄

回應評論中OP的有效評論(有時,確實,問題成為分享更一般結果的跳板,並且在此過程中可能會被忽略),以下是Wilks的證明過程:Wilks從聯合開始MLE 的正態分佈,並繼續推導似然比的函數表達式。高達並包括他的情商。,即使我們假設我們存在分佈錯誤,證明也可以繼續進行:正如 OP 所指出的,方差協方差矩陣的項在錯誤指定的情況下會有所不同,但 Wilks 所做的只是取導數,並識別漸近可忽略的項. 所以他到達了eq。我們看到,如果規范正確,似然比統計量只是以下各項的總和平方標準正態隨機變量,因此它們分佈為一個卡方自由度:(通用符號)

但是,如果我們有錯誤的說明,那麼用於縮放居中和放大的 MLE 的術語不再是使每個元素的方差等於單位的項,因此將每個項轉換為標準正態 rv 並將總和轉換為卡方。

事實並非如此,因為這些項涉及對數似然二階導數的期望值……但期望值只能相對於真實分佈取,因為 MLE 是數據的函數,並且數據遵循真實分佈,而對數似然的二階導數是基於錯誤的密度假設計算的。

所以在錯誤的規格下,我們有類似的東西

我們能做的最好的就是把它操縱成

它是縮放的卡方 rv 的總和,不再作為一個卡方 rv 分佈自由程度。OP提供的參考確實是對這種更一般情況的非常清楚的闡述,其中包括威爾克斯的結果作為特例。

引用自:https://stats.stackexchange.com/questions/103939

comments powered by Disqus