Cross-Validation

交叉驗證可以用於因果推理嗎?

  • October 22, 2010

在所有情況下,我都熟悉交叉驗證,它僅用於提高預測準確性的目標。交叉驗證的邏輯可以擴展到估計變量之間的無偏關係嗎?

雖然Richard Berk 的這篇論文演示了在“最終”回歸模型中使用保留樣本進行參數選擇(並說明了為什麼逐步參數選擇不是一個好主意),但我仍然不明白這如何確保對 X 對 Y 的影響的無偏估計比根據主題的邏輯和先驗知識選擇模型更重要。

我要求人們引用一些例子,在這些例子中,有人使用保留樣本來幫助進行因果推理,或者可以幫助我理解的一般論文。我也不懷疑我對交叉驗證的概念是幼稚的,所以如果是這樣的話。似乎臨時使用保留樣本可以進行因果推理,但我不知道有任何工作可以做到這一點或他們將如何做到這一點。

伯克論文的引文:

模型選擇後的統計推斷 作者:Richard Berk、Lawrence Brown、Linda Zhao 定量犯罪學雜誌,Vol。26,第 2 期。(2010 年 6 月 1 日),第 217-236 頁。

PDF版本在這裡

chl 關於小樣本研究中探索性數據分析的這個問題提示了這個問題

我認為回顧一下我們對交叉驗證的了解很有用。圍繞 CV 的統計結果分為兩類:效率和一致性。

效率是我們在構建預測模型時通常關心的問題。我們的想法是,我們使用 CV 來確定具有關於損失函數的漸近保證的模型。這裡最著名的結果是由於Stone 1977,它表明 LOO CV 漸近地等價於 AIC。但是,Brett 提供了一個很好的示例,您可以在其中找到一個不會告知您因果機制的預測模型。

如果我們的目標是找到“真正的”模型,那麼一致性就是我們所關心的。這個想法是,我們使用 CV 來確定具有漸近保證的模型,假設我們的模型空間包含真實模型,我們將通過足夠大的樣本來發現它。這裡最著名的結果是Shao 1993關於線性模型的結果,但正如他在摘要中所說,他的“令人震驚的發現”與 LOO 的結果相反。對於線性模型,您可以使用 LKO CV 實現一致性,只要作為. 除了線性模型之外,更難得出統計結果。

但是假設您可以滿足一致性標準,並且您的 CV 程序導致了真正的模型:. 關於因果機制,我們學到了什麼?我們只知道兩者之間存在明確的相關性和,這並沒有說明因果關係。從傳統的角度來看,您需要引入具有控制/操縱機制的實驗設計來提出因果關係。從 Judea Pearl 框架的角度來看,您可以將因果假設烘焙到結構模型中,並使用基於概率的反事實演算來得出一些主張,但您需要滿足某些屬性

也許您可以說 CV 可以通過識別真實模型來幫助進行因果推理(前提是您可以滿足一致性標準!)。但它只能讓你走這麼遠;CV 本身並沒有在任何一個因果推理框架中做任何工作。

如果您對我們可以通過交叉驗證說的內容進一步感興趣,我會推薦 Shao 1997,而不是被廣泛引用的 1993 年論文:

您可以瀏覽主要結果,但閱讀下面的討論會很有趣。我認為 Rao & Tibshirani 和 Stone 的評論特別有見地。但請注意,雖然他們討論了一致性,但從未就因果關係提出任何主張。

引用自:https://stats.stackexchange.com/questions/3893

comments powered by Disqus