Logistic

Mundlak 固定效應程序是否適用於帶假人的邏輯回歸?

  • April 6, 2013

我有一個包含 8000 個集群和 400 萬個觀測值的數據集。不幸的是,我的統計軟件 Stata 在使用其面板數據函數進行邏輯回歸時運行相當緩慢:xtlogit即使使用 10% 的子樣本。

但是,當使用非面板logit功能時,結果會更快出現。因此,我可能會受益於使用logit修改後的數據來解釋固定效應。

我相信這個程序被稱為“Mundlak 固定效應程序”(Mundlak, Y. 1978. Pooling of Time-Series and Cross-Section Data. Econometrica, 46(1), 69-85。)

我在Antonakis, J.、Bendahan, S.、Jacquart, P. 和 Lalive, R. (2010)的論文中找到了對該過程的直觀解釋。關於提出因果主張:審查和建議。領導季刊,21(6)。1086-1120。我引用:

解決遺漏固定效應問題並仍包含第 2 級變量的一種方法是在估計模型中包含所有第 1 級協變量的聚類均值(Mundlak,1978 年)。聚類均值可以作為回歸量包含在內,也可以從級別 1 協變量中減去(即聚類均值居中)。集群均值在集群內是不變的(並且在集群之間有所不同),並且允許對 1 級參數進行一致的估計,就像包含了固定效應一樣(參見 Rabe-Hesketh & Skrondal,2008)。

因此,聚類均值居中對於解決我的計算問題似乎是理想且實用的。然而,這些論文似乎面向線性回歸(OLS)。

這種聚類均值居中方法是否也適用於“複製”固定效應二元邏輯回歸?

應該得出相同答案的一個更具技術性的問題是:當數據集 B 是數據集 A 的聚類均值中心版本時,數據集 A 是否xtlogit depvar indepvars, fe等於數據集 B?logit depvar indepvars

我在這個聚類均值中心中發現的另一個困難是如何處理假人。因為虛擬變量是 0 或 1,它們在隨機和固定效應回歸中是否相同?他們不應該“居中”嗎?

在 logit 等模型中,一階差分或內變換(如貶低)不可用,因為在非線性模型的情況下,此類技巧不會消除未觀察到的固定效應。即使您有一個較小的數據集,其中可以包含 N-1 個單獨的虛擬變量來直接估計固定效應,這也會導致估計有偏差,除非您的數據的時間維度很大。因此,消除面板 logit 中的固定效應既不遵循差異也不貶低,並且僅由於 logit 函數形式才有可能。如果您對細節感興趣,您可以查看Söderbom 在 PDF 第 30 頁(解釋為什麼 logit/probit 中的貶低/一階差分沒有幫助)和第 42 頁(面板 logit 估計器介紹)上的這些註釋。

另一個問題是xtlogit面板 logit 模型通常不直接估計計算邊際效應所需的固定效應。沒有這些,解釋您的係數將非常尷尬,在運行模型數小時後可能會令人失望。

有了這麼大的數據集和前面提到的 FE 面板 logit 的概念困難,我會堅持使用線性概率模型。我希望這個答案不會讓你失望,但是給出這樣的建議有很多充分的理由:LPM 更快,係數可以立即解釋(如果你的模型中有交互效應,這尤其適用,因為它們的解釋非線性模型中的係數會發生變化!),固定效應很容易控制,您可以調整自相關和聚類的標準誤差,而無需超出合理的估計時間。我希望這有幫助。

引用自:https://stats.stackexchange.com/questions/55316

comments powered by Disqus