當結果變量不是病例/對照狀態時，估計病例對照設計中的邏輯回歸係數

July 10, 2013

考慮從一定規模的人口中抽樣數據通過以下方式：對於

觀察個人的“病”狀態

如果他們患有這種疾病，請將他們包括在樣本中

如果他們沒有患病，請盡可能將他們包括在內.

假設您觀察到一個二元結果變量和預測向量，為了以這種方式採樣的對象。結果變量不是“疾病”狀態。我想估計邏輯回歸模型的參數：

我關心的是（對數）優勢比，. 攔截與我無關。

我的問題是：我能得到合理的估計嗎？通過忽略抽樣概率,並像普通隨機樣本一樣擬合模型？

我幾乎可以肯定這個問題的答案是“是”。 我正在尋找的是驗證這一點的參考。

我對答案充滿信心的主要原因有兩個：

我做了很多模擬研究，沒有一個與此相矛盾，並且

很容易證明，如果總體由上述模型控制，那麼控制採樣數據的模型是

如果抽樣概率不依賴於, 那麼這將代表一個簡單的轉移到截距和點估計顯然不會受到影響。但是，如果每個人的偏移量不同，則此邏輯並不完全適用，因為您肯定會得到不同的點估計，儘管我懷疑有類似的情況。

相關： Prentice 和 Pyke (1979) 的經典論文說，來自病例對照（以疾病狀態作為結果）的邏輯回歸係數與從前瞻性研究中收集的係數具有相同的分佈。我懷疑同樣的結果也適用於此，但我必須承認我並不完全理解論文的每一部分。

提前感謝您的任何評論/參考。

這是計量經濟學中選擇模型的一種變體。此處僅使用所選樣本的估計的有效性取決於以下條件： . 這裡是的疾病狀態。

要提供更多詳細信息，請定義以下符號：和;指的是事件在樣本中。此外，假設獨立於為簡單起見。

的概率對於一個單位在樣本中是

由迭代預期定律。假設以疾病狀態為條件和其他協變量，結果獨立於. 結果，我們有

很容易看出

這裡和定義為您的抽樣方案。因此，

如果，我們有

並且可以省略樣本選擇問題。另一方面，如果,

一般來說。作為一個特例，考慮 logit 模型，

即使當和是恆定的, 結果分佈不會保持 logit 形式。更重要的是，參數的解釋會完全不同。希望上述論點有助於澄清您的問題。很想包括作為一個額外的解釋變量，並根據. 證明使用的有效性, 我們需要證明, 這等價於條件是一個充分的統計量. 如果沒有有關您的採樣過程的更多信息，我不確定是否屬實。讓我們使用抽象符號。可觀察性變量可以看作是隨機函數和其他隨機變量，比如說. 表示. 如果獨立於有條件的和，我們有根據獨立性的定義。然而，如果不獨立於調理後和, 直觀地包含了一些相關信息 , 通常不期望. 因此，在“然而”的情況下，對樣本選擇的無知可能會誤導推理。我對計量經濟學中的樣本選擇文獻不是很熟悉。我建議Microeconometrics: methods and applications' by Cameron and Trivedi (especially the Roy model in that chapter). Also G. S. Maddala's classic book《計量經濟學中的有限依賴和定性變量》第 16 章是對樣本選擇和離散結果問題的系統處理。

引用自：https://stats.stackexchange.com/questions/63952

comments powered by Disqus

當結果變量不是病例/對照狀態時，估計病例對照設計中的邏輯回歸係數

相關問答

下採樣會改變邏輯回歸係數嗎？

帶有元分析的頻率論方法和貝葉斯方法有什麼區別？

病例對照研究中的最佳病例/對照比