當結果變量不是病例/對照狀態時,估計病例對照設計中的邏輯回歸係數
考慮從一定規模的人口中抽樣數據通過以下方式:對於
- 觀察個人的“病”狀態
- 如果他們患有這種疾病,請將他們包括在樣本中
- 如果他們沒有患病,請盡可能將他們包括在內.
假設您觀察到一個二元結果變量和預測向量, 為了以這種方式採樣的對象。結果變量不是“疾病”狀態。我想估計邏輯回歸模型的參數:
我關心的是(對數)優勢比,. 攔截與我無關。
我的問題是:我能得到合理的估計嗎?通過忽略抽樣概率,並像普通隨機樣本一樣擬合模型?
我幾乎可以肯定這個問題的答案是“是”。 我正在尋找的是驗證這一點的參考。
我對答案充滿信心的主要原因有兩個:
- 我做了很多模擬研究,沒有一個與此相矛盾,並且
- 很容易證明,如果總體由上述模型控制,那麼控制採樣數據的模型是
如果抽樣概率不依賴於, 那麼這將代表一個簡單的轉移到截距和點估計顯然不會受到影響。但是,如果每個人的偏移量不同,則此邏輯並不完全適用,因為您肯定會得到不同的點估計,儘管我懷疑有類似的情況。
相關: Prentice 和 Pyke (1979) 的經典論文說,來自病例對照(以疾病狀態作為結果)的邏輯回歸係數與從前瞻性研究中收集的係數具有相同的分佈。我懷疑同樣的結果也適用於此,但我必須承認我並不完全理解論文的每一部分。
提前感謝您的任何評論/參考。
這是計量經濟學中選擇模型的一種變體。此處僅使用所選樣本的估計的有效性取決於以下條件: . 這裡是的疾病狀態。
要提供更多詳細信息,請定義以下符號: 和;指的是事件在樣本中。此外,假設獨立於為簡單起見。
的概率對於一個單位在樣本中是
由迭代預期定律。假設以疾病狀態為條件和其他協變量, 結果 獨立於. 結果,我們有
很容易看出
這裡和定義為您的抽樣方案。因此,
如果, 我們有
並且可以省略樣本選擇問題。另一方面,如果,
一般來說。作為一個特例,考慮 logit 模型,
即使當和是恆定的, 結果分佈不會保持 logit 形式。更重要的是,參數的解釋會完全不同。希望上述論點有助於澄清您的問題。 很想包括作為一個額外的解釋變量,並根據. 證明使用的有效性, 我們需要證明, 這等價於條件是一個充分的統計量. 如果沒有有關您的採樣過程的更多信息,我不確定是否屬實。讓我們使用抽象符號。可觀察性變量可以看作是隨機函數和其他隨機變量,比如說. 表示. 如果 獨立於有條件的和, 我們有 根據獨立性的定義。然而,如果不獨立於調理後和, 直觀地包含了一些相關信息 , 通常不期望. 因此,在“然而”的情況下,對樣本選擇的無知可能會誤導推理。我對計量經濟學中的樣本選擇文獻不是很熟悉。我建議
Microeconometrics: methods and applications' by Cameron and Trivedi (especially the Roy model in that chapter). Also G. S. Maddala's classic book
《計量經濟學中的有限依賴和定性變量》第 16 章是對樣本選擇和離散結果問題的系統處理。