邏輯回歸的抽樣是否應該反映 1 和 0 的實際比率?
假設我想創建邏輯回歸模型,該模型可以根據樹木的特徵(fe 高度)估計一些生活在樹上的動物物種的發生概率。與往常一樣,我的時間和金錢是有限的,因此我只能收集有限的樣本量。
我有以下問題: **我的樣本中 1 和 0 的比率是否應該反映 1 和 0 的真實比率?(至少大約)**我注意到使用平衡樣本(1 和 0 的數量相等)執行邏輯回歸模型是一種常見的做法——但是這樣的模型給出了超現實的高發生概率——對嗎?
是否有任何文章/教科書可以用來支持這一概念,即不反映 1 和 0 真實比率的模型是“錯誤的”?
最後:*是否可以執行 1:1 採樣並隨後根據 Imai 等人的方法用*tau校正模型。2007 年?
Kosuke Imai、Gary King 和 Olivia Lau。2007. “relogit:二分因變量的罕見事件 Logistic 回歸”,Kosuke Imai、Gary King 和 Olivia Lau,“Zelig:每個人的統計軟件”,http://gking.harvard.edu/zelig。
點代表樹木(紅色 = 佔用,灰色 = 未佔用)。我能夠以 100% 的準確率(1)識別所有佔用的樹木,但我無法測量森林中的所有樹木。每個採樣策略(比率)的模型都不同。
如果此類模型的目標是預測,那麼您不能使用未加權邏輯回歸來預測結果:您將高估風險。邏輯模型的優勢在於優勢比 (OR)——衡量邏輯模型中風險因素和二元結果之間關聯的“斜率”——對於結果相關抽樣是不變的。因此,如果案例以 10:1、5:1、1:1、5:1、10:1 的比例與對照組進行抽樣,這並不重要:只要抽樣是無條件的,OR 在任何一種情況下都保持不變關於曝光(這將引入伯克森的偏見)。事實上,當完全簡單的隨機抽樣不會發生時,結果依賴抽樣是一種節省成本的努力。
為什麼風險預測會偏離使用邏輯模型的結果依賴抽樣?結果相關抽樣會影響邏輯模型中的截距。這導致 S 形關聯曲線“沿 x 軸向上滑動”,原因是在總體中的簡單隨機樣本中採樣一個病例的對數機率與在偽隨機樣本中採樣一個病例的對數機率的差異-您的實驗設計的總體。(因此,如果您有 1:1 的病例進行對照,則有 50% 的機會在這個偽總體中對病例進行抽樣)。在罕見的結果中,這是相當大的差異,是 2 或 3 倍。
當您談到此類模型“錯誤”時,您必須關注目標是推理(正確)還是預測(錯誤)。這也解決了結果與病例的比率。圍繞這個主題,您傾向於看到的語言是將此類研究稱為“案例控制”研究,該研究已被廣泛撰寫。也許我最喜歡的關於該主題的出版物是Breslow 和 Day,它作為一項具有里程碑意義的研究,描述了罕見癌症原因的風險因素(以前由於事件的罕見性而無法實施)。病例對照研究引發了圍繞對發現的頻繁誤解的一些爭議:特別是將 OR 與 RR(誇大發現)以及作為樣本和人群的中介的“研究基礎”混為一談,從而增強了發現。對他們進行了極好的批評。然而,沒有批評聲稱病例對照研究本質上是無效的,我的意思是你怎麼可能呢?他們在無數方面促進了公共衛生。Miettenen 的文章很好地指出,您甚至可以在結果依賴抽樣中使用相對風險模型或其他模型,並描述大多數情況下結果與總體水平發現之間的差異:它並沒有變得更糟,因為 OR 通常是一個硬參數解釋。
克服風險預測中過採樣偏差的最好和最簡單的方法可能是使用加權似然。 Scott 和 Wild討論了加權並表明它可以糾正截距項和模型的風險預測。當先驗了解人群中病例的比例時,這是最好的方法。如果結果的普遍性實際上是 1:100,並且您以 1:1 的方式對控制進行抽樣,您只需將控制加權 100 即可獲得總體一致的參數和無偏的風險預測。這種方法的缺點是,如果在其他地方進行了錯誤估計,它就不能解釋人口流行率的不確定性。這是一個巨大的開放研究領域,Lumley 和 Breslow提出了一些關於兩相採樣和雙重魯棒估計器的理論。我認為這是非常有趣的東西。Zelig 的程序似乎只是權重功能的一個實現(這似乎有點多餘,因為 R 的 glm 函數允許使用權重)。