Logistic
邏輯回歸中罕見事件的後果是什麼?
我知道樣本量會影響任何統計方法的功效。對於每個預測變量,回歸需要多少樣本,有一些規則。
我還經常聽到,邏輯回歸的因變量中每個類別的樣本數量很重要。為什麼是這樣?
當某一類別中的樣本數量很少(罕見事件)時,邏輯回歸模型的實際後果是什麼?
是否存在包含預測變量數量和因變量每個級別中的樣本數量的經驗法則?
線性(OLS) 回歸的標準經驗法則是您至少需要每個變量的數據,否則您將“接近”飽和度。但是,對於邏輯回歸,相應的經驗法則是您想要每個變量 的不太常見的類別的數據。
這裡的問題是二進制數據不包含與連續數據一樣多的信息。此外,如果你只有幾個實際事件,你可以用大量數據做出完美的預測。舉一個相當極端但應該立即清楚的例子,考慮一個你有,所以試圖擬合一個模型預測器,但只有事件。你甚至無法估計你的大多數人之間的關聯- 變量和.