Clustering
聚類作為邏輯回歸分割數據的一種手段
我試圖根據邏輯回歸模型的某些特徵來預測學生的成功或失敗。為了提高模型的性能,我已經考慮過根據明顯的差異將學生分成不同的組,並為每個組建立單獨的模型。但我認為通過考試可能很難識別這些群體,所以我想通過對學生的特徵進行聚類來劃分學生。這是構建此類模型的常見做法嗎?您是否建議我將其分解為明顯的組(例如,第一學期學生與返校學生),然後對這些組進行聚類,或者從一開始就進行聚類?
試圖澄清:
我的意思是我正在考慮使用聚類算法將我的邏輯回歸訓練集分成幾組。然後,我將對這些組中的每一個進行單獨的邏輯回歸。然後,當使用邏輯回歸來預測學生的結果時,我會根據他們最適合的群體來選擇要使用的模型。
也許我可以通過包含一個組標識符來做同樣的事情,例如,如果學生返回,則返回 1,否則返回 0。
現在您讓我思考,將訓練數據集聚類並將其聚類標籤用作邏輯回歸中的特徵,而不是為每個總體構建單獨的邏輯回歸模型是否有利。
如果為返校生和新生包含組標識符很有用,那麼擴展組列表是否也有用?聚類似乎是一種自然的方式來做到這一點。
我希望這很清楚…
我相信,如果您的集群之間的因變量存在顯著差異,那麼首先進行集群的方法肯定會有所幫助。無論您選擇哪種學習算法。
我認為在整個基礎上運行學習算法可以掩蓋較低聚合級別的有意義的差異。
任何人都聽說過辛普森悖論,這是一個更深層次問題的困難案例,在不同的組中存在不同的相關性,這些相關性被較大的樣本噪聲和/或較大組的較弱相關性所掩蓋。