Repeated-Measures

Xgboost 和重複措施

  • January 1, 2019

我正在學習 xgboost 併計劃運行樹模型。我的數據集包括重複測量。在 GLMM 中,我將包含 ID 以說明重複測量,我很好奇是否應該使用 xgboost 執行此操作。

另一種方法是將我的數據集從長數據集轉換為寬數據集(例如,每次測量項目時創建不同的列)。

如果我要刪除 ID 列並僅包含有意義的預測變量,我會違反 xgboost 樹模型的任何假設嗎?

您擔心使用集群數據然後忽略它們的繼承集群是正確的。這可能導致信息洩露,因為特定於集群/主題的方差模式可能會規定不能推廣到基礎人群的模式,即導致我們過度擬合我們的樣本數據。在這個程度上,完全忽略主題信息,同樣不能保護我們免於過度擬合;我們的學習者可能會自行檢測特定主題的模式。

此問題的部分解決方法相對簡單。我們不會完全隨機地分割我們的可用數據,而是我們設計訓練和測試集的方式是,來自同一主題的測量要么只存在於訓練中,要么只存在於測試集中。這很容易實現,因為我們只需要對主題進行採樣而不是原始測量。在訓練期間我們可能仍然會過度擬合特定主題的模式,但理論上這些會在測試期間受到懲罰,從而引導我們對我們的學習任務進行更普遍的表示。套用 Karpievitch 等人的說法。(2009 年)基於隨機森林的分類器的內省比較,用於通過 RF++ 分析聚類相關數據:這實際上是增長的想法“引導樣本(通過替換選擇的隨機樣本)上的每棵樹在主題級別而不是在訓練數據的複制級別“。

從理論上講,已經有一些工作特別是關於將 GBM 用於聚類數據(例如 Groll & Tutz (2012) Regularization for Generalized Additive Mixed Models by Likelihood-Based Boosting或 Miller et al. (2017) Gradient Boosting Machine for Hierarchically Clustered數據)我認為可以對你想要的東西有洞察力。這些工作的基本思想是,給定對我們的固定效應、隨機效應和方差分量(例如通過lme4::lmer)的一些初始估計,我們通過懲罰似然函數的梯度提升來計算新的固定和隨機效應的估計。然後考慮那些固定的,我們重新估計方差分量。然後我們多次這樣做,直到在EM中令人滿意地收斂喜歡的方法。

一般的一點是,固定效應和隨機效應之間的區別通常是方便和/或現有命名法的問題(有關更多詳細信息,請參閱主題:固定效應、隨機效應和混合效應模型之間的區別是什麼?)。根據特定的任務,某些因素可以被視為隨機的或固定的。我認為最重要的是確保我們不做出不合理的假設。

一些最終的藍天想法: 1. 有一個核心 ML 問題通過 GBM 解決並且與集群數據有關:學習排名。在這種情況下,查詢是分析單位,隨後的度量(例如,平均倒數排名(標準化)貼現累積增益)都與每個分析單位相關。你也可以從那裡得到一些想法。2. 有專門為聚類數據開發的回歸樹和隨機森林的實現(首先,參見 Hajjem 等人(2011) 混合效應回歸樹用於聚類數據和 Hajjem 等人(2014)分別用於聚類數據的混合效應隨機森林)。稍微簡單地說,我假設如果這些程序在提升框架中用作基礎學習器,那麼提升程序在與聚類數據一起使用時應該表現得一致。

引用自:https://stats.stackexchange.com/questions/385148

comments powered by Disqus