Survival

預測流失的生存模型 - 時變預測變量?

  • March 16, 2011

我正在尋求建立一個預測模型來預測客戶流失,並希望使用適合個人周期訓練數據集的離散時間生存模型(每個客戶一行和他們面臨風險的離散時期,事件指標 - 等於 1如果流失發生在那個時期,否則為 0)。

  • 我使用Singer 和 Willet 的技術使用普通邏輯回歸擬合模型。
  • 客戶流失可能在一個月內的任何地方發生,但只有在月底我們才知道(即在他們離開的那個月的某個時間)。24 個月用於培訓。
  • 使用的時間變量是樣本的原始時間 - 所有客戶在 2008 年 12 月 31 日活躍 - 他們都在 2009 年 1 月收到 t=0 (不是經典的方式,但我相信構建時的方式預測模型與傳統統計模型)。使用的協變量是客戶在該時間點的任期。
  • 構建了一系列協變量——一些不會在數據集的行中發生變化(對於給定的客戶),而另一些會發生變化。
  • 這些時變協變量是問題所在,是什麼導致我質疑流失預測的生存模型(與基於當前快照數據預測未來 x 個月的流失的常規分類器相比)。時不變的描述前一個月的活動,預計是重要的觸發因素。

這個預測模型的實現,至少基於我目前的想法,是在每個月底對客戶群進行評分,計算下個月某個時候流失的概率/風險。然後在接下來的 1,2 或 3 個月內再次。然後在接下來的 1、2、3、4、5、6 個月。對於 3 個月和 6 個月的流失概率,我將使用估計的生存曲線。

問題:

在考慮評分時,我如何結合時變預測變量?似乎我只能用時不變的預測器得分,或者包括那些時不變的,你必須讓它們時不變——設置為“現在”的值。

有人對這種生存模型的使用有經驗或想法嗎?

基於@JVM評論

的更新:問題不在於估計模型、解釋係數、使用訓練數據繪製有趣協變量值的危險/生存圖等。問題在於使用模型來預測給定客戶的風險。比如說在這個月底,我想給所有仍然是這個模型的活躍客戶的人打分。我想預測 x 個時期的風險估計(下個月底關閉賬戶的風險。從現在起兩個月底關閉賬戶的風險,等等)。如果存在隨時間變化的協變量,它們的值在任何未來時期都是未知的,那麼如何利用該模型?

最終更新:

人員周期數據集將為每個人以及他們面臨風險的每個時間段提供一個條目。假設有 J 個時間段(可能 J =1…24 24 個月)假設我構建了一個離散時間生存模型,為簡單起見,我們只是將時間 T 視為線性並有兩個協變量 X 和 Z,其中 X 是時間-invariant,這意味著它在第 i 個人的每個時期都是恆定的,Z 是隨時間變化的,這意味著第 i 個人的每條記錄都可以採用不同的值。例如,X 可能是客戶性別,Z 可能是他們上個月對公司的價值。第 i 個人在第 j 個時間段內的風險的 logit 模型為:

所以問題是,當使用隨時間變化的協變量,並使用新數據進行預測(到未知的未來)時,是未知的。

我能想到的唯一解決方案是:

  • 不要使用像 Z 這樣的隨時間變化的協變量。這會極大地削弱模型來預測流失事件,儘管例如,看到 Z 的下降會告訴我們客戶正在脫離並可能準備離開。
  • 使用時變協變量但滯後它們(如上面的 Z),這使我們能夠預測出我們滯後變量的多少時期(再次考慮模型對新當前數據的評分)。
  • 使用隨時間變化的協變量,但在預測中將它們保持為常數(因此該模型適用於變化的數據,但對於預測,我們將它們保持不變並模擬這些值的變化(如果後來實際觀察到)將如何影響流失風險。
  • 使用隨時間變化的協變量,但根據已知數據的預測估算它們的未來值。例如預測對於每個客戶。

謝謝你的澄清,B_Miner。我自己並沒有做太多的預測,所以對接下來的事情持懷疑態度。這至少是我對數據的第一次切割。

  • 首先,制定和估計一個模型來解釋你的 TVC。做所有的交叉驗證、錯誤檢查等,以確保你有一個合適的數據模型。
  • 其次,制定和估計生存模型(無論何種風格)。做所有的交叉驗證、錯誤檢查,以確保這個模型也是合理的。
  • 第三,確定一種使用 TVCs 模型的預測作為預測客戶流失風險的基礎的方法以及您想要的任何其他風險。再次使用您的樣本驗證預測是否合理。

一旦你有了一個你認為合理的模型,我會建議引導數據作為將第一個 TVC 模型中的錯誤合併到第二個模型中的一種方式。基本上,應用步驟 1-3 N 次,每次都從數據中獲取引導樣本並生成一組預測。當您有合理數量的預測時,以您認為適合您任務的任何方式對其進行總結;例如,提供每個個體或感興趣的協變量概況的平均流失風險以及 95% 的置信區間。

引用自:https://stats.stackexchange.com/questions/8375

comments powered by Disqus