Multiple-Regression
我已經在回歸中使用了我的整個數據集,我不應該將其用作預測模型嗎?
在我工作的醫院,我們正在寫一篇關於患者的哪些變量可以預測他們是否會回來進行隨訪的論文。我們包括了諸如年齡、性別、從他們家到醫院的距離、受傷機制等變量。我們有大約 600 名患者要檢查,因此我們運行了一個多元邏輯回歸,結果是返回是/否,我們對數據集中的每個人(我們醫院有這種情況的每個人)都這樣做了。
好吧,我們寫了這篇論文,然後有人決定我們應該嘗試創建一個在線預測工具。你可以輸入一個病人的變量,它會根據我們之前的回歸模型返回一個關於病人是否會回來的猜測。為了幫助我創建一個在線預測工具,我使用 R 和 Shiny使用本教程,我注意到作者將他的數據分成訓練和測試集
問題是:我從來沒有這樣做過。閱讀諸如此類的評論我想我理解為什麼有人會拆分他們的數據,但我現在的問題是:
我可以/應該怎麼做?
- 我已經使用了我所有的數據。是否最好刪除我所做的一切,返回,拆分數據並重新開始?(我們沒有發表論文或任何東西)
- 我應該繼續嗎?可以為不拆分數據集提出論據嗎?
在這麼少的情況下,訓練/測試拆分沒有幫助。然後,您將失去訓練模型的能力和測試它的精度。
你到目前為止所做的一切都很好。您可以通過在數據的多個引導樣本上重複建模並評估這些模型在完整數據集上的性能來繼續估計模型在預測方面的效果。這是評估建模過程性能的公認方法。
一個警告:“他們是否會回來進行後續訪問”可能不是一個全有或全無的結果。如果您故意將考慮限制在固定時間段(例如 1 年)內返回,那可能沒問題,但一般來說,您可能還對他們返回的時間感興趣,並且您可能還想利用那些沒有返回的人提供的信息尚未在該固定時間段內進行跟踪。對於這類事情,您需要使用生存模型而不是邏輯回歸。