Machine-Learning
發現的高維、相關數據和主要特徵/協變量;多重假設檢驗?
我有一個包含大約 5,000 個通常相關的特徵/協變量和二元響應的數據集。數據是給我的,我沒有收集。我使用 Lasso 和梯度提升來構建模型。我使用迭代的、嵌套的交叉驗證。我報告了 Lasso 的最大(絕對)40 個係數和梯度提升樹中的 40 個最重要的特徵(40 個沒有什麼特別之處;它似乎只是一個合理的信息量)。我還報告了這些數量在 CV 的折疊和迭代中的方差。
我對“重要”特徵有點沉思,沒有對 p 值或因果關係或任何東西做任何陳述,而是認為這個過程是一種——儘管不完美和有點隨機——對某種現象的洞察。
假設我已經正確地完成了所有這些(例如,正確執行交叉驗證,縮放套索),這種方法是否合理?是否存在多重假設檢驗、事後分析、錯誤發現等問題?還是其他問題?
客觀的
預測不良事件的概率
- 首先,準確估計概率
- 更輕微的——作為一個健全性檢查,但也可能揭示一些可以進一步研究的新預測因子,檢查上面提到的係數和重要性。
消費者
- 有興趣預測此事件的研究人員以及如果該事件發生最終不得不修復該事件的人
我希望他們從中得到什麼
- 如果他們希望使用自己的數據重複建模過程,如所述,讓他們能夠預測事件。
- 揭示出乎意料的預測因素。例如,結果可能是完全出乎意料的事情是最好的預測指標。因此,其他地方的建模者可能會更認真地考慮所述預測器。
預測的準確性沒有問題。通過交叉驗證可以很好地估計您的預測中的不確定性。也許有一個警告,如果你測試了很多參數設置,那麼你就會高估準確度,所以你應該使用驗證集來估計最終模型的準確度。此外,您的數據應該代表您將要進行預測的數據。
你很清楚,讀者也應該清楚,你的預測器不是結果的原因,它們只是做出良好預測的預測器,並且在經驗上運行良好。雖然我完全同意你的謹慎,但從觀測數據推斷任何因果關係無論如何都是有問題的。諸如重要性之類的東西是精心設計的對照研究中的“有效”概念,除此之外,它們只是您和其他人應該明智和謹慎地解釋的工具。在具有報告置信區間的正常線性回歸中,以及在套索模型中,以及在梯度增強樹模型中,可能存在常見原因、虛假影響、掩蔽和其他事情。