使用加權/複雜調查數據進行機器學習
我對各種具有全國代表性的數據做了很多工作。這些數據源具有復雜的調查設計,因此分析需要指定分層和權重變量。在我研究領域內的數據源中,機器學習工具尚未應用於它們。一個明顯的原因是機器學習方法(目前)沒有考慮權重和分層變量。
加權/分層分析的目標是獲得調整後的人口估計,這與機器學習的目標/目的不同。人們對使用具有全國代表性的數據源並忽略權重和分層變量有什麼想法?換句話說,如果您回顧使用具有全國代表性的數據但忽略了權重和分層變量的機器學習研究,假設研究人員/作者對這個方法決定是先行的並且沒有提出任何主張,您會怎麼想?具有全國代表性的結果?
提前致謝!
我在一家醫療保健公司工作,在我們的成員滿意度團隊中不斷應用權重以將樣本與我們服務區域的人口相匹配。這對於旨在解釋變量之間關係大小的可解釋建模非常重要。我們還在其他任務中使用了大量 ML,但您似乎想知道在使用機器學習進行預測時這是否重要。
正如您所暗示的那樣,大多數機器學習技術的開發並不是為了解釋關係,而是為了預測目的。雖然有代表性的樣本很重要,但它可能並不重要……直到您的性能下降。
如果算法有足夠的樣本來學習受訪者類型,他們將能夠很好地預測新受訪者的類別(分類)/價值(回歸)。例如,如果您有一個包含 4 個變量(身高、體重、性別和年齡)的數據集,您選擇的算法將根據這些特徵學習某些類型的人。假設人口中的大多數人是女性,身高 5 英尺 4 英寸,35 歲,體重 130 磅(不是事實,只是順其自然),我們正在嘗試預測性別。現在假設我的樣本在比例上對這一人口統計的代表性較低, 但仍然有足夠高的這種類型的人 (N)。我們的模型已經了解了這種類型的人的樣子,儘管這種類型的人在我的樣本中沒有很好地代表。當我們的模型看到一個具有這些特徵的新人時,它將知道哪個標籤(性別)與該人最相關。如果我們的樣本顯示這些特徵與女性的相關性高於男性,並且與人群相匹配,那麼一切都很好。當樣本的結果變量不能很好地代表總體以預測不同的類別/值時,就會出現問題。
因此,歸根結底,在代表性數據上測試您的預測性 ML 模型是您可以找出是否有問題的地方。但是,我認為以這種有偏見的方式進行採樣以致預測會受到很大影響的情況很少見。如果在測試時準確度/kappa 統計量/AUC 較低或 RMSE 較高,那麼在您有足夠數據的情況下,您可能希望剔除那些過度代表感興趣的人口統計數據的人。