多變量分層抽樣？

February 12, 2012

我對統計數據了解不多，所以我在這裡尋找一個起點。任何資源或見解都會有所幫助。

我正在進行一個電子學習實驗，學生觀看視頻，然後完成一項測量認知負荷和用戶滿意度的調查，然後他們完成一個簡短的評估來測試他們所學的內容。

由於學習中的預測試問題，我想按三個變量對實驗組進行分層：

先前檢查的結果

對課程的態度（通過調查衡量）

對電子學習的態度（通過調查衡量）

通過這樣做，我可以最大限度地減少每組之間的差異。

如果我按變量 1 進行分層，我可以確保每個組有相同數量的“A”學生、“B”學生等。

但是，鑑於我要控制三個變量，我不確定如何公平地將學生分組。我可以玩弄這些組，直到我把它們大致均勻，但我想知道是否有統計方法可以對多個變量進行分層？

謝謝。

請參閱我上面關於變量 2 和 3 是否真的可以用作分層的基礎的評論（除非您所指的調查與您現在討論的抽樣方法不同，否則它們不能）。

如果您嘗試根據三個分類變量選擇樣本，您很快就會遇到大量分層和復雜的抽樣和加權問題。您需要計算三維數組的每個單元格中的總體，其中每個單元格是三個變量的特定組合；然後指定要包含在調查中的人口比例（不需要每個單元格的比例相同）。作為樣本選擇過程的一部分，您還需要了解這三個變量上每個潛在樣本的值。

使用所有三個進行抽樣的替代方法可能是僅根據您的一個變量作為分層來選擇您的樣本，並通過分層後加權將另外兩個納入。此外，如果您使用raking技術，您可以解決人口數組中存在如此多“單元格”的問題，同時仍確保每個變量的每個總類別的權重（即，您的三維數組中的邊際總數）加起來是正確的數量，這有助於將標準誤差保持在合理的範圍內。

如果您正在進行後期分層（耙或其他），您仍然需要知道分類變量的總體值 - 這對於計算正確的權重至關重要。

如果我的懷疑是正確的，您並不真正知道變量 2 和 3 的總體值（需要通過調查來衡量），那麼您最好的選擇就是根據之前的檢查結果進行分層，然後僅根據該變量計算總體權重。

我發現 Thomas Lumley 的surveyR 包使用起來相對簡單，而且它具有免費的優勢。我會說這個或類似的東西對於體面的調查分析是必不可少的。它有一個很好的網站和一本更好的書——你可能需要拿到這本書或同等的書才能讓這一切變得有意義

引用自：https://stats.stackexchange.com/questions/22662

comments powered by Disqus

多變量分層抽樣？

相關問答

留一法交叉驗證 (LOOCV) 是否會系統地高估錯誤？

分層與隨機抽樣對生成分類訓練數據的好處

為什麼要使用分層交叉驗證？為什麼這不會損害與差異相關的利益？

使用加權/複雜調查數據進行機器學習

了解分層交叉驗證

使用隨機森林（或其他分類器）進行分層分類