眾包數據的抽樣模型？

April 16, 2012

我正在開發一個開放式健康調查應用程序，計劃在發展中國家使用。

基本思想是調查訪談是眾包的——它們由無組織的志願者進行，他們使用移動設備提交他們進行的訪談的表格數據，每次調查都附有訪談地點的 GPS 數據。

政府機構編制的傳統調查通常使用一些標準抽樣模型（通常是概率抽樣模型）實施。這需要很多不能總是執行的集中計劃。（提到這一點是為了將我的問題放在正確的上下文中）

我們可以說，一名志願者將在他所在的地區實施便利抽樣。他會採訪他能接觸到的任意數量的人。

基本問題是：**如何理解和表徵這個測量系統的整體抽樣模型？**是否有任何方法或組合模型來處理此類情況？

**簡短回答：**這是一個方便的示例。你無法為它辯護。

一個更長的答案：您與許多運行內部調查的社交網絡處於同一條船上，但不知道誰會回答隨機出現在 Facebook 或 Google+ 上的單問題調查……除了與這些巨頭不同，您不知道沒有關於那些沒有回應的人的任何數據。調查和輿論研究界普遍不贊成這類工作，因為完全不清楚這些嚴重偏差樣本的結果如何推廣到總人口（如果有的話）。您可以嘗試根據已知的人口統計數據重新加權，但最終您會得到一個不同的權重，從僅代表自己的人的 1 到分配給人口中唯一知道如何使用計算機的 70 多位男性的 1,000,000 （無論如何，很可能不代表剩下的 1,000,000 名 70 歲以上的男性）。

附加閱讀：“如何利用統計數據撒謊”以關於有偏見的樣本的一章開頭。如果您可以閱讀它並且不會對您的示例設計感到沮喪，那麼您可以繼續前進。如果您依賴志願者，您的樣本將偏向於更容易獲得電子產品的年輕人和城市人口。同樣，美國統計協會前任主席弗里茨·舍倫（Fritz Scheuren）編寫的“什麼是調查”小冊子以哈里·杜魯門的照片開頭，當時存在的有偏見的民意調查技術無法預測他的勝利。

有一些關於難以接觸到的人群的研究。一個著名的項目是對伊拉克的超額死亡人數進行研究，其中對地理區域進行了抽樣調查，在每個區域，當地醫生會嘗試徵求城市街區每個家庭的採訪。這種設計受到了越來越多的批評，但無論它多麼妥協，它仍然有它的採樣組件。請參閱《柳葉刀》上的論文（您可能知道，您在醫學界再也沒有聲望了）http://dx.doi.org/10.1016/S0140-6736 (04)17441-2和http://dx.doi .org/10.1016/S0140-6736(06)69491-9。

引用自：https://stats.stackexchange.com/questions/26549

comments powered by Disqus

眾包數據的抽樣模型？

相關問答