眾包數據的抽樣模型?
我正在開發一個開放式健康調查應用程序,計劃在發展中國家使用。
基本思想是調查訪談是眾包的——它們由無組織的志願者進行,他們使用移動設備提交他們進行的訪談的表格數據,每次調查都附有訪談地點的 GPS 數據。
政府機構編制的傳統調查通常使用一些標準抽樣模型(通常是概率抽樣模型)實施。這需要很多不能總是執行的集中計劃。(提到這一點是為了將我的問題放在正確的上下文中)
我們可以說,一名志願者將在他所在的地區實施便利抽樣。他會採訪他能接觸到的任意數量的人。
基本問題是:**如何理解和表徵這個測量系統的整體抽樣模型?**是否有任何方法或組合模型來處理此類情況?
**簡短回答:**這是一個方便的示例。你無法為它辯護。
一個更長的答案:您與許多運行內部調查的社交網絡處於同一條船上,但不知道誰會回答隨機出現在 Facebook 或 Google+ 上的單問題調查……除了與這些巨頭不同,您不知道沒有關於那些沒有回應的人的任何數據。調查和輿論研究界普遍不贊成這類工作,因為完全不清楚這些嚴重偏差樣本的結果如何推廣到總人口(如果有的話)。您可以嘗試根據已知的人口統計數據重新加權,但最終您會得到一個不同的權重,從僅代表自己的人的 1 到分配給人口中唯一知道如何使用計算機的 70 多位男性的 1,000,000 (無論如何,很可能不代表剩下的 1,000,000 名 70 歲以上的男性)。
附加閱讀:“如何利用統計數據撒謊”以關於有偏見的樣本的一章開頭。如果您可以閱讀它並且不會對您的示例設計感到沮喪,那麼您可以繼續前進。如果您依賴志願者,您的樣本將偏向於更容易獲得電子產品的年輕人和城市人口。同樣,美國統計協會前任主席弗里茨·舍倫(Fritz Scheuren)編寫的“什麼是調查”小冊子以哈里·杜魯門的照片開頭,當時存在的有偏見的民意調查技術無法預測他的勝利。
有一些關於難以接觸到的人群的研究。一個著名的項目是對伊拉克的超額死亡人數進行研究,其中對地理區域進行了抽樣調查,在每個區域,當地醫生會嘗試徵求城市街區每個家庭的採訪。這種設計受到了越來越多的批評,但無論它多麼妥協,它仍然有它的採樣組件。請參閱《柳葉刀》上的論文(您可能知道,您在醫學界再也沒有聲望了)http://dx.doi.org/10.1016/S0140-6736 (04)17441-2和http://dx.doi .org/10.1016/S0140-6736(06)69491-9。