採樣在“大數據”時代是否相關?
或者更“會”?大數據使統計和相關知識變得更加重要,但似乎低估了抽樣理論。
我看到了圍繞“大數據”的炒作,不禁想知道“為什麼”我要分析所有內容?難道沒有理由設計/實施/發明/發現“抽樣理論”嗎?我不明白分析數據集的整個“人口”的意義。僅僅因為你能做到並不意味著你應該(愚蠢是一種特權,但你不應該濫用它:)
所以我的問題是:分析整個數據集在統計上是否相關?如果您進行採樣,您能做的最好的事情就是盡量減少錯誤。但是,最小化該錯誤的成本真的值得嗎?“信息的價值”真的值得在大規模並行計算機上分析大數據所付出的努力、時間成本等嗎?
即使分析整個人群,結果充其量也只是一個正確概率較高的猜測。可能比抽樣高一點(或者會更多?)從分析總體與分析樣本中獲得的洞察力是否會有很大差異?
還是我們應該接受它作為“時代變了”?考慮到足夠的計算能力,採樣作為一項活動可能變得不那麼重要:)
注意:我不是要開始辯論,而是要尋找答案來理解為什麼大數據會做它所做的事情(即分析一切)並無視抽樣理論(或者它沒有?)
總之,是的。我相信在“大數據”世界之內和之外,仍然存在適合採樣的明確情況,但大數據的性質肯定會改變我們的採樣方法,我們將使用更多的數據集,這些數據集幾乎完整地代表了底層數據。人口。
**關於抽樣:**根據具體情況,抽樣是否適合做幾乎總是很清楚的。抽樣並非天生有益的活動;這正是我們所做的,因為我們需要權衡實施數據收集的成本。我們正在嘗試對人群進行表徵,並且需要選擇適當的方法來收集和分析有關人群的數據。當數據收集或數據處理方法的邊際成本很高時,抽樣是有意義的。在這種情況下,試圖覆蓋 100% 的人口並不是對資源的一種很好的利用,因為你通常最好解決諸如無響應偏差之類的問題,而不是對隨機抽樣誤差進行微小的改進。
大數據有何不同?“大數據”解決了我們多年來一直存在的許多相同問題,但“新”是數據收集發生在現有的計算機中介過程中,因此收集數據的邊際成本基本上為零。這大大減少了我們對採樣的需求。
**我們什麼時候還會使用採樣?**如果您的“大數據”群體是解決問題的正確群體,那麼您只會在少數情況下使用抽樣:需要運行單獨的實驗組,或者如果數據量太大而無法捕獲和處理(許多我們現在可以輕鬆處理數百萬行數據,因此這裡的邊界越來越遠)。如果我似乎在忽略您的問題,那可能是因為我很少遇到數據量在收集或處理階段成為問題的情況,儘管我知道很多人有
對我來說似乎很難的情況是,當您的“大數據”人群不能完美地代表您的目標人群時,因此需要權衡取捨。假設您是區域交通規劃師,Google 提供了訪問其 Android GPS 導航日誌的權限以幫助您。雖然使用該數據集無疑會很有趣,但人口可能會系統地偏向低收入、公共交通用戶和老年人。在這種情況下,發送給隨機家庭樣本的傳統旅行日記雖然成本更高且數量更少,但仍可能是更好的數據收集方法。但是,這不僅僅是“採樣與大數據”的問題,它'