採樣在“大數據”時代是否相關？

September 9, 2012

或者更“會”？大數據使統計和相關知識變得更加重要，但似乎低估了抽樣理論。

我看到了圍繞“大數據”的炒作，不禁想知道“為什麼”我要分析所有內容？難道沒有理由設計/實施/發明/發現“抽樣理論”嗎？我不明白分析數據集的整個“人口”的意義。僅僅因為你能做到並不意味著你應該（愚蠢是一種特權，但你不應該濫用它:)

所以我的問題是：分析整個數據集在統計上是否相關？如果您進行採樣，您能做的最好的事情就是盡量減少錯誤。但是，最小化該錯誤的成本真的值得嗎？“信息的價值”真的值得在大規模並行計算機上分析大數據所付出的努力、時間成本等嗎？

即使分析整個人群，結果充其量也只是一個正確概率較高的猜測。可能比抽樣高一點（或者會更多？）從分析總體與分析樣本中獲得的洞察力是否會有很大差異？

還是我們應該接受它作為“時代變了”？考慮到足夠的計算能力，採樣作為一項活動可能變得不那麼重要:)

注意：我不是要開始辯論，而是要尋找答案來理解為什麼大數據會做它所做的事情（即分析一切）並無視抽樣理論（或者它沒有？）

總之，是的。我相信在“大數據”世界之內和之外，仍然存在適合採樣的明確情況，但大數據的性質肯定會改變我們的採樣方法，我們將使用更多的數據集，這些數據集幾乎完整地代表了底層數據。人口。

**關於抽樣：**根據具體情況，抽樣是否適合做幾乎總是很清楚的。抽樣並非天生有益的活動；這正是我們所做的，因為我們需要權衡實施數據收集的成本。我們正在嘗試對人群進行表徵，並且需要選擇適當的方法來收集和分析有關人群的數據。當數據收集或數據處理方法的邊際成本很高時，抽樣是有意義的。在這種情況下，試圖覆蓋 100% 的人口並不是對資源的一種很好的利用，因為你通常最好解決諸如無響應偏差之類的問題，而不是對隨機抽樣誤差進行微小的改進。

大數據有何不同？“大數據”解決了我們多年來一直存在的許多相同問題，但“新”是數據收集發生在現有的計算機中介過程中，因此收集數據的邊際成本基本上為零。這大大減少了我們對採樣的需求。

**我們什麼時候還會使用採樣？**如果您的“大數據”群體是解決問題的正確群體，那麼您只會在少數情況下使用抽樣：需要運行單獨的實驗組，或者如果數據量太大而無法捕獲和處理（許多我們現在可以輕鬆處理數百萬行數據，因此這裡的邊界越來越遠）。如果我似乎在忽略您的問題，那可能是因為我很少遇到數據量在收集或處理階段成為問題的情況，儘管我知道很多人有

對我來說似乎很難的情況是，當您的“大數據”人群不能完美地代表您的目標人群時，因此需要權衡取捨。假設您是區域交通規劃師，Google 提供了訪問其 Android GPS 導航日誌的權限以幫助您。雖然使用該數據集無疑會很有趣，但人口可能會系統地偏向低收入、公共交通用戶和老年人。在這種情況下，發送給隨機家庭樣本的傳統旅行日記雖然成本更高且數量更少，但仍可能是更好的數據收集方法。但是，這不僅僅是“採樣與大數據”的問題，它'

引用自：https://stats.stackexchange.com/questions/35971

comments powered by Disqus

採樣在“大數據”時代是否相關？

相關問答

高維柯西分佈是什麼樣的？

在國際象棋數據上訓練神經網絡

探索性數據分析 (EDA) 是否真的需要/有用

使用 XGBoost 時二進制特徵的一種熱編碼

先驗分佈和先驗預測分佈的區別？

如果樣本量很大，Kolmogorov-Smirnov-Test 是否過於嚴格？