如何從“大數據”中得出有效結論？

February 9, 2012

“大數據”在媒體中無處不在。每個人都說“大數據”是 2012 年的大事，例如KDNuggets 對 2012 年熱門話題的投票。但是，我對此深感擔憂。有了大數據，每個人似乎都樂於得到任何東西。但是我們不是違反了所有經典的統計原則，例如假設檢驗和代表性抽樣嗎？

只要我們只對同一數據集進行預測，這應該沒問題。因此，如果我使用 Twitter 數據來預測 Twitter 用戶行為，那可能沒問題。然而，使用 Twitter 數據來預測例如選舉完全忽略了 Twitter 用戶不是整個人口的代表性樣本這一事實。另外，大多數方法實際上無法區分真正的“草根”情緒和運動。推特上到處都是競選活動。因此，在分析 Twitter 時，您很快就只能衡量競選活動和機器人。（例如，參見“雅虎預測美國的政治贏家”這充滿了民意調查和“情緒分析要好得多”。他們預測“羅姆尼贏得提名和贏得南卡羅來納州初選的可能性超過 90%”（他有 28%，而金里奇在初選中有 40%）。

你知道其他這樣的大數據失敗了嗎？我大致記得一位科學家預測你不能維持超過 150 條友誼。他居然只在friendster裡發現了一個上限……

至於 twitter 數據，或者實際上是從網絡上收集的任何“大數據”，我相信人們通常會通過收集數據的方式引入額外的偏見。很少有人會擁有所有的 Twitter。他們將有一個他們蜘蛛的某個子集，這只是他們數據集中的另一個偏差。

將數據拆分為測試集或進行交叉驗證可能沒有多大幫助。另一組將具有相同的偏差。對於大數據，我需要大量“壓縮”我的信息，以至於我不太可能過度擬合。

我最近聽到這個笑話，大數據科學家發現世界上大約有 6 種性別……我可以想像會發生這種情況……“男性，女性，獸人，毛茸茸，是和否”。

那麼我們有什麼方法可以讓一些統計有效性回到分析中，特別是在試圖預測“大數據”數據集之外的東西時？

你的恐懼是有根據的和敏銳的。雅虎和可能還有其他幾家公司正在對用戶進行隨機實驗，並且做得很好。但是觀測數據充滿了困難。一個普遍的誤解是，隨著樣本量的增加，問題會減少。這對於方差來說是正確的，但隨著 n 的增加，偏差保持不變。當偏差很大時，一個非常小的真正隨機樣本或隨機研究可能比 100,000,000 次觀察更有價值。

引用自：https://stats.stackexchange.com/questions/22502

如何從“大數據”中得出有效結論？

相關問答

高維柯西分佈是什麼樣的？

為什麼我和我的同事對測試集和驗證集的定義相反？

在國際象棋數據上訓練神經網絡

將“外部”數據集添加到訓練數據集中通常有幫助嗎？[關閉]

探索性數據分析 (EDA) 是否真的需要/有用

實際上，獨立同分佈假設是否適用於絕大多數監督學習任務？