如何從“大數據”中得出有效結論?
“大數據”在媒體中無處不在。每個人都說“大數據”是 2012 年的大事,例如KDNuggets 對 2012 年熱門話題的投票。但是,我對此深感擔憂。有了大數據,每個人似乎都樂於得到任何東西。但是我們不是違反了所有經典的統計原則,例如假設檢驗和代表性抽樣嗎?
只要我們只對同一數據集進行預測,這應該沒問題。因此,如果我使用 Twitter 數據來預測 Twitter 用戶行為,那可能沒問題。然而,使用 Twitter 數據來預測例如選舉完全忽略了 Twitter 用戶不是整個人口的代表性樣本這一事實。另外,大多數方法實際上無法區分真正的“草根”情緒和運動。推特上到處都是競選活動。因此,在分析 Twitter 時,您很快就只能衡量競選活動和機器人。(例如,參見“雅虎預測美國的政治贏家”這充滿了民意調查和“情緒分析要好得多”。他們預測“羅姆尼贏得提名和贏得南卡羅來納州初選的可能性超過 90%”(他有 28%,而金里奇在初選中有 40%)。
你知道其他這樣的大數據失敗了嗎?我大致記得一位科學家預測你不能維持超過 150 條友誼。他居然只在friendster裡發現了一個上限……
至於 twitter 數據,或者實際上是從網絡上收集的任何“大數據”,我相信人們通常會通過收集數據的方式引入額外的偏見。很少有人會擁有所有的 Twitter。他們將有一個他們蜘蛛的某個子集,這只是他們數據集中的另一個偏差。
將數據拆分為測試集或進行交叉驗證可能沒有多大幫助。另一組將具有相同的偏差。對於大數據,我需要大量“壓縮”我的信息,以至於我不太可能過度擬合。
我最近聽到這個笑話,大數據科學家發現世界上大約有 6 種性別……我可以想像會發生這種情況……“男性,女性,獸人,毛茸茸,是和否”。
那麼我們有什麼方法可以讓一些統計有效性回到分析中,特別是在試圖預測“大數據”數據集之外的東西時?
你的恐懼是有根據的和敏銳的。雅虎和可能還有其他幾家公司正在對用戶進行隨機實驗,並且做得很好。但是觀測數據充滿了困難。一個普遍的誤解是,隨著樣本量的增加,問題會減少。這對於方差來說是正確的,但隨著 n 的增加,偏差保持不變。當偏差很大時,一個非常小的真正隨機樣本或隨機研究可能比 100,000,000 次觀察更有價值。