Large-Data

大數據究竟是什麼?

  • September 18, 2015

我曾多次被問到這個問題:

什麼是大數據?

學生和我的親戚都熱衷於統計和機器學習。

我找到了這個CV-post。我覺得我同意那裡唯一的答案。

維基百科頁面也有一些評論,但我不確定我是否真的同意那裡的一切。

編輯:( 我覺得維基百科頁面缺乏解釋解決這個問題的方法和我在下面提到的範式)

我最近參加了Emmanuel Candès的演講,他在演講中介紹了大數據范式作為

先收集數據稍後提問

這是與假設驅動研究的主要區別,在假設驅動研究中,您首先制定一個假設,然後收集數據來說明它。

他深入研究了量化數據窺探產生的假設的可靠性問題。我從他的演講中得到的主要內容是,我們確實需要開始控制FDR,他提出了仿製方法來做到這一點。

我認為 CV 應該對什麼是大數據以及您對它的定義有疑問。我覺得有這麼多不同的*“定義”*,如果對它的組成沒有普遍共識,很難真正理解它是什麼,或者向別人解釋它。

我覺得 Candès 提供的*“定義/範式/描述”*是最接近我同意的東西,你的想法是什麼?

**EDIT2:**我覺得答案應該提供的不僅僅是對數據本身的解釋。它應該是數據/方法/範式的組合。

**EDIT3:**我覺得這次對邁克爾喬丹的採訪也可以增加一些東西。

**EDIT4:**我決定選擇投票最高的答案作為正確答案。儘管我認為所有答案都為討論增添了一些東西,但我個人認為這更多是關於我們如何生成假設和處理數據的範式問題。我希望這個問題能為那些尋找什麼是大數據的人提供參考。我希望維基百科頁面將被更改,以進一步強調多重比較問題和 FDR 的控制。

我有幸參加了 RStudio 出名的 Hadley Wickham 博士的講座。他是這樣定義的

  • 大數據:無法容納在一台計算機上的內存中:> 1 TB
  • 中等數據:適合服務器上的內存:10 GB - 1 TB
  • 小數據:適合筆記本電腦的內存:< 10 GB

哈德利還認為,大多數數據至少可以簡化為可管理的問題,而極少數實際上是真正的大數據。他將此稱為“大數據海市蜃樓”。

  • 90% 可以通過子集/採樣/匯總簡化為中小型數據問題
  • 9% 可以減少到非常多的小數據問題
  • 1% 是不可約的大

幻燈片可以在這裡找到。

引用自:https://stats.stackexchange.com/questions/173060

comments powered by Disqus

相關問答