Data-Mining

數據挖掘和統計分析有什麼區別?

  • August 11, 2010

數據挖掘和統計分析有什麼區別?

在某些背景下,我認為我的統計教育是相當傳統的。提出一個特定的問題,設計研究,收集和分析數據以提供對該問題的一些見解。因此,我一直對我認為的“數據挖掘”持懷疑態度,即在大型數據集中尋找模式並使用這些模式得出結論。我傾向於將後者與數據挖掘聯繫起來,並且一直認為這有點無原則(以及算法變量選擇例程之類的東西)。

儘管如此,關於數據挖掘的文獻數量龐大且不斷增長。通常,我看到這個標籤指的是特定的技術,如聚類、基於樹的分類等。然而,至少從我的角度來看,這些技術可以“鬆散”在一組數據上,或者以結構化的方式用於解決問題。我稱前者為數據挖掘,後者為統計分析。

我從事學術管理工作,並被要求進行一些“數據挖掘”以識別問題和機會。與我的背景一致,我的第一個問題是:您想學習什麼以及您認為哪些事情有助於解決問題?從他們的回答中,很明顯我和提問的人對數據挖掘的性質和價值有不同的看法。

杰羅姆弗里德曼不久前寫了一篇論文:數據挖掘和統計:有什麼聯繫?,我想你會覺得很有趣。

數據挖掘在很大程度上是一個商業問題,由業務需求驅動(加上供應商向企業銷售軟件和硬件系統的“需求”)。弗里德曼指出的一件事是,所有被大肆宣傳的“特徵”都源於統計之外——從神經網絡等算法和方法到 GUI 驅動的數據分析——而傳統的統計產品似乎都不是這些系統的一部分(回歸、假設檢驗等)。“我們的核心方法在很大程度上被忽視了。” 它也按照您所說的以用戶驅動的方式出售:這是我的數據,這是我的“業務問題”,給我一個答案。

我認為弗里德曼試圖挑釁。他不認為數據挖掘在方法論方面具有重要的知識基礎,但這種情況會改變,統計學家應該發揮作用而不是忽視它。

我自己的印像是,這或多或少發生了。線條已經模糊。統計學家現在在數據挖掘期刊上發表文章。如今,數據挖掘者似乎接受了某種統計培訓。雖然數據挖掘包仍然沒有大肆宣傳廣義線性模型,但邏輯回歸在分析師中是眾所周知的——除了聚類和神經網絡。最佳實驗設計可能不是數據挖掘核心的一部分,但可以哄騙軟件吐出 p 值。進步!

引用自:https://stats.stackexchange.com/questions/1521

comments powered by Disqus