探索性數據分析 (EDA) 是否真的需要/有用
互聯網上有很多關於 EDA 以及每個人應該如何做以及它有多麼有用的指南,但是我在實踐中很少看到它,而且經常(在上述教程中)它堅持非常基本的東西。
- 數據維度
- 繪製特徵分佈
- 特徵之間的線性相關
- 缺失數據(插值、刪除等)
我不經常看到(在我有限的樣本量下)人們實際上在實踐中這樣做,特別是在特徵範圍為數十萬的較大數據集上,上述一些 EDA 技術似乎更多的是障礙而不是幫助。例如,我真的希望查看數百個特徵分佈圖嗎?
我不是以前訓練有素的數據科學家,我仍在學習。我想將此工具添加到我的工具包中,但除了互聯網上的人為示例之外,我很少在真實數據集上發現此類技術很有用。我通常會發現自己在一個圈子裡,我會稍微查看一下我的數據,對有用的東西做出一些假設,然後繼續對其進行建模。如果/當某些東西不起作用時,我通常會更好地了解要查看數據的哪些部分,從而在處理具有數百個特徵的大型數據集時節省我的時間。
如果有人可以推荐一個資源,我可以提高我在該領域的工作/應用知識,我也將不勝感激。我意識到這個問題更像是一個軟問題,但我確實覺得澄清這一點很重要。我希望以目前的形式,它可以被視為一個可以給出明確答案的問題。
我來自傳統的生物統計學/流行病學背景,EDA 絕對有用,儘管它並不意味著僅僅為了它而製作直方圖/相關圖。隨著機器學習和預測的卓越地位,我確實覺得這些天來實踐它的頻率越來越低。
如果您從事醫學統計/流行病學,那麼您通常會看到“矩形”數據集,即您的行對應於個體參與者的數據集,列是變量(機器學習術語中的特徵)。您通常只關注與您的問題相關的變量,通常不會超過十幾個。你當然有可能擁有更多。例如,您可能有隨時間收集的數據、生物標誌物,甚至是遺傳數據。在這些情況下,您需要首先找出處理這些數據的最佳實踐。通常這將涉及某種降維或總結。我們強調不要做的是將所有內容都放入機器學習模型中,看看它會產生什麼預測。換句話說,非常強調理解你的模型。
鑑於對理解模型的重視,EDA 是必不可少的,因為它可以幫助我們識別模型擬合中各種意外行為或偏差的原因。例如,您可能認為某個變量非常重要,但事實證明並非如此。您查看直方圖,您會發現其中絕大多數為 0。或者同樣,缺失數據中可能存在模式,您需要了解它們以及它們如何影響您的結果。
總而言之,EDA 不是您在進行主要分析之前就做的事情,然後就忘記了。這是您與主要分析一起繼續做的事情,以嘗試更好地理解圖片。