探索性數據分析 (EDA) 是否真的需要/有用

March 19, 2020

互聯網上有很多關於 EDA 以及每個人應該如何做以及它有多麼有用的指南，但是我在實踐中很少看到它，而且經常（在上述教程中）它堅持非常基本的東西。

數據維度

繪製特徵分佈

特徵之間的線性相關

缺失數據（插值、刪除等）

我不經常看到（在我有限的樣本量下）人們實際上在實踐中這樣做，特別是在特徵範圍為數十萬的較大數據集上，上述一些 EDA 技術似乎更多的是障礙而不是幫助。例如，我真的希望查看數百個特徵分佈圖嗎？

我不是以前訓練有素的數據科學家，我仍在學習。我想將此工具添加到我的工具包中，但除了互聯網上的人為示例之外，我很少在真實數據集上發現此類技術很有用。我通常會發現自己在一個圈子裡，我會稍微查看一下我的數據，對有用的東西做出一些假設，然後繼續對其進行建模。如果/當某些東西不起作用時，我通常會更好地了解要查看數據的哪些部分，從而在處理具有數百個特徵的大型數據集時節省我的時間。

如果有人可以推荐一個資源，我可以提高我在該領域的工作/應用知識，我也將不勝感激。我意識到這個問題更像是一個軟問題，但我確實覺得澄清這一點很重要。我希望以目前的形式，它可以被視為一個可以給出明確答案的問題。

我來自傳統的生物統計學/流行病學背景，EDA 絕對有用，儘管它並不意味著僅僅為了它而製作直方圖/相關圖。隨著機器學習和預測的卓越地位，我確實覺得這些天來實踐它的頻率越來越低。

如果您從事醫學統計/流行病學，那麼您通常會看到“矩形”數據集，即您的行對應於個體參與者的數據集，列是變量（機器學習術語中的特徵）。您通常只關注與您的問題相關的變量，通常不會超過十幾個。你當然有可能擁有更多。例如，您可能有隨時間收集的數據、生物標誌物，甚至是遺傳數據。在這些情況下，您需要首先找出處理這些數據的最佳實踐。通常這將涉及某種降維或總結。我們強調不要做的是將所有內容都放入機器學習模型中，看看它會產生什麼預測。換句話說，非常強調理解你的模型。

鑑於對理解模型的重視，EDA 是必不可少的，因為它可以幫助我們識別模型擬合中各種意外行為或偏差的原因。例如，您可能認為某個變量非常重要，但事實證明並非如此。您查看直方圖，您會發現其中絕大多數為 0。或者同樣，缺失數據中可能存在模式，您需要了解它們以及它們如何影響您的結果。

總而言之，EDA 不是您在進行主要分析之前就做的事情，然後就忘記了。這是您與主要分析一起繼續做的事情，以嘗試更好地理解圖片。

引用自：https://stats.stackexchange.com/questions/454738

comments powered by Disqus

探索性數據分析 (EDA) 是否真的需要/有用

相關問答

“讓數據自己說話”的意圖是什麼？

為什麼 1 個中位數低於另一個中位數這一事實並不意味著第 1 組中的大多數人小於第 2 組中的大多數人？

保留對圖表的評論以進行探索性數據分析

只對訓練數據集進行探索性數據分析會更好嗎？

探索性數據分析中的德克薩斯神槍手謬誤

PCA /對應分析中的“馬蹄效應”和/或“拱形效應”是什麼？