Data-Mining

匯總和分析數據的最佳方法

  • July 26, 2010

最近剛開始自學機器學習和數據分析,我發現自己在創建和查詢大量數據的需求上遇到了障礙。我想收集我在職業和個人生活中積累的數據並對其進行分析,但我不確定執行以下操作的最佳方法:

  1. 我應該如何存儲這些數據?Excel?SQL???
  2. 初學者開始嘗試分析這些數據的好方法是什麼?我是一名專業的計算機程序員,所以復雜性不在於編寫程序,而是或多或少特定於數據分析領域。

編輯:為我的含糊道歉,當你第一次開始學習一些東西時,你很難知道你不知道什麼,你知道嗎?;)

話雖如此,我的目標是將其應用於兩個主要主題:

  1. 軟件團隊指標(考慮敏捷速度、量化風險、給定 x 個故事點成功完成迭代的可能性)
  2. 機器學習(例如,在給定的一組模塊中發生了系統異常,一個模塊在現場拋出異常的可能性有多大,成本是多少,數據可以告訴我哪些關鍵模塊需要改進)我最划算,預測用戶接下來要使用系統的哪個部分來開始加載數據等)。

如果您有大型數據集 - 使 Excel 或記事本加載緩慢的數據集,那麼數據庫是一個不錯的選擇。Postgres 是開源的並且製作精良,並且很容易與 JMP、SPSS 和其他程序連接。在這種情況下,您可能需要採樣。您不必規範化數據庫中的數據。否則,CSV 是共享友好的。

如果您有 100M+ 行,請考慮使用 Apache Hive。

在分析方面,這裡有一些起點:

描述一個變量:

  • 直方圖
  • 匯總統計數據(平均值、範圍、標準差、最小值、最大值等)
  • 有異常值嗎?(大於 1.5 倍四分位間距)
  • 它遵循什麼樣的分佈?(正常等)

描述變量之間的關係:

  • 散點圖
  • 相關性
  • 異常值?查看馬氏距離
  • 分類的馬賽克圖
  • 分類列聯表

預測一個實數(如價格):回歸

  • OLS 回歸或機器學習回歸技術
  • 當用於預測的技術可以被人類理解時,這稱為建模。例如,神經網絡可以做出預測,但通常是不可理解的。您也可以使用回歸來查找關鍵績效指標。

預測類成員或類成員的概率(如通過/失敗):分類

  • 邏輯回歸或機器學習技術,例如 SVM

將觀察結果放入“自然”組:聚類

  • 通常,人們通過計算它們之間的距離來找到“相似”的觀測值。

將屬性放入“自然”組:因式分解

  • 以及其他矩陣運算如 PCA、NMF

量化風險= 標準偏差,或“壞事”發生的次數 x 它們有多壞

給定 x 個故事點的成功完成迭代的可能性= 邏輯回歸

祝你好運!

引用自:https://stats.stackexchange.com/questions/645

comments powered by Disqus