Data-Mining
匯總和分析數據的最佳方法
最近剛開始自學機器學習和數據分析,我發現自己在創建和查詢大量數據的需求上遇到了障礙。我想收集我在職業和個人生活中積累的數據並對其進行分析,但我不確定執行以下操作的最佳方法:
- 我應該如何存儲這些數據?Excel?SQL???
- 初學者開始嘗試分析這些數據的好方法是什麼?我是一名專業的計算機程序員,所以復雜性不在於編寫程序,而是或多或少特定於數據分析領域。
編輯:為我的含糊道歉,當你第一次開始學習一些東西時,你很難知道你不知道什麼,你知道嗎?;)
話雖如此,我的目標是將其應用於兩個主要主題:
- 軟件團隊指標(考慮敏捷速度、量化風險、給定 x 個故事點成功完成迭代的可能性)
- 機器學習(例如,在給定的一組模塊中發生了系統異常,一個模塊在現場拋出異常的可能性有多大,成本是多少,數據可以告訴我哪些關鍵模塊需要改進)我最划算,預測用戶接下來要使用系統的哪個部分來開始加載數據等)。
如果您有大型數據集 - 使 Excel 或記事本加載緩慢的數據集,那麼數據庫是一個不錯的選擇。Postgres 是開源的並且製作精良,並且很容易與 JMP、SPSS 和其他程序連接。在這種情況下,您可能需要採樣。您不必規範化數據庫中的數據。否則,CSV 是共享友好的。
如果您有 100M+ 行,請考慮使用 Apache Hive。
在分析方面,這裡有一些起點:
描述一個變量:
- 直方圖
- 匯總統計數據(平均值、範圍、標準差、最小值、最大值等)
- 有異常值嗎?(大於 1.5 倍四分位間距)
- 它遵循什麼樣的分佈?(正常等)
描述變量之間的關係:
- 散點圖
- 相關性
- 異常值?查看馬氏距離
- 分類的馬賽克圖
- 分類列聯表
預測一個實數(如價格):回歸
- OLS 回歸或機器學習回歸技術
- 當用於預測的技術可以被人類理解時,這稱為建模。例如,神經網絡可以做出預測,但通常是不可理解的。您也可以使用回歸來查找關鍵績效指標。
預測類成員或類成員的概率(如通過/失敗):分類
- 邏輯回歸或機器學習技術,例如 SVM
將觀察結果放入“自然”組:聚類
- 通常,人們通過計算它們之間的距離來找到“相似”的觀測值。
將屬性放入“自然”組:因式分解
- 以及其他矩陣運算如 PCA、NMF
量化風險= 標準偏差,或“壞事”發生的次數 x 它們有多壞
給定 x 個故事點的成功完成迭代的可能性= 邏輯回歸
祝你好運!