用於處理大型數據集的統計和數據挖掘軟件工具
目前我必須分析大約 20M 條記錄並建立預測模型。到目前為止,我已經嘗試過 Statistica、SPSS、RapidMiner 和 R。其中 Statistica 似乎最適合處理數據挖掘,RapidMiner 用戶界面也非常方便,但似乎 Statistica、RapidMiner 和 SPSS 僅適用於較小的數據集.
誰能推荐一個用於大型數據集的好工具?
謝謝!
我會第二次@suncoolsu 評論:您的數據集的維數並不是讓您轉向特定軟件的唯一標準。例如,如果您只是計劃進行無監督聚類或使用 PCA,則有幾種專用工具可以處理大型數據集,這在基因組研究中很常見。
現在,R(64 位)可以很好地處理大數據,您仍然可以選擇使用磁盤存儲而不是 RAM 訪問,但請參閱 CRAN Task View High-Performance and Parallel Computing with R。標準 GLM 可以輕鬆容納 20,000 個 obs。(但另見speedglm)在合理的時間內,如下所示:
> require(MASS) > n <- 20000 > X <- mvrnorm(n, mu=c(0,0), Sigma=matrix(c(1,.8,.8,1), 2, 2)) > df <- cbind.data.frame(X, grp=gl(4, n/4), y=sample(c(0,1), n, rep=TRUE)) > system.time(glm(y ~ ., data=df)) user system elapsed 0.361 0.018 0.379
為了給出更具體的說明,我使用 R 來處理和分析大型遺傳數據(800 個個體 x 800k SNP,其中主要統計模型是具有多個協變量的分層 GLM(2 分鐘);這得益於高效的 R 和snpMatrix包中提供的 C 代碼(相比之下,使用專用 C++ 軟件 ( plink )完成同類模型大約需要 8 分鐘。我還參與了一項臨床研究(12k 患者 x 50 個感興趣的變量),R 適合我的需要最後,據我所知,lme4軟件包是唯一允許使用不平衡和大型數據集擬合混合效應模型的軟件(如大規模教育評估中的情況)。
Stata/SE 是另一個可以處理大數據集的軟件。SAS 和 SPSS 是基於文件的軟件,因此它們將處理大量數據。數據挖掘工具:哪個最適合 CRM中提供了對數據挖掘軟件的比較評論。對於可視化,也有很多選擇;也許一個好的開始是大型數據集的圖形:可視化一百萬( P Murrell 在 JSS 中評論)以及該站點上的所有相關線程。