R

R 作為 SAS 的替代方案用於大數據

  • April 4, 2013

我知道 R 對於分析大型數據集並不是特別有幫助,因為 R 將所有數據加載到內存中,而 SAS 之類的東西則進行順序分析。也就是說,像 bigmemory 這樣的包允許用戶在 R 中更有效地執行大數據分析(統計分析)。

我想知道,除了所有理論信息之外,是否有人使用/正在使用 R 來分析企業環境中的大型數據集,以及可能出現的典型問題是什麼。我所說的大型數據集是指大小約為 200 GB 的數據集。此外,任何關於在此類用例中從 SAS 遷移到 R 的真實示例的想法都會有所幫助。

我已經在 R 中完成了非常大的數據集的工作,並且沒有遇到問題。

有幾種可行的方法,但我的基本範式是我找到“按順序”處理數據的方法。如果您在同一台機器上使用 SAS,顯然 SAS 具有相同的基本內存限制,使用 R 只是更多的 DIY。

在我遇到的每種情況下,我要么對某種數據摘要進行分析,要么對數據塊進行分析,然後總結結果。無論哪種方式,這在 R 中都很容易實現。

如果您的數據以某種方式(實際上以任何方式)結構化,那麼創建摘要非常容易。Hadoop 是創建摘要的領先工具,但對 R 數據文件進行批處理很容易,如果您的數據適合本地存儲設備,那麼以這種方式進行批處理也更快(就處理時間和開發時間)。

使用相同的思維過程也很容易按塊分批分析。

如果你真的很想直接在一個巨大的數據集上做一個線性模型,那麼我認為 bigmemory 是你的答案,正如 Stéphane Laurent 所建議的那樣。

我真的不認為“你如何處理內存限制”或“遷移到新平台”有一個“答案”,但這是我囉嗦的兩分錢。

引用自:https://stats.stackexchange.com/questions/55105

comments powered by Disqus