Software

Excel 作為統計工作台

  • October 7, 2010

似乎很多人(包括我)都喜歡在 Excel 中進行探索性數據分析。一些限制,例如電子表格中允許的行數,是一件很痛苦的事情,但在大多數情況下,這並不意味著無法使用 Excel 來處理數據。

然而, McCullough 和 Heiser 的一篇論文實際上尖叫著說,如果您嘗試使用 Excel,您將得到完全錯誤的結果 - 並且可能也會在地獄中燃燒。

這篇論文是正確的還是有偏見的?作者聽起來確實很討厭微軟。

為正確的工作使用正確的工具,並利用您熟悉的工具的優勢。

在 Excel 的情況下,有一些突出的問題:

  • 請不要使用電子表格來管理數據,即使您的數據可以放入其中。你只是在自找麻煩,可怕的麻煩。幾乎沒有針對印刷錯誤、數據大規模混淆、數據值截斷等的保護措施。
  • 許多統計功能確實被破壞了。t 分佈就是其中之一。
  • 默認圖形很糟糕。
  • 它缺少一些基本的統計圖形,尤其是箱線圖和直方圖。
  • 隨機數生成器是個笑話(但儘管如此,對於教育目的仍然有效)。
  • 避免使用高級功能和大多數插件;他們是c**p。但這只是安全計算的一般原則:如果您不確定某個函數在做什麼,請不要使用它。堅持使用低級函數(包括算術函數、排名、exp、ln、trig 函數,以及——在限制範圍內——正態分佈函數)。 永遠不要使用生成圖形的加載項:它會很糟糕。(注意:從頭開始創建自己的概率圖非常容易。它們將是正確且高度可定制的。)

不過,有利於它的有以下幾點:

  • 它的基本數值計算與雙精度浮點數一樣準確。它們包括一些有用的,例如對數伽瑪。
  • 在電子表格中圍繞輸入框包裝控件非常容易,從而可以輕鬆創建動態模擬。
  • 如果您需要與非統計人員共享計算,大多數人都會對電子表格感到滿意,而對統計軟件則完全不滿意,無論它多麼便宜。
  • 編寫有效的數字宏很容易,包括移植與 VBA 非常接近的舊 Fortran 代碼。此外,VBA 的執行速度相當快。(例如,我有從頭開始準確計算非中心 t 分佈的代碼以及快速傅里葉變換的三種不同實現。)
  • 它支持一些有效的模擬和 Monte-Carlo 附加組件,例如 Crystal Ball 和 @Risk。(順便說一下,他們使用自己的 RNG——我查過。)
  • 直接與(一小組)數據交互的即時性是無與倫比的:它比任何統計數據包、Mathematica 等都要好。當用作具有大量存儲空間的巨型計算器時,電子表格真正發揮了作用。
  • 好的EDA,使用健壯和耐久的方法,並不容易,但是一旦你做了一次,你就可以快速地重新設置它。使用 Excel,您可以有效地重現Tukey 的 EDA 書中的所有計算(儘管只有一些圖),包括 n 路表的中值拋光(雖然它有點麻煩)。

在直接回答最初的問題時,該論文存在一個偏見:它側重於 Excel 最薄弱的材料,而稱職的統計學家最不可能使用的材料。不過,這並不是對這篇論文的批評,因為需要廣播這樣的警告。

引用自:https://stats.stackexchange.com/questions/3392

comments powered by Disqus