箱線圖的歷史是什麼,“箱線圖”設計是如何演變的?
許多消息來源將經典的“箱形圖”設計追溯到約翰·圖基和他 1970 年的“示意圖”。從那時起,該設計似乎一直保持相對靜止,愛德華·塔夫特的箱形圖精簡版未能流行起來,而小提琴圖——儘管是箱線圖的一個更豐富的變體——仍然不那麼受歡迎。克利夫蘭關於鬍鬚延伸到第 10 和第 90 個百分位數的建議有一些支持者,參見Cox (2009),但這不是常態。
Hadley Wickham 和 Lisa Stryjewski 寫了一篇關於箱形圖歷史的未發表論文,但似乎並未涵蓋箱形圖的歷史先驅。
那麼目前無處不在的“盒子和鬍鬚”情節是如何產生的呢?它是從什麼樣的數據可視化演變而來的,那些早期的設計有什麼顯著的優勢,為什麼它們在 Tukey 方案的使用中似乎被如此全面地黯然失色?一個有插圖的答案將是一個獎勵,但指向一個在歷史上比 Wickham 和 Stryjewski 更深入的參考將是有用的。
參考
- 新澤西州考克斯(2009 年)。口語Stata:創建和改變箱形圖。統計雜誌,9(3),478。
- Wickham, H. 和 Stryjewski, L. (2011)。40 年的箱線圖。http://vita.had.co.nz/papers/boxplots.pdf
首席執行官總結
歷史比許多人想像的要長得多、複雜得多。
執行摘要
Tukey 所謂的箱形圖的歷史與現在通常稱為點圖或條形圖(許多其他名稱)的歷史以及經驗分位數函數的表示糾纏在一起。
John Wilder Tukey (1970, 1972, 1977) 的作品以廣泛流行的形式最為著名。
但是,將中位數和四分位數顯示為基本摘要的想法——通常但不總是與顯示所有值的點一起——至少可以追溯到地理學家 Percy Robert Crowe(1933 年)引入的分散圖(許多變體名稱)。這些是地理學家的主食,從 1930 年代後期開始被用於許多教科書和研究論文中。
Bibby (1986, pp.56, 59) 甚至更早地提到了 Arthur Lyon Bowley(後來的 Arthur 爵士)在他關於 1897 年的演講中所教導的類似想法以及他的建議(Bowley, 1910, p.62; 1952, p.73 ) 使用最小值和最大值以及 10、25、50、75 和 90% 點作為圖形匯總的基礎。
顯示極值和四分位數的範圍條通常歸因於 Mary Eleanor Spear (1952),但在我的閱讀中,很少有人引用 Kenneth W. Haemer (1948)。Haemer 在 1950 年左右在American Statistician上發表的關於統計圖形的文章具有創造性,具有批判性,仍然值得重讀。(許多讀者可以通過 jstor.org 訪問它們。)相比之下,Spear 的書(Spear 1969 是一個翻版)是易於理解和明智的,但故意是介紹性的,而不是創新或學術性的。
鬍鬚延伸到選定百分位數的箱線圖變體比許多人想像的更常見。同樣,從 1930 年代開始,地理學家就使用了等效的圖。
Tukey 的箱線圖版本中最原始的首先是識別尾部點的標準,這些點要單獨繪製並確定為值得詳細考慮 - 並且經常標記應該在轉換的尺度上分析變量。他的 1.5 IQR 經驗法則是在經過大量實驗後才出現的。它在某些人手中已經變成了刪除數據點的硬性規則,這絕不是 Tukey 的意圖。一個有力的、令人難忘的名字——箱線圖——在確保這些想法產生更廣泛的影響方面沒有任何害處。相比之下,色散圖是一個相當枯燥乏味的術語。
這里相當長的參考列表可能與外觀相反,並非詳盡無遺。目的只是為箱線圖的一些前體和替代方案提供文檔。具體的參考資料可能有助於詳細查詢,或者如果它們靠近您的領域。相反,學習其他領域的實踐可能是有益的。地理學家的圖形——不僅僅是製圖——的專業知識經常被低估。
更多細節
Crowe (1933, 1936)、Matthews (1936)、Hogg (1948)、Monkhouse 和 Wilkinson (1952)、Farmer (1956)、Gregory (1963)、Hammond 和 McCullagh (1974)、Lewis 使用了混合點盒圖(1975), Matthews (1981), Wilkinson (1992, 2005), Ellison (1993, 2001), Wild and Seber (2000), Quinn and Keough (2002), Young等人。(2006 年)和亨德利和尼爾森(2007 年)等。另見米勒 (1953, 1964)。
Cleveland (1985) 強調將鬍鬚繪製到特定的百分位數,而不是四分位數的這麼多 IQR 內的數據點,但 Matthews (1936) 和 Grove (1956) 預測了這一點,他們繪製了 interoctile 範圍,即第一個和第一個第七個八分位數,以及範圍和四分位數範圍。Dury (1963), Johnson (1975), Harris (1999), Myatt (2007), Myatt and Johnson (2009, 2011) 和 Davino 等人。(2014) 顯示了平均值以及最小值、四分位數、中位數和最大值。Schmid (1954) 展示了帶有中位數、四分位數和 5% 和 95% 點的匯總圖。Bentley (1985, 1988)、Davis (2002)、Spence (2007, 2014) 和 Motulsky (2010, 2014, 2018) 將晶須繪製為 5% 和 95%。Morgan and Henrion (1990, pp.221, 241), Spence (2001, p.36), Gotelli and Ellison (2004, 2013, pp.72, 110, 213, 416) 將鬍鬚繪製到 10% 和 90% 點。Harris (1999) 展示了 5% 和 95% 以及 10% 和 90% 的例子。Altman (1991, pp.34, 63) 和 Greenacre (2016) 將晶須繪製為 2.5% 和 97.5% 點。賴曼等人。(2008, pp.46-47) 將晶須繪製為 5% 和 95% 以及 2% 和 98% 點。
Parzen (1979a, 1979b, 1982) 將箱形圖和分位數圖混合為分位數箱形圖。另見(例如)Shera (1991)、Militký 和 Meloun (1993)、Meloun 和 Militký (1994)。但是請注意,Keen (2010) 的分位數箱線圖只是一個帶有延伸到極端的鬍鬚的箱線圖。相比之下,JMP 的分位數箱線圖顯然是在 0.5%、2.5%、10%、90%、97.5%、99.5% 處標記的箱線圖:參見 Sall等人。(2014 年,第 143-4 頁)。
以下是關於分位數箱形圖變體的一些註釋。
(A) Esty 和 Banfield (2003)的百分位箱圖以不同方式繪製相同的信息,將數據繪製為連續線並生成對稱顯示,其中垂直軸顯示分位數,水平軸顯示未繪製位置 $ p $ , 但兩者都 min( $ p, 1 - p $ ) 及其鏡像 $ - $ 分鐘( $ p, 1 - p $ )。次要細節:在他們的論文中,繪圖位置被錯誤地描述為“百分位數”。另見 Martinez等人。(2011 年,2017 年),這使這種混亂持續存在。
繪製 min( $ p, 1 - p $ )(或其百分比等價物)獨立出現在 (B)“山圖”(Krouwer 1992;Monti 1995;Krouwer 和 Monti 1995;Goldstein 1996)和(C)“翻轉經驗分佈函數”的圖中(Huh 1995) . 有關在任何分位數折疊分佈函數的詳細分析,另請參見 Xue 和 Titterington (2011)。
從我看到的文獻來看,這些線程似乎都沒有——分位數箱圖或後來的變體(A)(B)(C)——相互引用。
!!!截至 2018 年 10 月 3 日,一些參考資料的詳細信息需要在下一次編輯中提供。
Altman, DG 1991。 醫學研究中的實用統計學。 倫敦:查普曼和霍爾。
Bentley, JL 1985。編程珍珠:選擇。 ACM 28 通訊:1121-1127。
Bentley, JL 1988。 更多編程珍珠:程序員的自白。 馬薩諸塞州雷丁:Addison-Wesley。
Bibby, J. 1986。 《統計教學史筆記》。 愛丁堡:約翰畢比(書籍)。
Bowley, AL 1910。 《統計初級手冊》。 倫敦:麥克唐納和埃文斯。(1952 年第七版)
克利夫蘭,WS 1985。圖形數據的元素。 加利福尼亞州蒙特雷:沃茲沃思。
Crowe, PR 1933。降雨概率分析:圖形方法及其在歐洲數據中的應用。 蘇格蘭地理雜誌49:73-91。
Crowe, PR 1936。西部平原的降雨情況。 地理評論26:463-484。
Davis, JC 2002。 地質學中的統計和數據分析。 紐約:約翰威利。
Dickinson, GC 1963。 統計映射和統計表示。 倫敦:愛德華·阿諾德。(1973 年第二版)
Dury, GH 1963。 東米德蘭茲和山頂。 倫敦:托馬斯·納爾遜。
Farmer, BH 1956。錫蘭干旱區的降雨和供水。在 Steel, RW and CA Fisher (eds) Geographical Essays on British Tropical Lands。 倫敦:喬治菲利普,227-268。
Gregory, S. 1963。統計方法和地理學家。 倫敦:朗文。(後來的版本 1968、1973、1978;出版商後來的朗文)
Grove, AT 1956。尼日利亞的土壤侵蝕。在 Steel, RW and CA Fisher (eds) Geographical Essays on British Tropical Lands。 倫敦:喬治菲利普,79-111。
Haemer, KW 1948。範圍條形圖。 美國統計學家2(2): 23。
亨德利、DF 和 B.尼爾森。2007. 計量經濟學建模:一種可能性方法。 新澤西州普林斯頓:普林斯頓大學出版社。
Hogg, WH 1948。降雨分散圖:討論它們的優缺點。 地理33:31-37。
Ibrekk, H. 和 MG 摩根。1987. 與非技術人員進行不確定數量的圖形通信。 風險分析7:519-529。
約翰遜,BLC 1975。 *孟加拉國。*倫敦:海涅曼教育。
Keen, KJ 2010。 與 佛羅里達州博卡拉頓合作的統計和數據分析圖形:CRC 出版社。(2018 年第 2 版)
Lewis, CR 1975。城市狀況變化分析:中威爾士和威爾士中部邊境地區的案例研究。 英國地理學家學會 彙刊 64:49-65。
馬丁內斯、WL、AR 馬丁內斯和 JL 索爾卡。2011. 使用 MATLAB 進行探索性數據分析。 佛羅里達州博卡拉頓:CRC 出版社。
Matthews, HA 1936。一些熟悉的印度降雨的新觀點。 蘇格蘭地理雜誌52:84-97。
Matthews, JA 1981。 地理的定量和統計方法:實用手冊。 牛津:佩加蒙。
Meloun, M. 和 J. Militký。1994. 分析化學計量學中的計算機輔助數據處理。一、單變量數據的探索性分析。 化學論文48:151-157。
Militký, J. 和 M. Meloun。1993. 用於單變量探索性數據分析的一些圖形輔助工具。 分析化學學報277:215-221。
米勒,AA 1953。 地球的皮膚。 倫敦:梅休恩。(1964 年第 2 版)
Monkhouse,FJ 和 HR 威爾金森。1952. 地圖和圖表:它們的編譯和構造。 倫敦:梅休恩。(後來的版本 1963、1971)
摩根,MG 和 M. Henrion。1990. 不確定性:量化風險和政策分析中的不確定性處理指南。 劍橋:劍橋大學出版社。
Myatt, GJ 2007。理解 數據:探索性數據分析和數據挖掘的實用指南。 新澤西州霍博肯:約翰威利。
Myatt, GJ 和 Johnson, WP 2009。 了解數據 II:數據可視化、高級數據挖掘方法和應用的實用指南。 新澤西州霍博肯:約翰威利。
Myatt, GJ 和 Johnson, WP 2011。理解 數據 III:設計交互式數據可視化的實用指南。 新澤西州霍博肯:約翰威利。
Ottaway, B. 1973。色散圖:顯示碳 14 日期的新方法。 考古學15:5-12。
Parzen,E. 1979a。非參數統計數據建模。 雜誌,美國統計協會 74:105-121。
Parzen, E. 1979b。穩健估計的密度分位數函數視角。在 Launer、RL 和 GN Wilkinson (eds)統計中的穩健性。 紐約:學術出版社,237-258。
Parzen, E. 1982。使用分位數和密度分位數函數的數據建模。在 Tiago de Oliveira, J. 和 Epstein, B. (eds) *一些最近的統計進展。*倫敦:學術出版社,23-52。
Quinn,全科醫生和 MJ Keough。2002. 生物學家的實驗設計和數據分析。 劍橋:劍橋大學出版社。
Reimann, C.、P. Filzmoser、RG Garrett 和 R. Dutter。2008. 解釋統計數據分析:R. Chichester 的應用環境統計:John Wiley。
Sall, J.、A. Lehman、M. Stephens 和 L. Creighton。2014. JMP 開始統計:使用 JMP 進行統計和數據分析的指南。 北卡羅來納州卡里:SAS 研究所。
Shera, DM 1991。分位數圖的一些用途,以增強數據表示。 計算科學與統計23:50-53。
矛,ME 1952。圖表統計。 紐約:麥格勞-希爾。
矛,ME 1969。實用製圖技術。 紐約:麥格勞-希爾。
Tukey, JW 1970。
探索性數據分析。限量初版。第 I 卷 ,馬薩諸塞州閱讀:Addison-Wesley。
Tukey, JW 1972。一些圖形和半圖形顯示。在 Bancroft, TA 和 Brown, SA (eds) 中紀念 George W. Snedecor 的統計論文。 愛荷華州艾姆斯:愛荷華州立大學出版社,293-316。(也可在http://www.edwardtufte.com/tufte/tukey 訪問)
Tukey, JW 1977。 探索性數據分析。 馬薩諸塞州雷丁:Addison-Wesley。
Wild、CJ 和 GAF Seber。2000. 偶遇:數據分析和推理的第一門課程。 紐約:約翰威利。