Ronald Fisher 的主要統計貢獻是什麼?
理查德·道金斯將羅納德·費舍爾描述為“現代統計學和實驗設計之父”,這句話在費舍爾的維基百科傳記中被引用。Anders Hald在他的《數理統計史》一書中稱他為“幾乎單槍匹馬地為現代統計科學奠定基礎的天才” 。
我只是想知道他到底做了什麼讓人們對他給予如此高的評價?
很難寫出這個問題的答案
Ronald Fisher 的主要統計貢獻是什麼?
因為已經有許多關於這個主題的優秀作品,由優秀的作家創作,包括偉大的統計學家,例如:
- Hotelling,1951 年,RA Fisher 對統計的影響
- 野蠻人,1976 年,重讀 RA 費舍爾
- 耶茨,1964 年,羅納德·費舍爾爵士和實驗設計
- 耶茨,1962 年,羅納德·艾爾默·費舍爾爵士 (1890 - 1962)
- Pearce,1979,實驗設計:RA Fisher 和一些現代競爭對手
- 埃夫隆,1998 年,21 世紀的費舍爾 RA
這些作品很難在互聯網問答板上用幾行簡單的文字來匹配。最重要的是,要掌握費舍爾的全部想法並不容易,正如埃夫隆在他關於費舍爾的著作中所寫的那樣:
評估費舍爾統計的重要性的一個困難是很難說它是什麼。費舍爾有很多重要的想法,其中一些,比如隨機推理和條件性,是相互矛盾的。這有點好像在經濟學中,馬克思、亞當·斯密和凱恩斯原來是同一個人。
費舍爾是先驅
Fisher 貢獻的一個簡單但非常好的來源是 Wikipedia。只需閱讀有關統計歷史的文章(或者您可以使用任何其他文本),您就會對費舍爾貢獻的數量和重要性有所了解。
您還將看到,部分原因是時間、地點和運氣使費舍爾成為了一個偉大的貢獻者。費舍爾是 20 世紀初一位重要且有影響力的統計學家,當時應用統計學的基本基礎已經建立,並且該領域相對較小(與 18 世紀和 19 世紀的數學時期相比)。
費舍爾上台時,第一個統計學雜誌和大學第一個統計學系剛剛成立。在 20 世紀初之前,主要有回歸的方法和一些關於殘差和誤差分佈的想法,用於天文學等領域。
測量誤差和結果概率的概念。這種類型的數學和邏輯(更接近於純數學,並且……被認為更崇高,並且較少受到當時嚴肅的數學家的譴責),被更廣泛地應用於費舍爾選擇的領域:遺傳學、進化論、生物學、農業. 由於出色的數學家費舍爾對這些早期發展做出了重大貢獻(甚至可能被認為是這些發展的主要推動力),因此他的工作在統計學史上佔有重要地位。
基本概念和工具
如果您查看統計介紹書中的主題(特別是數學概念或推理),您可能會認為 Fisher 是主要貢獻者。也是費舍爾寫了第一本,也是最有影響力的統計書籍導論:
- 研究工作者的統計方法(1925)
- 實驗設計(1935 年)(使用茶杯實驗來解釋隨機化、拉丁方格的使用、零假設、顯著性、敏感性/功效以及基本上所有內容;耶茨為這項工作提供了歷史背景)
請注意,這些書籍的在線版本存在SMRW 和部分 DE(參見 10 月 29 日的閱讀資料)。
從 1912 年到 1925 年,費舍爾:
- 幫助改進了卡方檢驗(Pearson 和其他人多年來對自由度的數量一直是錯誤的),
- 提供了一個精確檢驗來計算觀察次數較少的擬合優度的 p 值(以他的名字命名為Fisher 精確檢驗),
- 為 Gosset 的“學生分佈”寫了一個證明(作為本科生) (並在他****對小觀察數的工作中進一步發展它,例如使用的想法 $ N-1 $ 自由度而不是樣本量 $ N $ 使用樣本統計數據時)(參見 Fisher 的女兒 Joan Fisher Box 的歷史描述),
- 開發了方差分析和F 分佈(也以他的名字命名),以及
- (他在本科時做的另一件“小”事情)是開發最大似然的基礎知識和概念(Aldrich 的RA Fisher 和最大似然的形成)。
所以大致涵蓋了當前介紹文本使用的大部分基本推理工具。在從事這項統計工作時,費舍爾解決了讓理查德·道金斯這樣的人非常欽佩他的遺傳學中的主要問題。
術語
費舍爾引入了許多概念和術語並改進了統計語言。這個問答網站上最近的兩個問題與費舍爾有關。為什麼這麼多變量在統計中是平方的,為什麼我們經常 $ L_2 $ 規範而不是 $ L_1 $ . 是費舍爾“證明”了 $ L_2 $ norm 是比 $ L_1 $ 範數(假設一個完美的高斯分佈,Fisher 後來同意這種分佈對於“真實”錯誤並不總是正確的),並在這樣做的同時引入了派生它的術語作為**“有效統計量”和“充分統計量”,並引入了術語“方差”**(在他 1920 年的論文中通過平均誤差和均方誤差確定觀察精度的方法的數學觀察)。
基礎
在 1922年關於理論統計的數學基礎的論文中,費舍爾對主要概念進行了簡短的概述,僅列出定義列表:“位置中心”、“一致性”、“分佈”、“效率”、“估計',‘內在準確性’,‘等統計區域’,‘可能性’,‘位置’,‘最佳’,‘縮放’,‘規格’,‘充分性’,‘有效性’。它需要歷史學家來了解費舍爾在作為概念創始人的意義上在這裡做出了什麼貢獻,這也與埃夫隆的陳述有關。很難掌握究竟是由誰貢獻的。
在那篇文章中,Fisher 開始提到將“均值”和“方差”等術語應用於真實分佈值和估計值的問題。
(我會盡量避免將費舍爾放在諸如常客或貝葉斯之類的“學校”中。我會說他對手頭的任何問題都“足夠”實用)。
高級概念
在他的進一步工作中,Fisher 發展了線性判別分析的早期概念:
四次測量的線性函數是多少 $ X=\lambda_1 x_1 + \lambda_2 x_2 + \lambda_3 x_3 + \lambda_4 x_4 $ 將最大化特定平均值與物種內標準偏差之間的差異的比率?
以及Fisher進一步探索的可能性估計概念,有兩個以他的名字命名的概念,Fisher信息和Fisher score。參見統計估計理論,1925 年,數學似然的兩個新屬性,1934年和歸納推理的邏輯,1935 年。
更多鏈接:
- RA 費舍爾指南,約翰·奧爾德里奇著。一個巨大的來源,如果不是最大的,關於 Fisher 的信息,還有許多進一步的參考資料。
- Michael Hardy 在 Mathoverflow 上對有關最偉大數學家的問題的回答:https ://mathoverflow.net/a/173374