從 69 年的數據中進行一般學習的最先進技術
我試圖了解 1969 年著名的 Minsky 和 Papert 著作《感知器》的背景,這對神經網絡非常重要。
據我所知,除了感知器之外,還沒有其他通用的監督學習算法:決策樹直到 70 年代後期才開始真正有用,隨機森林和 SVM 是 90 年代。似乎折刀法是已知的,但不是 k-cross 驗證(70 年代)或引導程序(1979 年?)。
維基百科說,Neyman-Pearson 和 Fisher 的經典統計框架在 50 年代仍然存在分歧,儘管描述混合理論的第一次嘗試已經在 40 年代。
因此我的問題是:解決數據預測的一般問題的最先進方法是什麼?
我對此很好奇,所以我做了一些挖掘。我驚訝地發現,許多常見分類算法的可識別版本在 1969 年左右就已經可用。鏈接和引用如下。
值得注意的是,人工智能研究並不總是那麼專注於分類。人們對計劃和符號推理很感興趣,它們已不再流行,而且標記數據更難找到。並非所有這些文章都可能在當時被廣泛使用:例如,proto-SVM 的工作主要以俄語出版。因此,這可能高估了 1969 年普通科學家對分類的了解程度。
判別分析
在1936 年《優生學年鑑》的一篇文章中,Fisher 描述了一種尋找線性函數的過程,該函數根據花瓣和萼片的尺寸來區分三種鳶尾花。那篇論文提到,費舍爾已經與 E. S Martin 和 Karl Pearson ( jstor ) 合作,以及在一個單獨的顱骨測量項目中應用了類似的技術來預測在埃及挖掘的人類下頜骨(頜骨)的性別和米爾德里德·巴納德小姐(我找不到)。
邏輯回歸
自 19 世紀以來,邏輯函數本身就為人所知,但主要作為飽和過程的模型,例如人口增長或生化反應。Tim 鏈接到上面的 JS Cramer 的文章,這是一段很好的早期歷史。然而,到 1969 年,考克斯出版了第一版的*《二進制數據分析》。*我找不到原版,但後來的版本包含了一整章關於使用邏輯回歸進行分類的內容。例如:
在判別分析中,主要概念是有兩個不同的群體,定義為,通常是兩個本質上不同的群體,如兩種細菌或植物,兩種不同的產品,兩種不同但相當相似的藥物,等等……本質上,判別分析的重點是一個問題:兩者如何分佈差異最大?通常,這會變成如下更具體的形式。有一個新的向量來自一個不知名的人. 我們能說什麼….
-最近的鄰居
Cover 和 Hart 經常被認為是發明/發現-最近鄰規則。他們1967 年的論文包含一個證明-NN 的錯誤率最多是貝葉斯錯誤率的兩倍。然而,他們實際上歸功於 Fix 和 Hodge 在 1951 年發明了它,並引用了他們為美國空軍航空醫學學院準備的一份技術報告(通過 jstor 轉載)。
神經網絡
Rosenblatt在 1957 年發表了一份描述感知器的技術報告,並在 1962 年出版了一本書《神經動力學原理》。自 1960 年代初以來,反向傳播的連續版本就已經出現,包括Kelley、Bryson 和Bryson & Ho 的工作(修訂於1975 年,但原件是 1969 年的。但是,它直到後來才應用於神經網絡,訓練非常深的網絡的方法要晚得多。這篇關於深度學習的學術文章有更多的信息。
統計方法
我懷疑使用貝葉斯規則進行分類已經被多次發現和重新發現——這是規則本身的一個非常自然的結果。信號檢測理論開發了一個定量框架,用於確定給定輸入是“信號”還是噪聲。其中一些來自二戰後的雷達研究,但很快被改編用於感知實驗(例如,Green 和 Swets)。我不知道誰發現假設預測變量之間的獨立性很有效,但 1970 年代早期的工作似乎利用了這個想法,正如本文所總結的那樣。順便說一句,那篇文章還指出,樸素貝葉斯曾被稱為“白痴貝葉斯”!
支持向量機
1962 年,Vapnik 和 Chervoenkis 描述了“廣義肖像算法”(糟糕的掃描,抱歉),它看起來像是支持向量機(或者實際上是一類 SVM)的一個特例。Chervonkis 寫了一篇題為“支持向量機的早期歷史”的文章,更詳細地描述了這一點及其後續工作。Aizerman、Braverman 和 Rozonoer 在 1964 年描述了內核技巧(內核作為內積)。 svms.org 在這裡有更多關於支持向量機的歷史。