為什麼神經網絡需要這麼多訓練樣本來執行?
一個 2 歲的人類兒童需要大約 5 個汽車實例才能以合理的準確度識別它,而不管顏色、品牌等如何。當我兒子 2 歲時,他能夠識別電車和火車,即使他見過一些。由於他經常互相混淆,顯然他的神經網絡沒有得到足夠的訓練,但仍然如此。
是什麼讓人工神經網絡無法更快地學習?遷移學習是一個答案嗎?
我告誡不要期望生物和人工神經網絡之間有很強的相似性。我認為“神經網絡”這個名字有點危險,因為它誘使人們期望神經過程和機器學習應該是相同的。生物和人工神經網絡之間的差異大於相似之處。
作為一個如何出錯的示例,您還可以將原始帖子中的推理顛倒過來。只要你有一台速度相當快的計算機和一些訓練數據,你就可以在一個下午訓練一個神經網絡來學習識別汽車。你可以把它變成一個二元任務(汽車/非汽車)或多類任務(汽車/電車/自行車/飛機/船),並且仍然對高水平的成功充滿信心。
相比之下,我不希望一個孩子能夠在它出生後的當天——甚至是一周內——挑選出一輛汽車,即使它已經看過“這麼多的訓練示例”。兩歲的孩子和嬰兒之間的一些明顯的不同是學習能力的差異,而普通的圖像分類神經網絡完全能夠在“出生”後*立即進行物體分類。*我認為有兩個重要的區別:(1)可用的訓練數據的相對數量和(2)由於豐富的訓練數據而隨著時間發展的自學機制。
原帖暴露了兩個問題。問題的標題和正文詢問為什麼神經網絡需要“這麼多示例”。相對於孩子的經驗,使用常見圖像基準訓練的神經網絡數據相對較少。
我將把標題中的問題重新表述為
“針對常見圖像基準訓練神經網絡與兒童的學習體驗相比如何?”
為了比較,我將考慮 CIFAR-10 數據,因為它是一個常見的圖像基準。標記部分由 10 類圖像組成,每類 6000 張圖像。每個圖像為 32x32 像素。如果您以某種方式堆疊來自 CIFAR-10 的標記圖像並製作標準的 48 fps 視頻,您將擁有大約 20 分鐘的鏡頭。
一個每天觀察世界 12 小時的 2 歲兒童大約有 263000 分鐘(超過 4000 小時)對世界的直接觀察,包括來自成人的反饋(標籤)。(這些只是粗略的數字——我不知道一個典型的兩歲孩子花了多少分鐘觀察這個世界。)此外,孩子將接觸到許多、許多超出 CIFAR 的 10 個類別的物體—— 10.
所以有一些事情在起作用。一是與 CIFAR-10 模型相比,兒童接觸到的總體數據更多,數據來源更多樣化。數據多樣性和數據量被公認為是穩健模型的先決條件。從這個角度來看,神經網絡在這項任務上比孩子更差似乎並不奇怪,因為與兩歲的孩子相比,在 CIFAR-10 上訓練的神經網絡對訓練數據的渴求是肯定的。兒童可用的圖像分辨率優於 32x32 CIFAR-10 圖像,因此兒童能夠了解有關物體精細細節的信息。
CIFAR-10 與 2 歲的比較並不完美,因為 CIFAR-10 模型可能會在相同的靜態圖像上多次通過訓練,而孩子將使用雙目視覺看到物體是如何排列成三個多維世界,同時在同一物體上移動並使用不同的照明條件和視角。
關於OP的孩子的軼事暗示了第二個問題,
“神經網絡如何成為自學?”
一個孩子被賦予了一些自學的天賦,因此可以隨著時間的推移添加新的對像類別,而不必從頭開始。
- OP關於遷移學習命名了機器學習上下文中的一種模型適應。
- 在評論中,其他用戶指出一次性學習和少量學習*是另一個機器學習研究領域。
- 此外,強化學習從不同的角度解決自學模型,本質上允許機器人進行試錯實驗,以找到解決特定問題(例如下棋)的最佳策略。
這三種機器學習範式都可能與改進機器適應新的計算機視覺任務的方式密切相關,這可能是真的。快速使機器學習模型適應新任務是一個活躍的研究領域。然而,由於這些項目的實際目標(識別新的惡意軟件實例、識別護照照片中的冒名頂替者、索引互聯網)和成功標準與孩子了解世界的目標不同,而且一個事實是在一台使用數學的計算機,另一台使用化學在有機材料中完成,兩者之間的直接比較仍然令人擔憂。
順便說一句,研究如何翻轉 CIFAR-10 問題並訓練神經網絡從每個示例的 10 個示例中識別 6000 個對象會很有趣。但即使這樣與 2 歲的孩子進行比較也不公平,因為訓練數據的總量、多樣性和分辨率仍然存在很大差異。
*我們目前沒有一次性學習或少量學習的標籤。