需要多大的訓練集?
是否有一種常用方法來確定需要多少訓練樣本來訓練分類器(在這種情況下為 LDA)以獲得最小閾值泛化精度?
我之所以這麼問,是因為我想盡量減少腦機接口通常所需的校準時間。
您正在尋找的搜索詞是“學習曲線”,它給出了(平均)模型性能作為訓練樣本大小的函數。
學習曲線取決於很多東西,例如
- 分類法
- 分類器的複雜度
- 類的分離程度。
(我認為對於兩類 LDA,您可能能夠得出一些理論功率計算,但關鍵事實始終是您的數據是否真正滿足“相等 COV 多元正態”假設。我會為兩個 LDA 進行一些模擬對現有數據的假設和重新採樣)。
在有限樣本量上訓練的分類器的性能有兩個方面(照常),
- 偏差,即平均而言,一個分類器受過訓練訓練樣本比訓練的分類器差培訓案例(這通常是指學習曲線),以及
- 方差:給定的訓練集案例可能會導致完全不同的模型性能。
即使很少有案例,您也可能很幸運並獲得良好的結果。或者你運氣不好,得到了一個非常糟糕的分類器。
像往常一樣,這種方差隨著訓練樣本量的增加而減小.
您可能需要考慮的另一個方面是,訓練一個好的分類器通常是不夠的,但您還需要證明分類器是好的(或足夠好的)。因此,您還需要計劃以給定精度進行驗證所需的樣本量。如果您需要在這麼多測試用例(例如生產者或消費者的準確度/精度/靈敏度/陽性預測值)中將這些結果作為成功的一部分給出,並且基礎分類任務相當容易,這可能需要更多獨立的案例而不是訓練一個很好的模型。
根據經驗,對於訓練,樣本量通常與模型複雜度(案例數:變量數)相關來討論,而測試樣本量的絕對界限可以給出性能測量所需的精度。
這是一篇論文,我們在其中更詳細地解釋了這些事情,並討論瞭如何構建學習曲線:
Beleites, C. and Neugebauer, U. and Bocklitz, T. and Krafft, C. and Popp, J.:樣本量規劃用於分類模型。Anal Chim Acta, 2013, 760, 25-33。
DOI: 10.1016/j.aca.2012.11.007
這是“預告片”,展示了一個簡單的分類問題(實際上,在我們的分類問題中,我們有一個類似這樣的簡單區分,但其他類的區分要困難得多):
我們沒有嘗試外推到更大的訓練樣本量來確定需要多少訓練案例,因為測試樣本量是我們的瓶頸,更大的訓練樣本量會讓我們構建更複雜的模型,所以外推是有問題的。對於我擁有的那種數據集,我會反复處理,測量一堆新案例,顯示改進了多少,測量更多案例等等。
這對您來說可能有所不同,但本文包含對使用外推到更高樣本量的論文的參考文獻,以估計所需的樣本數量。