需要多大的訓練集？

March 6, 2013

是否有一種常用方法來確定需要多少訓練樣本來訓練分類器（在這種情況下為 LDA）以獲得最小閾值泛化精度？

我之所以這麼問，是因為我想盡量減少腦機接口通常所需的校準時間。

您正在尋找的搜索詞是“學習曲線”，它給出了（平均）模型性能作為訓練樣本大小的函數。

學習曲線取決於很多東西，例如

分類法

分類器的複雜度

類的分離程度。

（我認為對於兩類 LDA，您可能能夠得出一些理論功率計算，但關鍵事實始終是您的數據是否真正滿足“相等 COV 多元正態”假設。我會為兩個 LDA 進行一些模擬對現有數據的假設和重新採樣）。

在有限樣本量上訓練的分類器的性能有兩個方面（照常），

偏差，即平均而言，一個分類器受過訓練訓練樣本比訓練的分類器差培訓案例（這通常是指學習曲線），以及

方差：給定的訓練集案例可能會導致完全不同的模型性能。

即使很少有案例，您也可能很幸運並獲得良好的結果。或者你運氣不好，得到了一個非常糟糕的分類器。

像往常一樣，這種方差隨著訓練樣本量的增加而減小.

您可能需要考慮的另一個方面是，訓練一個好的分類器通常是不夠的，但您還需要證明分類器是好的（或足夠好的）。因此，您還需要計劃以給定精度進行驗證所需的樣本量。如果您需要在這麼多測試用例（例如生產者或消費者的準確度/精度/靈敏度/陽性預測值）中將這些結果作為成功的一部分給出，並且基礎分類任務相當容易，這可能需要更多獨立的案例而不是訓練一個很好的模型。

根據經驗，對於訓練，樣本量通常與模型複雜度（案例數：變量數）相關來討論，而測試樣本量的絕對界限可以給出性能測量所需的精度。

這是一篇論文，我們在其中更詳細地解釋了這些事情，並討論瞭如何構建學習曲線：

Beleites, C. and Neugebauer, U. and Bocklitz, T. and Krafft, C. and Popp, J.：樣本量規劃用於分類模型。Anal Chim Acta, 2013, 760, 25-33。

DOI: 10.1016/j.aca.2012.11.007

arXiv 上接受的手稿: 1211.1323

這是“預告片”，展示了一個簡單的分類問題（實際上，在我們的分類問題中，我們有一個類似這樣的簡單區分，但其他類的區分要困難得多）：

我們沒有嘗試外推到更大的訓練樣本量來確定需要多少訓練案例，因為測試樣本量是我們的瓶頸，更大的訓練樣本量會讓我們構建更複雜的模型，所以外推是有問題的。對於我擁有的那種數據集，我會反复處理，測量一堆新案例，顯示改進了多少，測量更多案例等等。

這對您來說可能有所不同，但本文包含對使用外推到更高樣本量的論文的參考文獻，以估計所需的樣本數量。

引用自：https://stats.stackexchange.com/questions/51490

需要多大的訓練集？

相關問答