是否存在用於訓練統計模型的“足夠”數據的概念？

July 30, 2011

我從事很多統計建模工作，例如隱馬爾可夫模型和高斯混合模型。我發現在每種情況下訓練好的模型都需要大量（HMM 超過 20000 個句子）數據，這些數據來自類似的環境作為最終用途。我的問題是：

文獻中是否存在“足夠”訓練數據的概念？多少訓練數據“足夠好”？

如何計算要訓練的“好”（提供良好的識別準確度（> 80%））模型需要多少個句子？

我如何知道模型是否已正確訓練？模型中的係數會開始出現隨機波動嗎？如果是這樣，我如何區分隨機波動和模型更新引起的實際變化？

如果需要更多標籤，請隨時重新標記此問題。

您可以將數據集分割成具有 10%、20%、30%、…、100% 數據的連續子集，並為每個子集使用 k 折交叉驗證或引導法估計估計器準確度的方差。如果您有“足夠”的數據，則繪製方差應顯示一條遞減的單調線，該單調線應在 100% 之前達到穩定水平：添加更多數據不會以任何顯著方式降低估計器準確性的方差。

引用自：https://stats.stackexchange.com/questions/13634

相關問答

Maximum-Likelihood

用最大似然法尋找類別

December 6, 2021

時間序列預測：從 ARIMA 到 LSTM

July 23, 2020

Neural-Networks

為什麼我們在變分自動編碼器中使用高斯分佈？

April 11, 2019

Normal-Distribution

為什麼使用高斯混合模型？

March 6, 2019

隨機變量定義為 A 有 50% 的機會和 B 有 50% 的機會

August 27, 2018

Covariance-Matrix

高斯混合模型的不同協方差類型

February 3, 2018