Modeling
是否存在用於訓練統計模型的“足夠”數據的概念?
我從事很多統計建模工作,例如隱馬爾可夫模型和高斯混合模型。我發現在每種情況下訓練好的模型都需要大量(HMM 超過 20000 個句子)數據,這些數據來自類似的環境作為最終用途。我的問題是:
- 文獻中是否存在“足夠”訓練數據的概念?多少訓練數據“足夠好”?
- 如何計算要訓練的“好”(提供良好的識別準確度(> 80%))模型需要多少個句子?
- 我如何知道模型是否已正確訓練?模型中的係數會開始出現隨機波動嗎?如果是這樣,我如何區分隨機波動和模型更新引起的實際變化?
如果需要更多標籤,請隨時重新標記此問題。
您可以將數據集分割成具有 10%、20%、30%、…、100% 數據的連續子集,並為每個子集使用 k 折交叉驗證或引導法估計估計器準確度的方差。如果您有“足夠”的數據,則繪製方差應顯示一條遞減的單調線,該單調線應在 100% 之前達到穩定水平:添加更多數據不會以任何顯著方式降低估計器準確性的方差。