Dataset

我在哪裡可以找到對測試我自己的機器學習實現有用的數據集?[關閉]

  • August 1, 2012

我目前正在嘗試自己實現一些機器學習算法。它們中的許多具有難以調試的令人討厭的特性,一些錯誤不會導致程序崩潰,而是無法按預期工作,並且看起來算法只會給出較弱的結果。

我想有一些方法來增加我對實現的信心,例如,如果我有一些小數據集,以及附加信息“算法 X 適用於 Y 迭代並在該數據集上得到結果 Z”,那將非常有幫助。有人聽說過這樣的數據集嗎?

來自UC Irvine 機器學習存儲庫

我們目前維護 223 個數據集作為機器學習社區的服務。您可以通過我們的可搜索界面查看所有數據集。對於喜歡舊格式的人,我們的舊網站仍然可用。…如果您想捐贈數據集,請查閱我們的捐贈政策。…我們還為存儲庫設置了一個鏡像站點。

此外,以下MIAS 數據集已被廣泛使用和研究:

在對算法進行基準測試時,建議使用標準測試數據庫(數據集),以便研究人員能夠直接比較結果。大多數乳房 X 線攝影數據庫不公開。最容易訪問的數據庫,因此也是最常用的數據庫是乳腺 X 線圖像分析協會 (MIAS) 數據庫和乳腺 X 線篩查數字數據庫 (DDSM)。此外,目前很少有項目開發新的乳腺圖像數據庫以及一些舊項目。

引用自:https://stats.stackexchange.com/questions/33475

comments powered by Disqus

相關問答