Machine-Learning
MFCC 是向檢索系統表示音樂的最佳方法嗎?
一種信號處理技術,即梅爾頻率倒譜,通常用於從樂曲中提取信息,以用於機器學習任務。該方法給出了一個短期功率譜,並將係數用作輸入。
在設計音樂檢索系統時,這些係數被認為是樂曲的特徵(顯然不一定是唯一的,而是有區別的)。有沒有更適合網絡學習的特徵?像Elman 網絡中使用的樂曲的低音進展這樣的時變特徵會更有效地工作嗎?
哪些特徵會形成一個足夠廣泛的集合,從而可以進行分類?
我們曾經在這方面做了一些工作。我們提取的特徵集在NIPS 研討會論文中給出。我不得不承認我們無法複製該領域其他一些作者的結果,儘管對其中使用的數據集存在一些疑問(請注意,該領域作者使用的數據集往往是手工挑選的,沒有發布出於版權原因,向公眾開放,儘管並非總是如此)。本質上它們都是短期光譜特徵也加入了自回歸係數。我們正在研究類型的分類,我們知道人類可以在非常短的時間跨度(<1s)內完成(儘管準確性不高,並且不一致……),這驗證了短期特徵的使用. 如果您有興趣做比典型的流派/藝術家/專輯/製作人分類更複雜的事情,那麼您可能需要更多的長期特徵,否則這些短期光譜特徵往往表現最好。