Classification

如何做一類文本分類?

  • September 8, 2012

我必須處理文本分類問題。網絡爬蟲爬取某個域的網頁,對於每個網頁,我想知道它是否只屬於一個特定的類。也就是說,如果我稱這個類為Positive,每個爬取的網頁要么屬於Positive類,要么屬於**Non-Positive類。

我已經有大量針對Positive類的網頁訓練集。但是如何為非陽性類創建一個盡可能具有代表性的訓練集呢?我的意思是,我基本上可以使用該課程的所有內容。我可以只收集一些絕對不屬於Positive類的任意頁面嗎?我確信文本分類算法(我更喜歡使用樸素貝葉斯算法)的性能很大程度上取決於我為類Non-Positive選擇的網頁。

那我該怎麼辦?有人可以給我一個建議嗎?非常感謝你!

Spy EM 算法正好解決了這個問題。

S-EM 是一種文本學習或分類系統,它從一組正樣本和未標記樣本(無負樣本)中學習。它基於“間諜”技術、樸素貝葉斯和 EM 算法。

基本思想是將你的正集與一大堆隨機抓取的文檔結合起來。您最初將所有爬網文檔視為負類,並在該集合上學習一個樸素貝葉斯分類器。現在,其中一些爬網文檔實際上是肯定的,您可以保守地重新標記得分高於最低得分的真陽性文檔的任何文檔。然後你迭代這個過程,直到它穩定。

引用自:https://stats.stackexchange.com/questions/35917

comments powered by Disqus