Classification
具有未見類的半監督分類
考慮以下問題。您有一個大型數據集,其中的一些小子集具有來自 A、B 和 C 類的標籤。我想對未標記的項目子集進行分類,每個項目都可以來自 A、B 和 C 類,或者(至關重要)也來自其他類我還沒有看到任何標籤。
理想的結果是使用 A、B、C、D、E 等類別對未標記子集進行完整標記。
這是半監督分類的一個例子嗎?有什麼好的方法可以解決這類問題?
這是一個非常有趣的框架。
構建一對多分類器將幫助您識別 A、B、C 和“其他”。但是,在“其他”中,D、E 和其餘部分之間將無法區分。
我認為您應該對數據進行聚類以識別未知類的聚類。如果您手頭有一個距離函數,您可以評估它對已知類的分離程度。但是,您實際上可以學習適當的距離函數。
讓 L 成為您的標記數據集。為 L 中的所有對 x,y 構建一個對數據集。讓對數據集的概念為所需的距離。如果class(x)=class(y),距離應該為零。如果類別不同,則需要距離的域問題(例如,A 和 B 之間的距離可能小於 B 和 C 之間的距離)。
現在在對數據集上訓練一個回歸器。
使用回歸器作為聚類算法的距離函數。 層次聚類算法似乎很適合您的需求。
對未標記的數據運行聚類算法以獲得樣本聚類。如果您還有來自已知類的一對多分類器,請在樣本上運行它們。樣本往往不屬於已知類別的集群是新類別的候選者。