Classification

不確定類標籤的分類器

  • October 29, 2013

假設我有一組帶有關聯類標籤的實例。如何標記這些實例並不重要,重要的是它們的類成員身份的確定程度*。每個實例恰好屬於一個*類。假設我可以用從 1 到 3 的名義屬性來量化每個類成員的確定性(分別是非常確定到不確定)。

是否有某種分類器考慮了這種確定性度量,如果是,它是否在 WEKA 工具包中可用?

我想這種情況經常發生,例如當人類對實例進行分類時,並不總是完全確定。就我而言,我必須對圖像進行分類,有時一張圖像可能屬於多個類別。如果發生這種情況,我會給這個類一個很高的不確定性,但仍然只將它分類為一個類。

或者在沒有專門的分類器的情況下,有沒有其他方法可以解決這個問題?例如,只採用“某些”分類進行訓練?我擔心在這種情況下,會出現更多的錯誤分類,因為沒有涵蓋“邊界”案例。

首先,正如@Marc Claesen 已經解釋的那樣,半監督分類是處理您知道類別確實不同但您不確定案例實際屬於哪個類別的情況的技術之一。

但是,也有相關的情況,其中“現實”並不那麼清楚,並且沒有滿足具有真正不同類的假設:邊界案例可能是“物理”現實(有關應用程序的論文,請參見下文我們遇到了這樣的條件)。

您需要確保滿足半監督分類器的一個關鍵假設:假設在特徵空間中,類邊界伴隨著低樣本密度。這被稱為集群假設。

即使您的數據背後的現實具有不同的類別,您的數據集也可能具有不成比例的更多邊界案例:例如,如果您的分類技術旨在對困難案例進行分類,而對清晰和簡單的案例不感興趣,並且您的訓練數據已經反映了這一點情況。

只採用“某些”分類進行訓練?我擔心在這種情況下,會出現更多的錯誤分類,因為沒有涵蓋“邊界”案例。

我完全同意你的觀點,排除邊緣情況通常是一個壞主意:通過刪除所有困難的情況,你最終會得到一個人為的簡單問題。恕我直言,更糟糕的是,排除邊界案例通常不會停止模型訓練,但邊界案例也被排除在測試之外,因此僅使用簡單案例來測試模型。這樣一來,您甚至都不會意識到該模型在臨界情況下表現不佳。

這是我們寫的兩篇關於與您的不同的問題的論文,因為在我們的應用程序中,現實也可以有“混合”類(您的問題的更一般版本:參考標籤中的不確定性也包括在內)。

  • 應用:腦腫瘤診斷。我們使用邏輯回歸。半監督建模是不合適的,因為我們不能假設類邊界的樣本密度低。

C. Beleites、K. Geiger、M. Kirsch、SB Sobottka、G. Schackert 和 R. Salzer:星形細胞瘤組織的拉曼光譜分級:使用軟參考信息,肛門。生物肛門。化學,400 (2011),2801 - 2816。

  • 理論論文得出了一個通用框架,用於測量分類器在邊緣情況下的性能。

[C. Beleites、R. Salzer 和 V. Sergo:

使用部分類成員身份驗證軟分類模型:敏感性 & Co. 的擴展概念應用於星形細胞瘤組織

Chemom 的分級。英特爾。實驗室。系統,122(2013),12 - 22。](http://softclassval.r-forge.r-project.org/2013/2013-01-03-ChemomIntellLabSystTheorypaper.html)

鏈接轉到我為進行性能計算而開發的 R 包的項目頁面。官方網頁和我的論文手稿都有進一步的鏈接。雖然到目前為止我還沒有使用過 Weka,但我知道 R 的接口是可用的


實際考慮:

  • 雖然複製和標記不同的方法很簡單,但它在實踐中並不適用於所有分類器和實現。例如,AFAIK 無法libSVM通過交叉驗證告訴調整每個數據點的所有副本都需要保存在相同的交叉驗證折疊中。因此libSVM,調整可能會產生一個大規模的過擬合模型。
  • 同樣對於邏輯回歸,我發現許多實現不允許我需要的部分成員標籤。
  • 我在上面的論文中使用的實現實際上是一個沒有隱藏層的人工神經網絡,它使用邏輯作為 sigmoidal 鏈接函數 ( nnet::multinom)。

引用自:https://stats.stackexchange.com/questions/74042

comments powered by Disqus