Machine-Learning
硬投票,基於集成方法的軟投票
我正在閱讀使用 Scikit-Learn 和 TensorFlow 進行動手機器學習:構建智能係統的概念、工具和技術。然後我無法弄清楚硬投票和軟投票在基於集合的方法的上下文中的區別。
我引用了書中對它們的描述。頂部的前兩張圖片是硬投票的描述,最後一張是軟投票的描述。
在我看來,硬投票是多數決定,但我不理解軟投票以及軟投票比硬投票更好的原因。有人會教我這些嗎?
讓我們舉一個簡單的例子來說明這兩種方法是如何工作的。
想像一下,您有 3 個分類器(1、2、3)和兩個類(A、B),並且在訓練之後您正在預測單個點的類。
硬投票
預測:
分類器 1 預測 A 類
分類器 2 預測 B 類
分類器 3 預測 B 類
2/3 分類器預測 B 類,因此B 類是集成決策。
軟投票
預測
(這與前面的示例相同,但現在以概率表示。此處僅顯示 A 類的值,因為問題是二元的):
分類器 1 以 99% 的概率預測 A 類
分類器 2 以 49% 的概率預測 A 類
分類器 3 以 49% 的概率預測 A 類
在分類器中屬於 A 類的平均概率是
(99 + 49 + 49) / 3 = 65.67%
。因此,A 類是集成決策。
所以你可以看到,在同樣的情況下,軟投票和硬投票會導致不同的決定。軟投票可以改進硬投票,因為它考慮了更多的信息;它在最終決策中使用每個分類器的不確定性。分類器 2 和 3 的高不確定性本質上意味著最終的集成決策強烈依賴於分類器 1。
這是一個極端的例子,但這種不確定性改變最終決定的情況並不少見。