最可解釋的分類模型

September 14, 2016

除了決策樹和邏輯回歸，還有哪些分類模型可以提供良好的解釋？我對準確性或其他參數不感興趣，只有結果的解釋很重要。

1）我認為決策樹並不像人們想像的那樣可解釋。它們看起來是可解釋的，因為每個節點都是一個簡單的二元決策。問題是當你沿著樹向下走時，每個節點都取決於它上面的每個節點。如果你的樹只有四五層深，將一個終端節點的路徑（四五分）轉換為可解釋的東西仍然不是太難（例如“這個節點反映了長期客戶，他們是擁有多個賬戶的高收入男性")，但嘗試跟踪多個終端節點是很困難的。

如果您所要做的就是讓客戶相信您的模型是可解釋的（“看，這裡的每個圓圈都有一個簡單的是/否決定，很容易理解，不是嗎？”）那麼我會在您的列表中保留決策樹. 如果您想要可操作的可解釋性，我建議他們可能不會成功。

2）另一個問題是澄清“結果的可解釋性”是什麼意思。我在四種情況下遇到了可解釋性：

客戶能夠理解該方法。（不是你要問的。）通過類比可以很直接地解釋隨機森林，一旦簡單解釋，大多數客戶都會對它感到滿意。

解釋該方法如何適合模型。（我有一個客戶堅持要我解釋如何擬合決策樹，因為他們認為這將幫助他們理解如何更智能地使用結果。在我寫了一個非常好的文章，有很多漂亮的圖表之後，他們放棄了這個主題。這對解釋/理解沒有幫助。）同樣，我相信這不是你要問的。

擬合模型後，解釋模型對預測變量的“相信”或“說法”。在這裡，決策樹看起來可以解釋，但比第一印象複雜得多。邏輯回歸在這里相當簡單。

對特定數據點進行分類時，解釋做出該決定的原因。為什麼你的邏輯回歸說這是 80% 的欺詐機會？為什麼你的決策樹說它是低風險的？如果客戶端對打印出通向終端節點的決策節點感到滿意，這對於決策樹來說很容易。如果“為什麼”需要用人話來概括（“這個人被評為低風險，因為他們是長期男性客戶，在我們公司有高收入和多個賬戶”），那就更難了。

因此，在可解釋性或可解釋性的一個級別（上面的#1 和一點#4），K-Nearest Neighbor很容易：“這個客戶被判斷為高風險，因為 10 個客戶中有 8 個之前接受過評估並且是最在 X、Y 和 Z 方面與他們相似，被發現是高風險的。” 在可操作的完整級別 #4 中，它不是那麼可解釋的。（我曾想過向他們展示其他 8 位客戶，但這需要他們深入了解這些客戶，以手動找出這些客戶的共同點，以及評級客戶與他們的共同點。）

我最近閱讀了幾篇關於使用類似敏感性分析的方法來嘗試提出類型 #4 的自動解釋的論文。不過，我手頭沒有。也許有人可以在評論中添加一些鏈接？

引用自：https://stats.stackexchange.com/questions/235007

最可解釋的分類模型

相關問答

所有機器學習算法是否都分為分類和回歸，而不僅僅是監督學習？

（為什麼）絕對損失不是正確的計分規則嗎？

監督學習是強化學習的一個子集嗎？

K=1 時 KNN 分類器中的訓練誤差

什麼是人工神經網絡？

為什麼我們不使用對稱交叉熵損失？