Interpretation
最可解釋的分類模型
除了決策樹和邏輯回歸,還有哪些分類模型可以提供良好的解釋?我對準確性或其他參數不感興趣,只有結果的解釋很重要。
1)我認為決策樹並不像人們想像的那樣可解釋。它們看起來是可解釋的,因為每個節點都是一個簡單的二元決策。問題是當你沿著樹向下走時,每個節點都取決於它上面的每個節點。如果你的樹只有四五層深,將一個終端節點的路徑(四五分)轉換為可解釋的東西仍然不是太難(例如“這個節點反映了長期客戶,他們是擁有多個賬戶的高收入男性"),但嘗試跟踪多個終端節點是很困難的。
如果您所要做的就是讓客戶相信您的模型是可解釋的(“看,這裡的每個圓圈都有一個簡單的是/否決定,很容易理解,不是嗎?”)那麼我會在您的列表中保留決策樹. 如果您想要可操作的可解釋性,我建議他們可能不會成功。
2)另一個問題是澄清“結果的可解釋性”是什麼意思。我在四種情況下遇到了可解釋性:
- 客戶能夠理解該方法。(不是你要問的。)通過類比可以很直接地解釋隨機森林,一旦簡單解釋,大多數客戶都會對它感到滿意。
- 解釋該方法如何適合模型。(我有一個客戶堅持要我解釋如何擬合決策樹,因為他們認為這將幫助他們理解如何更智能地使用結果。在我寫了一個非常好的文章,有很多漂亮的圖表之後,他們放棄了這個主題。這對解釋/理解沒有幫助。)同樣,我相信這不是你要問的。
- 擬合模型後,解釋模型對預測變量的“相信”或“說法”。在這裡,決策樹看起來可以解釋,但比第一印象複雜得多。邏輯回歸在這里相當簡單。
- 對特定數據點進行分類時,解釋做出該決定的原因。為什麼你的邏輯回歸說這是 80% 的欺詐機會?為什麼你的決策樹說它是低風險的?如果客戶端對打印出通向終端節點的決策節點感到滿意,這對於決策樹來說很容易。如果“為什麼”需要用人話來概括(“這個人被評為低風險,因為他們是長期男性客戶,在我們公司有高收入和多個賬戶”),那就更難了。
因此,在可解釋性或可解釋性的一個級別(上面的#1 和一點#4),K-Nearest Neighbor很容易:“這個客戶被判斷為高風險,因為 10 個客戶中有 8 個之前接受過評估並且是最在 X、Y 和 Z 方面與他們相似,被發現是高風險的。” 在可操作的完整級別 #4 中,它不是那麼可解釋的。(我曾想過向他們展示其他 8 位客戶,但這需要他們深入了解這些客戶,以手動找出這些客戶的共同點,以及評級客戶與他們的共同點。)
我最近閱讀了幾篇關於使用類似敏感性分析的方法來嘗試提出類型 #4 的自動解釋的論文。不過,我手頭沒有。也許有人可以在評論中添加一些鏈接?