數據挖掘中關聯規則和決策樹之間的實際區別是什麼?
這兩種技術之間的實際差異是否有一個非常簡單的描述?
- 兩者似乎都用於監督學習(儘管關聯規則也可以處理無監督學習)。
- 兩者都可以用於預測
我發現最接近“好”描述的是Statsoft Textbook。他們說關聯規則用於:
…檢測大型數據集中分類變量的特定值之間的關係或關聯。
雖然決策樹分類器被描述為用於:
…根據對一個或多個預測變量的測量來預測分類因變量類別中的案例或對象的成員資格。
但是,在 R Data Mining 中,他們給出了關聯規則與目標字段一起使用的示例。
所以兩者都可以用來預測組成員,決策樹可以處理非分類輸入數據而關聯規則不能處理的關鍵區別是什麼?還是有更根本的東西?一個站點(sqlserverdatamining.com)說關鍵區別是:
決策樹規則基於信息增益,而關聯規則基於流行度和/或置信度。
那麼(可能回答我自己的問題)這是否意味著關聯規則僅根據它們在數據集中出現的頻率(以及它們“真實”的頻率)進行評估,而決策樹實際上是在試圖最小化方差?
如果有人知道一個很好的描述,他們會願意向我指出,那就太好了。
基本上,決策樹是一種純粹的分類技術。這些技術旨在利用其特徵標記未知類別的記錄。他們基本上映射了一組記錄特徵(屬性,變量)放入類屬性(目標變量),分類的對象。之間的關係和使用一組標記的記錄來學習,定義為訓練集。分類模型的最終目的是最小化未標記記錄的錯誤分類錯誤,其中模型預測的類別與真實類別不同。特點可以是分類的或連續的。
關聯分析第一個應用程序是關於購物籃分析的,在這些應用程序中,您有興趣找出項目之間的關聯,而不特別關注目標項目。常用的數據集是事務性數據集:事務集合中的每一個都包含一組項目。例如:
您有興趣找出規則,例如
事實證明,您可以將關聯分析用於某些特定的分類任務,例如當您的所有特徵都是分類時。您只需將項目視為特徵,但這不是關聯分析的誕生目的。