Classification
電影評分預測的分類模型
我對數據挖掘有點陌生,我正在研究用於電影評分預測的分類模型。
我從 IMDB 收集了數據集,我計劃為我的模型使用決策樹和最近鄰方法。我想知道哪個免費提供的數據挖掘工具可以提供我需要的功能。
海因,
有很多具有可用功能的工具和庫。
選擇哪一個取決於您是想在工作中使用 gui 還是想將其嵌入到其他程序中。
獨立的數據挖掘工具(有像 WEKA 這樣的帶有 Java 接口的其他工具):
- 快速礦工
- 橘子
- R的撥浪鼓gui
- 刀
基於文本:
- GNU R
庫:
- 用於 Python 的 Scikit
- Hadoop 上的 Mahout
如果您足夠了解一種編程語言,我會使用該語言的庫或嘗試 R。如果沒有,您可以嘗試使用 gui 的工具之一。
R中的樹示例:
# we are using the iris dataset data(iris) # for our tree based model we use the rpart package # to download it type install.packages("rpart") library(rpart) # Building the tree fit <- rpart(Species ~ Petal.Length + Petal.Width, method="class", data=iris) # Plot the tree plot(fit) text(fit)
正如建議的那樣,使用 R 進行分析需要您自己編寫代碼,但您會找到一個適用於大多數分類任務的包,它可以開箱即用。可以在此處找到概述機器學習任務視圖
要開始使用 RapidMinder,您應該看看 Youtube。有一些截屏視頻,甚至是決策樹。