Classification

電影評分預測的分類模型

  • November 22, 2011

我對數據挖掘有點陌生,我正在研究用於電影評分預測的分類模型。

我從 IMDB 收集了數據集,我計劃為我的模型使用決策樹和最近鄰方法。我想知道哪個免費提供的數據挖掘工具可以提供我需要的功能。

海因,

有很多具有可用功能的工具和庫。

選擇哪一個取決於您是想在工作中使用 gui 還是想將其嵌入到其他程序中。

獨立的數據挖掘工具(有像 WEKA 這樣的帶有 Java 接口的其他工具):

  • 快速礦工
  • 橘子
  • R的撥浪鼓gui

基於文本:

  • GNU R

庫:

  • 用於 Python 的 Scikit
  • Hadoop 上的 Mahout

如果您足夠了解一種編程語言,我會使用該語言的庫或嘗試 R。如果沒有,您可以嘗試使用 gui 的工具之一。

R中的樹示例:

# we are using the iris dataset
data(iris)

# for our tree based model we use the rpart package
# to download it type install.packages("rpart")
library(rpart)

# Building the tree
fit <- rpart(Species ~ Petal.Length + Petal.Width, method="class", data=iris)

# Plot the tree
plot(fit)
text(fit)

正如建議的那樣,使用 R 進行分析需要您自己編寫代碼,但您會找到一個適用於大多數分類任務的包,它可以開箱即用。可以在此處找到概述機器學習任務視圖

要開始使用 RapidMinder,您應該看看 Youtube。有一些截屏視頻,甚至是決策樹。

引用自:https://stats.stackexchange.com/questions/18774

comments powered by Disqus