R

當您有大 N、離散數據和許多變量時,如何從散點圖矩陣中提取信息?

  • December 17, 2014

我正在研究乳腺癌數據集並創建了所有屬性的散點圖,以了解哪些屬性對預測(紅色)的類別malignant(藍色)影響最大benign

我知道行代表 x 軸,列代表 y 軸,但我看不到我可以對此散點圖中的數據或屬性進行哪些觀察。

我正在尋找一些幫助來解釋/觀察這個散點圖中的數據,或者我是否應該使用其他可視化來可視化這些數據。

在此處輸入圖像描述

我使用的 R 代碼

link   <- "http://www.cs.iastate.edu/~cs573x/labs/lab1/breast-cancer-wisconsin.arff"
breast <- read.arff(link)
cols   <- character(nrow(breast))
cols[] <- "black"
cols[breast$class == 2] <- "red"
cols[breast$class == 4] <- "blue"
pairs(breast, col=cols)

我不確定這是否對您有任何幫助,但對於初級 EDA,我真的很喜歡這個tabplot包。讓您很好地了解數據中可能存在的相關性。

install.packages("tabplot")
tableplot(breast) # gives you the unsorted image below
tableplot(breast, sortCol="class") # gives you a sorted image according to class

無序圖 有序圖

引用自:https://stats.stackexchange.com/questions/129522

comments powered by Disqus