R
當您有大 N、離散數據和許多變量時,如何從散點圖矩陣中提取信息?
我正在研究乳腺癌數據集並創建了所有屬性的散點圖,以了解哪些屬性對預測(紅色)的類別
malignant
(藍色)影響最大benign
。我知道行代表 x 軸,列代表 y 軸,但我看不到我可以對此散點圖中的數據或屬性進行哪些觀察。
我正在尋找一些幫助來解釋/觀察這個散點圖中的數據,或者我是否應該使用其他可視化來可視化這些數據。
我使用的 R 代碼
link <- "http://www.cs.iastate.edu/~cs573x/labs/lab1/breast-cancer-wisconsin.arff" breast <- read.arff(link) cols <- character(nrow(breast)) cols[] <- "black" cols[breast$class == 2] <- "red" cols[breast$class == 4] <- "blue" pairs(breast, col=cols)
我不確定這是否對您有任何幫助,但對於初級 EDA,我真的很喜歡這個
tabplot
包。讓您很好地了解數據中可能存在的相關性。install.packages("tabplot") tableplot(breast) # gives you the unsorted image below tableplot(breast, sortCol="class") # gives you a sorted image according to class