Correlation
生成具有高相關係數的值集
如果這太簡單了,請道歉。我無法讓更高級的 r-help 小組做出回應。
我計劃通過測量兩組實際值的相關係數來表徵工作負載,但在此之前我希望生成兩組具有高係數和低係數的樣本值。我想將兩者都繪製在同一張圖中,以便我可以看到高度相關的值(峰和谷)。我使用 R 並且了解 rseek。
如果有任何特定的 R 書籍可以幫助我進行容量規劃工作,我會購買它。
目前,生成一個與現有變量具有定義相關性的隨機變量對我來說有點太先進了。
注意:我要繪製的兩組值是相關的,因為我正在繪製 CPU 使用率和吞吐量數。因此,如果字節數增加,CPU 使用率可能會增加。兩者都是正值。因此,如果相關性很高,兩者要么一起增加,要么一起減少。
謝謝。
例如,您可以從二元正態分佈生成數據。方差-協方差矩陣的非對角項是協方差。在 R 中,這可以通過rmvnorm輕鬆完成。
示例 生成從實現和
和這樣.
> #------load the package------ > library(mvtnorm) > #---------------------------- > > #------compute the covariance such that cor(X1, X2) = 0.85------ > covariance <- 0.85 * sqrt(0.7) * sqrt(0.1) > #--------------------------------------------------------------- > > #------variance-covariance matrix------ > sigma <- matrix(c(0.7, covariance, covariance, 0.1), nrow=2, byrow=TRUE) > sigma [,1] [,2] [1,] 0.7000000 0.2248889 [2,] 0.2248889 0.1000000 > #-------------------------------------- > > #------data generation------ > test <- rmvnorm(n=1000, mean=c(-1, 5), sigma=sigma) > #--------------------------- > > #------compute the empirical correlation on this particular data------ > cor(test[, 1], test[, 2]) [1] 0.8478849 > #---------------------------------------------------------------------
注意:您還可以根據線性回歸模型生成數據:.