Categorical-Data

檢驗兩個多項式樣本是否來自同一分佈

  • November 18, 2013

這應該是一個非常基本的問題,但我無法弄清楚我哪裡出錯了。下面的矩陣包含有關兩個甕中球的顏色分佈的數據。我正在尋找一種正式的方法,可以告訴我兩者的內容是否來自相同的人口分佈。

freqs = c(25,94,85,47,13,1685)
data = matrix(freqs, nrow=2)
dimnames(data) = list("treatment"=c("Urn1","Urn2"), "outcome"=c("Blue","Green","Red"))

繪製每個 urn 的(基於頻率的)MLE,我可以定性地觀察 Urn1 和 Urn2 的顏色分佈看起來非常不同。

toplot<- as.matrix(rbind(data[1,],data[2,] ))
barplot(toplot, beside = TRUE, col = c("green", "gray"), las=2); 

在此處輸入圖像描述

我看過獨立性測試用於檢查像我這樣的兩個樣本集之間的“關聯”。當我運行測試(下)時,我得到 p_value < 2.2e-16(下),它接受(?)樣本集 Urn1 的顏色分佈獨立於 Urn2 的顏色分佈的零假設。我曾期望看到一個測試結果,表明這兩個樣本集來自獨立/不同的人口分佈。

我想我在這裡混合概念。我是否嘗試使用測試它不適合的東西?如果是這樣,我應該使用哪種方法進行簡單比較?

result <- chisq.test(data)

#   Pearson's Chi-squared test
#
#data:  data
#X-squared = 884.9506, df = 2, p-value < 2.2e-16

您正確執行了- 獨立性檢驗,因此唯一的問題在於其假設的製定和檢驗結果的解釋:

這- 獨立性檢驗檢驗零假設“兩種顏色分佈相等”與任何差異的工作假設。p值小於預設水平,所以你拒絕原假設並聲稱大約確信顏色在骨灰盒之間分佈不同。

術語“獨立性”測試有時有點令人困惑,但如果您考慮列聯表背後的“原始”數據會更清楚:

Color   Urn
Blue      1
Blue      2
Green     2
Red       1
Blue      1
...

變量“Urn”獨立於隨機變量“Color”的原假設等價於上述原假設。所以這不是關於兩種顏色分佈的獨立性,而是關於顏色和甕的獨立性。

請注意,較大的 p 值並不意味著顏色分佈相等。這將很難通過“經典”統計方法來顯示。

引用自:https://stats.stackexchange.com/questions/76898

comments powered by Disqus