檢驗兩個多項式樣本是否來自同一分佈

November 18, 2013

這應該是一個非常基本的問題，但我無法弄清楚我哪裡出錯了。下面的矩陣包含有關兩個甕中球的顏色分佈的數據。我正在尋找一種正式的方法，可以告訴我兩者的內容是否來自相同的人口分佈。
freqs = c(25,94,85,47,13,1685)
data = matrix(freqs, nrow=2)
dimnames(data) = list("treatment"=c("Urn1","Urn2"), "outcome"=c("Blue","Green","Red"))
繪製每個 urn 的（基於頻率的）MLE，我可以定性地觀察 Urn1 和 Urn2 的顏色分佈看起來非常不同。
toplot<- as.matrix(rbind(data[1,],data[2,] ))
barplot(toplot, beside = TRUE, col = c("green", "gray"), las=2); 
我看過獨立性測試用於檢查像我這樣的兩個樣本集之間的“關聯”。當我運行測試（下）時，我得到 p_value < 2.2e-16（下），它接受（？）樣本集 Urn1 的顏色分佈獨立於 Urn2 的顏色分佈的零假設。我曾期望看到一個測試結果，表明這兩個樣本集來自獨立/不同的人口分佈。

我想我在這裡混合概念。我是否嘗試使用測試它不適合的東西？如果是這樣，我應該使用哪種方法進行簡單比較？
result <- chisq.test(data)

#   Pearson's Chi-squared test
#
#data:  data
#X-squared = 884.9506, df = 2, p-value < 2.2e-16

您正確執行了- 獨立性檢驗，因此唯一的問題在於其假設的製定和檢驗結果的解釋：

這- 獨立性檢驗檢驗零假設“兩種顏色分佈相等”與任何差異的工作假設。p值小於預設水平，所以你拒絕原假設並聲稱大約確信顏色在骨灰盒之間分佈不同。

術語“獨立性”測試有時有點令人困惑，但如果您考慮列聯表背後的“原始”數據會更清楚：
Color   Urn
Blue      1
Blue      2
Green     2
Red       1
Blue      1
...
變量“Urn”獨立於隨機變量“Color”的原假設等價於上述原假設。所以這不是關於兩種顏色分佈的獨立性，而是關於顏色和甕的獨立性。

請注意，較大的 p 值並不意味著顏色分佈相等。這將很難通過“經典”統計方法來顯示。

引用自：https://stats.stackexchange.com/questions/76898

comments powered by Disqus

檢驗兩個多項式樣本是否來自同一分佈

相關問答

這是p-hacking嗎？

為什麼對於小樣本量，精確檢驗優於卡方檢驗？

是否有標準的擬合度量來驗證探索性因素分析？

炸彈在哪裡：如何估計概率，給定行和列總數？

如何使用 Python 統計證明列是否具有分類數據

R：計算給定卡方和自由度的 p 值