Kolmogorov-Smirnov-Test
為什麼KS測試給出了顯著的結果?
我有兩個樣本,我想知道它們的分佈是否顯著不同。我進行了 Kolmogorov-Smirnov 檢驗,該檢驗拒絕了原假設 (D=0.0983, p=2.14e-11),這讓我相信樣本確實來自不同的分佈。問題是,我如何確定這些樣本有什麼顯著不同?分佈的均值是否不同?歪斜?別的東西?相互檢查直方圖不會立即顯示差異。當然,紅色樣本的值比藍色樣本略低,但這就是導致 KS 檢驗顯著的原因嗎?我如何知道導致 KS 檢驗零假設失敗的原因?
紅色樣本量 = 1306 藍色樣本量 = 646,513
KS 是一項綜合性測試。它沒有識別差異的形式。
您可以確定 ECDF 差異最大的一個或多個地方,但這並不總是能告訴您太多。
您可以發現 ECDF 中的某些變化。這裡有一些例子:
如果您查看帖子中的 ECDF,您會發現藍色 cdf 在幾乎整個範圍內都低於紅色(這意味著藍色值通常更大*),儘管形狀大致相似。
- 您還可以在直方圖中看到,最左邊的條中的粉紅色較高,但超過 300 條時,藍色條通常要高一些。
所以無論如何,這就是我描述分佈的主要差異的方式(總體形狀有點相似,但藍色類別中的值平均而言往往更大一些)。我不會將其描述為位置轉移或規模轉移。
讓我擔心的一件事是分佈看起來非常離散。如果是這樣,來自 Kolmogorov-Smirnov 檢驗的 p 值並不是特別有意義。
你的樣本量是多少?