Hypothesis-Testing

進行單尾 Kolmogorov-Smirnov 檢驗有意義嗎?

  • July 11, 2014

進行單尾KS測試是否有意義且可能?這種檢驗的原假設是什麼?或者 KS 測試本質上是一個雙尾測試?

我會從一個幫助我了解分佈的答案中受益 $ D $ (我正在研究梅西 1951 年的論文,發現描述具有挑戰性,例如 $ D^{+} $ 和 $ D^{-} $ 經驗CDF中差異的非絕對值的差異的上確界和下確界?)。

後續問題:怎麼樣 $ p $ -值 $ D^{+} $ 和 $ D^{-} $ 獲得?我遇到的許多出版物都提供了表格值,而不是 CDF $ D_{n} $ , $ D^{+} $ 和 $ D^{-} $ .

**更新:**我剛剛發現了相關問題什麼是單邊 Kolmogorov-Smirnov 檢驗中的零假設?,在寫這篇文章之前,我在初次掃描時錯過了它。

進行單尾KS測試是否有意義且可能?

毫無疑問,單尾通常與 Kolmogorov-Smirnov 一起使用。因為我們同時討論了許多差異(cdf 是一個函數,而不是一個值),所以差異的方向不是一個固定的東西 - cdf 可能在一個地方更大而在另一個地方更少(所以兩個方向測試可能同時很重要)。

KS測試本質上是雙尾測試嗎?

一點也不。

這種檢驗的原假設是什麼?

您不清楚您是在談論一個樣本還是兩個樣本測試。我在這裡的回答涵蓋了兩者——如果你認為 $ F_X $ 代表人口的 cdf $ X $ 樣本被抽取,它是兩個樣本,而您通過以下方式獲得一個樣本案例 $ F_X $ 作為一些假設的分佈( $ F_0 $ , 如果你比較喜歡)。

在某些情況下,您可以將 null 寫為等式(egif,它被認為不可能以另一種方式進行),但是如果您想為單尾替代方案編寫定向 null,您可以編寫類似這樣的內容:

$ H_0: F_Y(t)\geq F_X(t) $

$ H_1: F_Y(t)< F_X(t), $ , 對於至少一個 $ t $

(或者它與另一條尾巴相反,自然)

如果我們在使用測試時添加一個假設,即它們相等或 $ F_Y $ 會更小,然後拒絕 null 意味著(一階)隨機排序/一階隨機優勢。在足夠大的樣本中,F 有可能交叉 - 甚至多次,並且仍然拒絕單邊測試,因此嚴格需要假設隨機優勢才能成立。

鬆散地如果 $ F_Y(t)\leq F_X(t) $ 至少有一些嚴格的不等式 $ t $ 然後 $ Y $ “往往大於” $ X $ .

添加這樣的假設並不奇怪。這是標準的。這與假設(例如在 ANOVA 中)均值的差異是由於整個分佈的變化(而不是偏度的變化,其中一些分佈向下移動,一些分佈向上移動,但在這樣的均值改變的方式)。


因此,讓我們考慮一下,例如,法線的均值變化:

在此處輸入圖像描述

事實上,分佈為 $ Y $ 從那個為右移了一些量 $ X $ 暗示 $ F_Y $ 低於 $ F_X $ . 在這種情況下,片面的 Kolmogorov-Smirnov 檢驗將傾向於拒絕。

類似地,考慮 gamma 中的比例偏移:

在此處輸入圖像描述

同樣,向更大範圍的轉變會產生較低的 F。同樣,在這種情況下,單邊 Kolmogorov-Smirnov 檢驗將傾向於拒絕。

在許多情況下,這種測試可能是有用的。


那麼什麼是 $ D^+ $ 和 $ D^- $ ?

在單樣本測試中, $ D^+ $ 是樣本 cdf 與假設曲線的最大偏差(即 ECDF 上方的最大距離 $ F_0 $ , 儘管 $ D^- $ 是最大偏差 - ECDF 低於的最大距離 $ F_0 $ )。兩個都 $ D^+ $ 和 $ D^- $ 是正數:

在此處輸入圖像描述

單尾 Kolmogorov-Smirnov 測試將查看 $ D^+ $ 或者 $ D^- $ 取決於替代的方向。考慮一尾一樣本測試:

$ H_0: F_Y(t)\geq F_0(t) $

$ H_1: F_Y(t)< F_0(t), $ , 對於至少一個 $ t $

為了測試這個——我們想要對 $ Y $ 隨機地大於假設(它的真實 $ F $ 低於 $ F_0 $ )。如此異常大的值 $ D^- $ 當備選方案為真時,往往會發生。因此,針對替代方案進行測試 $ F_Y(t)< F_0(t) $ , 我們用 $ D^- $ 在我們的單尾測試中。


後續問題:p 值如何 $ D^+ $ 和 $ D^− $ 獲得?

這不是一件簡單的事情。已經使用了多種方法。

如果我沒記錯的話,其中一種分佈是通過使用布朗橋過程獲得的(本文檔似乎支持該回憶)。

我相信這篇論文和 Marsaglia等人 論文都涵蓋了一些背景知識,並提供了許多參考的計算算法。

在這些之間,您將獲得很多歷史和已使用的各種方法。如果它們不能滿足您的需求,您可能需要將此作為一個新問題提出。

我遇到的許多出版物都提供了表格值,而不是 CDF $ D_n $ , $ D^+ $ 和 $ D^− $

這並不特別令人驚訝。如果我沒記錯的話,即使是漸近分佈也是作為一個序列獲得的,並且在有限樣本中它是離散的,而不是任何簡單的形式。在任何一種情況下,都沒有方便的方式來呈現信息,除了圖形或表格。

引用自:https://stats.stackexchange.com/questions/107668

comments powered by Disqus