Hypothesis-Testing

非參數測試究竟完成了什麼?你如何處理結果?

  • August 12, 2013

我有一種感覺,這可能已在其他地方被問過,但並不是我需要的基本描述類型。我知道非參數依賴於中位數而不是平均值來比較……一些東西。我也相信它依賴於“自由度”(?)而不是標準偏差。不過,如果我錯了,請糾正我。

我已經做了很好的研究,或者我想,試圖理解這個概念,它背後的工作原理,測試結果的真正含義,和/或如何處理測試結果;然而,似乎沒有人涉足該領域。

為了簡單起見,讓我們堅持使用 Mann-Whitney U-test,我注意到它非常流行(而且似乎也被濫用和過度使用,以迫使一個人的“方形模型進入圓孔”)。如果您也想描述其他測試,請隨意,儘管我覺得一旦我理解了一個,我就可以以類似於各種 t 檢驗等的方式理解其他測試。

假設我用我的數據運行了一個非參數測試,我得到了這個結果:

2 Sample Mann-Whitney - Customer Type       

Test Information        
H0: Median Difference = 0       
Ha: Median Difference ≠ 0       

Size of Customer    Large   Small
Count                    45    55
Median                    2     2

Mann-Whitney Statistic: 2162.00 
p-value (2-sided, adjusted for ties):   0.4156  

我熟悉其他方法,但這裡有什麼不同?我們是否應該希望 p 值低於 0.05?“曼-惠特尼統計”是什麼意思?它有什麼用嗎?這裡的信息是否只是驗證或不驗證我擁有的特定數據源應該或不應該使用?

我在回歸和基礎方面有相當多的經驗,但我對這種“特殊”的非參數東西非常好奇——我知道它會有自己的缺點。

想像一下我是五年級的學生,看看你能不能給我解釋一下。

我知道非參數依賴於中位數而不是平均值

在這個意義上,幾乎沒有任何非參數檢驗實際上“依賴”中位數。我只能想到一對……而我希望你可能聽說過的唯一一個就是符號測試。

比較……某事。

如果他們依靠中位數,大概是比較中位數。但是——儘管許多消息來源試圖告訴你——像符號秩檢驗、Wilcoxon-Mann-Whitney 或 Kruskal-Wallis 這樣的檢驗根本不是真正的中位數檢驗;如果您做出一些額外的假設,您可以將 Wilcoxon-Mann-Whitney 和 Kruskal-Wallis 視為中位數檢驗,但在相同的假設下(只要存在分佈均值),您同樣可以將它們視為均值檢驗.

與 Signed Rank 檢驗相關的實際位置估計是樣本內成對平均值的中位數(超過 $ \frac12 n(n+1) $ 對包括自對),Wilcoxon-Mann-Whitney 的一個是跨樣本的成對差異的中位數。

我也相信它依賴於“自由度?” 而不是標準差。如果我錯了,請糾正我。

大多數非參數檢驗沒有卡方檢驗或 F 檢驗的 t 檢驗所具有的特定意義上的“自由度”(每個檢驗都與估計的自由度數有關方差),儘管許多分佈隨樣本大小而變化,您可能會認為這有點類似於自由度,因為表格隨樣本大小而變化。樣本當然保留了它們的屬性並在這個意義上具有 n 個自由度,但測試統計量分佈的自由度通常不是我們關心的問題。有可能你有一些更像自由度的東西——例如,你當然可以提出一個論點,即 Kruskal-Wallis 確實具有與卡方基本相同的自由度,但它

可以在這裡找到關於自由度的一個很好的討論/

我已經做了很好的研究,或者我想,試圖理解這個概念,它背後的工作原理,測試結果的真正含義,和/或什至如何處理測試結果;然而,似乎沒有人冒險進入該領域。

我不確定你的意思。

我可以推荐一些書,比如 Conover 的Practical Nonparametric Statistics,如果你能得到它,Neave 和 Worthington 的書(無分佈測試),但還有很多其他的 - Marascuilo & McSweeney、Hollander & Wolfe 或 Daniel 的書。我建議你至少閱讀 3 或 4 本書最適合你的書,最好是那些盡可能以不同方式解釋事物的書(這意味著至少閱讀 6 或 7 本書中的一小部分,以找到適合的 3 本書)。

為了簡單起見,讓我們堅持使用 Mann Whitney U 測試,我注意到它非常流行

是的,這讓我對你的說法“似乎沒有人冒險進入那個地區”感到困惑——許多使用這些測試的人確實“進入了你所說的那個地區”。

  • 並且似乎被濫用和過度使用

我想說非參數測試通常沒有得到充分利用(包括 Wilcoxon-Mann-Whitney)——尤其是排列/隨機化測試,儘管我不一定會質疑它們經常被濫用(但參數測試也是如此,即使更是如此)。

假設我用我的數據運行了一個非參數測試,我得到了這個結果:

[剪斷…]

我熟悉其他方法,但這裡有什麼不同?

你指的還有哪些其他方法?你要我拿這個比什麼?

編輯:你稍後提到回歸;我假設您熟悉兩個樣本的 t 檢驗(因為它確實是回歸的一個特例)。

在普通雙樣本 t 檢驗的假設下,原假設具有兩個總體相同,而另一種情況是其中一個分佈發生了變化。如果你看下面的 Wilcoxon-Mann-Whitney 的兩組假設中的第一個,那裡正在測試的基本內容幾乎是相同的;只是 t 檢驗是基於假設樣本來自相同的正態分佈(除了可能的位置偏移)。如果原假設為真,並且伴隨的假設為真,則檢驗統計量具有 t 分佈。如果備擇假設為真,則檢驗統計量更有可能採用看起來與原假設不一致但看起來與備擇假設一致的值——我們關注最不尋常的,

這種情況與 Wilcoxon-Mann-Whitney 非常相似,但它測量與零點的偏差略有不同。事實上,當 t 檢驗的假設為真*時,它幾乎與最好的檢驗(即 t 檢驗)一樣好。

*(實際上從來沒有,儘管這並不像聽起來那麼嚴重)

wmw 在 null 和 Alternative 下

實際上,可以將 Wilcoxon-Mann-Whitney 視為對數據等級執行的有效“t 檢驗”——儘管它沒有 t 分佈;該統計量是在數據等級上計算的雙樣本 t 統計量的單調函數,因此它在樣本空間上引發相同的排序**(即等級上的“t 檢驗” - 適當地執行 -將產生與 Wilcoxon-Mann-Whitney 相同的 p 值),因此它拒絕完全相同的情況。

**(嚴格來說,部分排序,但讓我們把它放在一邊)

[你會認為僅僅使用排名會丟棄很多信息,但是當數據來自具有相同方差的正常人群時,幾乎所有關於位置偏移的信息都在排名模式中。實際數據值(取決於它們的等級)添加很少的額外信息。如果你比正常情況更重,不久之後 Wilcoxon-Mann-Whitney 檢驗就會有更好的功效,並保持其名義顯著性水平,因此排名之上的“額外”信息最終不僅會變得無信息,而且在某些情況下意義,誤導。然而,近對稱重尾是一種罕見的情況。您在實踐中經常看到的是偏度。]

基本思想非常相似,p 值具有相同的解釋(如果原假設為真,則結果的概率或更極端)——一直到位置偏移的解釋,如果你做出必要的假設(請參閱本文末尾附近對假設的討論)。

如果我對 t 檢驗進行與上圖中相同的模擬,則這些圖看起來非常相似 - x 軸和 y 軸上的比例看起來不同,但基本外觀會相似。

我們是否應該希望 p 值低於 0.05?

你不應該在那裡“想要”任何東西。這個想法是找出樣本是否比偶然解釋的更不同(在位置意義上),而不是“希望”特定的結果。

如果我說“你能去看看 Raj 的車是什麼顏色嗎?”,如果我想對它進行公正的評估,我不想讓你說“伙計,我真的,真的希望它是藍色的!它必須是藍色”。最好只是看看情況如何,而不是帶著一些“我需要它成為某種東西”。

如果您選擇的顯著性水平為 0.05,那麼當 p 值 ≤ 0.05 時,您將拒絕原假設。但是,當您有足夠大的樣本量以幾乎總是檢測到相關的效應量時,未能拒絕至少同樣有趣,因為它表明存在的任何差異都很小。

“曼·惠特利”數字是什麼意思?

Mann-Whitney統計量

只有與零假設為真時它可以採用的值分佈相比,它才真正有意義(參見上圖),這取決於任何特定程序可能使用的幾個特定定義中的哪一個。

它有什麼用嗎?

通常你並不關心確切的值本身,而是它在零分佈中的位置(無論它是或多或少是你應該在零假設為真時看到的值的典型值,還是它更極端)

(編輯:在進行此類測試時,您可以獲得或計算出一些直接信息量 - 例如位置偏移或 $ P(X<Y) $ 下面討論,實際上您可以直接從統計數據中計算出第二個,但僅統計數據並不是一個非常有用的數字)

這裡的數據是否只是驗證或不驗證我擁有的特定數據源應該或不應該使用?

該測試沒有說明“我應該或不應該使用的特定數據源”。

請參閱下面我對查看 WMW 假設的兩種方式的討論。

我在回歸和基礎知識方面有相當多的經驗,但對這種“特殊”非參數的東西非常好奇

非參數檢驗沒有什麼特別之處(我想說“標準”檢驗在許多方面甚至比典型的參數檢驗更基礎)——只要你真正理解假設檢驗。

然而,這可能是另一個問題的主題。


有兩種主要方法可以查看 Wilcoxon-Mann-Whitney 假設檢驗。

i)一種是說“我對位置偏移感興趣——也就是說,在零假設下,兩個群體具有相同的(連續)分佈,而不是一個相對於其他”

如果你做出這個假設,Wilcoxon-Mann-Whitney 工作得很好(你的替代方案只是位置轉移)

在這種情況下,Wilcoxon-Mann-Whitney 實際上是對中位數的檢驗……但同樣,它是對均值或任何其他位置等變量統計量的檢驗(例如,第 90 個百分位數,或修剪後的均值,或任何數量的其他東西),因為它們都受到位置轉移的相同影響。

這樣做的好處是它很容易解釋——而且很容易為這個位置偏移生成一個置信區間。

位置轉移

但是,Wilcoxon-Mann-Whitney 檢驗對位置偏移以外的其他類型的差異很敏感。

ii) 另一種是採取完全通用的方法。您可以將此描述為對來自群體 1 的隨機值小於來自群體 2 的隨機值的概率的測試(實際上,如果您’是如此傾斜; Mann&Whitney 公式在 U 統計量方面計算樣本中一個超過另一個的次數,你只需要規模來實現概率的估計);零是總體概率是 $ \frac{1}{2} $ , 反對它不同於的替代方案 $ \frac{1}{2} $ .

P(X<Y) 從 1/2 偏移

然而,雖然它在這種情況下可以正常工作,但該測試是在零下可交換性假設的基礎上製定的。除其他外,這將要求在空情況下兩個分佈相同。如果我們沒有那個,而是處於與上圖所示略有不同的情況,我們通常不會有顯著性水平的測試 $ \alpha $ . 在圖示的情況下,它可能會低一些。

因此,雖然它在某種意義上“有效”,即當 H0 為真時它傾向於不拒絕,而當 H) 為假時傾向於拒絕更多,但您希望分佈在 null 下非常接近相同,或者測試不表現我們期望的方式。

引用自:https://stats.stackexchange.com/questions/67204

comments powered by Disqus