為什麼參數測試比非參數測試更強大?
我想了解為什麼參數測試比它們的非參數替代品更強大。“功率”一詞的選擇與統計功率相同嗎?據我了解,功率僅與獲得正確拒絕錯誤/不正確零假設的 p 值的可能性有關,但我不明白這與基於正態分佈的統計檢驗有何關係。
這個答案主要是要拒絕問題中的前提。我會發表評論,要求重新表述問題,以免依賴這些前提,但它太長了,所以我想這是一個答案。
為什麼參數測試比非參數測試更強大?
作為一般性陳述,標題前提是錯誤的。參數檢驗通常並不比非參數檢驗更強大。有些書提出了這樣的一般性聲明,但除非我們非常具體地說明哪些參數測試和哪些非參數測試在哪些參數假設下,否則它是沒有意義的,並且我們發現實際上只有在我們具體選擇參數測試的情況下它通常才是正確的相對於任何其他檢驗具有最高的功效——即便如此,在非常大的樣本(效應量較小)中,通常可能存在具有等效功效的非參數檢驗。
“功率”一詞的選擇與統計功率相同嗎?
是的。但是,要計算能力,我們需要指定一組精確的假設和特定的替代方案。
我不明白這與基於正態分佈的統計測試有何關係。
術語“參數”或“非參數”與正態分佈沒有任何關係。
請參閱此處的開頭段落:
https://en.wikipedia.org/wiki/Parametric_statistics
參數統計是統計的一個分支,它假設樣本數據來自可以通過具有固定參數集的概率分佈充分建模的總體。 $ ^{[1]} $ 相反,在對數據建模時,非參數模型不假定分佈的顯式(有限參數)數學形式。但是,它可能會對該分佈做出一些假設,例如連續性或對稱性。
一些教科書(特別是為某些應用領域的學生編寫的教科書,通常由這些領域的學者編寫)對這個定義的理解非常錯誤。謹防; 以我的經驗,如果這個術語被濫用,很多其他的東西也往往是錯誤的。
我們可以做出一個真實的陳述來表達你的問題嗎?是的,但它需要大量的資格。
如果我們在某個特定的分佈假設下使用統一最強大的檢驗(如果存在這樣的檢驗),並且該分佈假設完全正確,並且所有其他假設都成立,那麼非參數檢驗不會超過該功效(否則參數檢驗畢竟不會是最強大的)。然而 - 儘管堆疊甲板有利於像這樣的參數測試 - 在許多情況下,您可以找到一個在堆疊甲板情況下具有相同大樣本能力的非參數測試 - 它只是不會是其中之一您可能以前見過的常見的基於等級的測試。
我們正在做的是在參數情況下選擇一個測試統計量,該統計量具有統計中關於與零值差異的所有信息,給定分佈假設和替代的特定形式。如果您在某些假設下優化功率,顯然您無法在這些假設下擊敗它,這就是我們所處的情況。
Conover 的書Practical Nonparametric Statistics有一節討論漸近相對效率 (ARE) 為 1 的測試,相對於假設正態性的測試。這是在正常假設下。他在那裡專注於正常分數測試(基於分數的排名測試,由於其他原因,我傾向於在大多數典型情況下避免),但這確實有助於說明參數測試聲稱的優勢可能並不總是那麼清楚。這是我傾向於關注的下一部分(關於排列測試,在“Fisher 隨機化方法”下)。無論如何,這種有利於參數假設的甲板堆疊仍然不能普遍擊敗非參數測試。
當然,在真實世界的測試情況下,這種整齊的“堆疊甲板”是不會發生的。參數模型不是關於我們真實數據的事實,而是一個模型——一種方便的近似。正如 George Box 所說,所有模型都是錯誤的。
在這種情況下,我們要問的問題是(a)“在參數假設成立的情況下,是否有一個非參數檢驗本質上與這個參數檢驗一樣強大?” (答案通常是’是')和(b)“在它不如一些合適的非參數測試強大之前,我們需要在多大程度上修改精確的參數假設?” (這通常是“幾乎沒有”)。在那種情況下,如果您不知道您處於兩種情況中的哪一種,您為什麼更喜歡參數檢驗呢?
讓我談談一個常見的測試。考慮兩樣本等方差 t 檢驗,當總體完全正常時,它對於均值偏移的單邊檢驗一致是最有效的。
(a) 它是否比所有非參數檢驗都更強大?
好吧,不,從某種意義上說,存在漸近相對效率為 1 的非參數檢驗(也就是說,如果您查看在給定顯著性水平上達到相同功效所需的樣本大小的比率,該比率會變為 1樣品);具體而言,具有此屬性的置換測試(例如,基於相同的統計數據)。漸近功效也是典型樣本量下相對功效的一個很好的指導(如果您確保測試是在相同的實際顯著性水平上執行的)。
(b) 在某些非參數檢驗具有更好的功效之前,您是否需要對情況進行大量修改?
正如我上面所建議的,在正常情況下的這個位置測試中,幾乎沒有。即使我們將考慮僅限於最常用的等級檢驗(這限制了我們的潛在能力),在 Wilcoxon-Mann-Whitney 檢驗通常具有之前,您不需要使分佈比正常分佈更重尾更好的力量。如果允許我們在正常情況下選擇具有更好功率的東西(儘管 Wilcoxon-Mann-Whitney 在那裡有出色的性能),它可以更快地啟動。
很難判斷你是否從一個尾巴比你假設的稍微重一點的人群中抽樣,所以在你不能自信持有的情況下擁有稍微更好的力量(充其量)可能是一個非常可疑的優勢.
在任何情況下,您都不應該通過查看您進行測試的樣本來判斷您所處的情況(至少如果它會影響您選擇的測試),因為基於數據的測試選擇會影響您隨後選擇的測試的屬性。