Hypothesis-Testing

先驗功率分析本質上是無用的嗎?

  • February 24, 2014

上週我參加了人格與社會心理學協會的一次會議,在那裡我看到了 Uri Simonsohn 的演講,其前提是使用先驗功效分析來確定樣本量基本上是無用的,因為它的結果對假設非常敏感。

當然,這種說法違背了我在方法課上所教的內容,也違背了許多著名方法學家的建議(最著名的是Cohen,1992 年),因此 Uri 提出了一些與他的說法有關的證據。我試圖在下面重新創建其中的一些證據。

為簡單起見,讓我們假設您有兩組觀察結果並猜測效果大小(通過標準化均值差測量)為. 標準功率計算(R使用pwr下面的包完成)將告訴您需要觀察以通過這種設計獲得 80% 的功率。

require(pwr)

size <- .5
# Note that the output from this function tells you the required observations per group
# rather than the total observations required
pwr.t.test(d = size, 
          sig.level = .05, 
          power = .80, 
          type = "two.sample", 
          alternative = "two.sided")

然而,通常我們對預期效果大小的猜測(至少在我的研究領域的社會科學中)只是——非常粗略的猜測。如果我們對效應大小的猜測有點偏離會發生什麼?一個快速的功率計算告訴你,如果效果的大小是代替, 你需要觀察——乘以你需要有足夠的力量來達到效果大小的數量. 同樣,如果效果的大小是, 你只需要觀察,你需要有足夠的能力來檢測效應大小的 70%. 實際上,估計觀測值的範圍相當大——到.

對此問題的一種回應是,您不是純粹猜測影響的大小,而是通過過去的文獻或試點測試收集有關影響大小的證據。當然,如果您正在進行試點測試,您會希望您的試點測試足夠小,以至於您不僅僅是為了確定運行研究所需的樣本量而運行您的研究版本(即,您將希望試點測試中使用的樣本量小於您研究的樣本量)。

Uri Simonsohn 認為,為了確定功效分析中使用的效應大小而進行的試點測試是沒有用的。考慮以下我運行的模擬R。該模擬假設人口效應大小為. 然後進行尺寸為 40 的“試點測試”並列出了推薦的來自 10000 個試點測試中的每一個。

set.seed(12415)

reps <- 1000
pop_size <- .5
pilot_n_per_group <- 20
ns <- numeric(length = reps)

for(i in 1:reps)
{
 x <- rep(c(-.5, .5), pilot_n_per_group)
 y <- pop_size * x + rnorm(pilot_n_per_group * 2, sd = 1)
 # Calculate the standardized mean difference
 size <- (mean(y[x == -.5]) - mean(y[x == .5])) / 
         sqrt((sd(y[x == -.5])^2 + sd(y[x ==.5])^2) / 2)

 n <- 2 * pwr.t.test(d = size,
                     sig.level = .05, 
                     power = .80,
                     type = "two.sample", 
                     alternative = "two.sided")$n

 ns[i] <- n
}

下面是基於此模擬的密度圖。我省略了推薦了上述一些觀察結果的試點測試使圖像更具可解釋性。即使關注模擬的不太極端的結果,也存在巨大的差異推薦的試點測試。

在此處輸入圖像描述

當然,我確信對假設問題的敏感性只會隨著設計變得更加複雜而變得更糟。例如,在需要指定隨機效應結構的設計中,隨機效應結構的性質將對設計的能力產生重大影響。

那麼,大家對這個論點怎麼看呢?先驗功率分析本質上是無用的嗎?如果是,那麼研究人員應該如何規劃他們的研究規模?

這裡的基本問題是真實的,並且在統計學中是眾所周知的。然而,他的解釋/主張是極端的。有幾個問題需要討論:

首先,功率不會隨著環境的變化而快速變化. (具體來說,它隨著*,因此要將採樣分佈的標準差減半*,您需要將等)但是,功率對效應大小非常敏感。此外,除非您的估計功率是,隨著效應大小的變化,功率的變化是不對稱的。如果你正在嘗試功率,功率將隨著科恩的減少而更快地下降它會隨著 Cohen 的等量增加而增加. 例如,當從和,如果您的觀察次數減少 20 次,則功效會下降,但如果你有 20 個以上的觀察,功率會增加. 另一方面,如果真實的效果大小是更低,那麼功率將是更低,但如果是更高,它只會是更高。這種不對稱性和不同的靈敏度可以在下圖中看到。

在此處輸入圖像描述

如果您根據先前研究估計的效果進行工作,例如薈萃分析或試點研究,則解決方案是將您對真實效果大小的不確定性納入功效計算中。理想情況下,這將涉及對可能影響大小的整個分佈進行整合。對於大多數應用程序來說,這可能是一個太遠的橋樑,但是一個快速而骯髒的策略是計算幾個可能的效應大小的功率,你估計的 Cohen’s加或減 1 和 2 個標準差,然後使用這些分位數的概率密度作為權重得到加權平均值。

如果您正在研究以前從未研究過的東西,這並不重要。你知道你關心的效果大小。實際上,效果要么那麼大(或更大),要么更小(甚至可能為 0)。在功效分析中使用您關心的效應大小將是有效的,並將為您的假設提供適當的檢驗。如果您關心的效果大小是真實值,那麼您將(比如說)‘意義’的機會。如果由於抽樣誤差,您的研究中實現的效應量較小(較大),您的結果將不那麼顯著(更多),甚至不顯著。這就是它應該工作的方式。

其次,關於權力分析(先驗或其他方式)依賴於假設的更廣泛主張,尚不清楚該論點如何解釋。他們當然會。其他一切也是如此。不進行功率分析,而只是根據您從帽子中挑選出來的數字收集大量數據,然後分析您的數據,不會改善這種情況。此外,您的結果分析仍將依賴於假設,就像所有分析(功率或其他)總是做的那樣。相反,如果你決定繼續收集數據並重新分析它們,直到你得到一張你喜歡或厭倦它的圖片,那將是那麼有效的(並且仍然需要假設說話者可能看不到,但是仍然存在)。簡單地說,在研究和數據分析中做出假設這一事實是無法迴避的

您可能會發現這些感興趣的資源:

引用自:https://stats.stackexchange.com/questions/87695

comments powered by Disqus