可以小多少𝑝pp方差分析的值𝐹FF-test be 與來自多個的那些𝑡噸t- 測試相同的數據？

January 23, 2014

**簡介：**注意到今天這個問題引起了人們的關注，“當沒有成對 t 檢驗時，ANOVA 是否顯著？ ”我想我可能能夠以一種有趣的方式重新構建它，值得擁有自己的一組答案.

當統計顯著性被理解為簡單的二分法並僅根據其中較高的情況來判斷時，可能會出現各種不協調的結果（表面價值）或者. @Glen_b對上述問題的回答提供了一個有用的例子：

方差分析-test 產生一個對於一個具有四個水平的自變量 (IV)，但

對於所有兩個樣本- 比較與 IV 的四個水平中的每一對相對應的觀察值中相同因變量 (DV) 的差異的測試。

儘管通過以下問題對事後成對比較進行了 Bonferroni 校正，但出現了類似的情況：Anova 重複測量是顯著的，但所有與 Bonferroni 校正的多重比較都不是？前面提到的在多元回歸中測試略有不同的案例也存在：

為什麼可以獲得顯著的 F 統計量 (p<.001) 但不顯著的回歸量 t 檢驗？：

回歸如何顯著但所有預測變量都不顯著？

在@whuber 的回答中，

我敢打賭，在這樣的情況下，一些（但不是全部）成對比較（或回歸係數的顯著性檢驗）值必須相當接近如果相應的綜合測試可以達到. 我在@Glen_b 的第一個示例中看到了這種情況，其中,, 最大的兩兩差給出最小的. 一般情況下一定是這樣嗎？更具體地說：

**問題：**如果方差分析-test 產生一個對於一個多頭 IV 對連續 DV 的影響，最低的能有多高？值在所有兩個樣本中- 比較每對 IV 水平的測試？最小成對顯著性是否可以高達?

我歡迎只解決這個特定問題的答案。然而，為了進一步激發這個問題，我將詳細闡述並提出一些潛在的反問問題。歡迎您也解決這些問題，如果您願意，甚至可以忽略特定問題，尤其是在特定問題得到明確答案的情況下。

**意義：**考慮一個和一個如果統計顯著性是根據反對零假設的證據強度的連續性來判斷的（我認為是 Ron Fisher 的方法？），而不是像上面或下面那樣的二分法在選擇是否拒絕零批發時可接受的錯誤概率閾值。"-hacking ” 是一個已知問題，其惡名昭彰的部分原因是通過解釋根據將重要性二分為“足夠好”和“不夠好”等值的普遍做法。如果要處理這種做法並專注於解釋值作為在連續間隔上反對空值的證據強度，當一個人真正關心多個成對比較時，綜合測試可能不那麼重要嗎？不一定沒用，因為統計準確性的任何合理有效的改進當然是可取的，但是……如果，例如，最低的成對比較價值必然在方差分析（或其他綜合測試）值，這不是讓綜合測試變得更瑣碎，更少強制性，甚至更具誤導性（與先前存在的誤解一起），特別是如果一個人不是特別想控制跨越多個測試？

相反，如果數據可能存在使得綜合, 但都是成對的，這難道不應該進一步激發整個實踐和教學中的綜合和對比測試嗎？在我看來，這個問題還應該說明根據二分法與連續體判斷統計顯著性的相對優點，因為當差異“邊緣顯著”時，二分法解釋系統應該對小的調整更敏感，而這兩個系統都沒有如果這種差異/調整可能非常大（例如，理論上。

其他需要考慮或忽略的可選複雜性**——無論是什麼讓回答更容易和更有價值**：

多高為s 可能是如果，對於,相反（例如，)

對多分支 IV 中的級別數的敏感性

對成對差異顯著性不均勻性的敏感性（雖然所有)

whuber 的回答表明，包括小差異可以掩蓋大差異。

各種綜合檢驗對多重比較的校正之間的差異

另見：校正受試者內的多重比較/重複測量方差分析；過於保守？

對於多個 IV，多重共線性似乎會加劇這個問題。

數據以最佳方式滿足經典參數測試的所有假設的受限情況

這種限制可能很重要，可以防止這個問題變得毫無意義。

假設相等s [但請參閱下面的註釋 2] 對於單向佈局中的每個處理，並且來自所有組的合併 SD 用於測試（就像在通常的事後比較中所做的那樣），最大可能價值測試是（這裡，表示cdf)。因此，沒有可以高達. 有趣的是（而且相當奇怪），綁定不僅適用於，但對於我們需要的任何顯著性水平.

理由如下：對於給定的樣本均值範圍，, 最大可能統計時達到一半處於一個極端，另一半處於另一個極端。這代表了這種情況看起來最重要，因為兩種方法最多相差.

所以，不失一般性，假設以便在這種邊界情況下。再次，不失一般性，假設，因為我們總是可以將數據重新縮放到這個值。現在考慮意味著（其中甚至為簡單起見[但請參見下面的註釋 1]），我們有. 環境以便，我們獲得. 當所有的是（還是)，每個非零統計因此. 這是最小的最大值值可能時.

所以你可以嘗試不同的情況和, 計算, 及其相關的. 但請注意，給定的,正在減少[但見下文注 3]；此外，如,; 所以. 注意有意思和標清. 所以，不管，而我在上面第一段中所說的結果是從漸近正態性獲得的。

不過，要達到這個極限需要很長時間。R以下是各種值的結果（使用計算），使用:
k       t_min    max p_t   [ Really I mean min(max|t|) and max(min p_t)) ]
2       1.960     .0500
4       1.977     .0481   <--  note < .05 !
10      1.840     .0658
100     1.570     .1164
1000    1.465     .1428
10000   1.431     .1526
一些零散的結局…

**當 k 為奇數時：**最大值統計仍然發生時都是; 但是，我們將在範圍的一端比另一端多一個，使平均值, 你可以證明這個因子在裡面統計被替換為. 這也取代了分母, 使其稍大並因此減小.

**不等s：**最大值仍然與實現, 安排的標誌盡可能地平衡樣本大小。然後相同總樣本量的統計量將與平衡數據相同或更小。此外，最大統計數據會更大，因為它將是最大的. 所以我們無法獲得更大的通過查看不平衡的情況來評估值。

**輕微修正：**我非常專注於試圖找到最小值我忽略了我們正在努力最大化的事實, 較大的不太明顯具有較少 df 的重要性不會低於具有更多 df 的較小的。但是，我通過計算直到 df 足夠高，幾乎沒有什麼區別。對於案件我沒有看到任何案例值沒有增加. 請注意，所以可能的df是什麼時候變大很大。因此，對於上述主張，我仍然處於安全的基礎上。我也測試過，並且我觀察到的唯一情況是超過閾值是.

引用自：https://stats.stackexchange.com/questions/83131

comments powered by Disqus

可以小多少𝑝pp方差分析的值𝐹FF-test be 與來自多個的那些𝑡噸t- 測試相同的數據？

相關問答

為什麼 ANOVA 不是 p-hacking？

這是p-hacking嗎？

統計測試“穩健”意味著什麼？

t.test 和 prop.test 的 p 值差異很大

為什麼機器學習中的參數未經測試？

為什麼當平均值看起來真的不同時，t.test() 的 p 值在統計上不顯著