樣本量太大？[複製]

November 27, 2014

我一直認為更大的樣本量更好。

然後我在某處讀到了一些關於當樣本量較大時如何更容易找到顯著的 p 值（即誤報），因為重要性被誇大了。

這種現像有名字嗎？

我目前正在處理大量樣本（大約 5,000 個案例），我在其中進行了 t 檢驗，結果 p 值小於 0.001。我可以使用什麼測試來確定這是否是有效的 p 值，或者是否因為樣本量很大而發生這種情況。

我不是統計專家，所以請原諒我帖子中出現的任何“新手”。

我一直認為更大的樣本量是好的。

幾乎總是如此，儘管在某些情況下它們並沒有多大幫助。然而，隨著樣本量變得非常大，最受關注的問題的特定方面發生了變化。

然後我在某處讀到了一些關於當樣本量較大時如何更容易找到顯著的 p 值（即誤報），因為重要性被誇大了。

如前所述，這是不真實的，儘管有些事情可能令人擔憂。

讓我們從基本斷言開始：大樣本不會阻止假設檢驗完全按照設計的方式工作。[如果可以，請詢問陳述的來源，以某種理由接受這一主張，例如證明它是真實的證據（無論是通過代數論證、模擬、邏輯推理還是其他什麼——甚至是參考）。這可能會導致索賠陳述略有變化。]

問題通常不是假陽性，而是真陽性——在人們不想要它們的情況下。

人們經常做出錯誤的假設，即統計顯著性總是意味著具有實際意義的東西。在大樣本中，它可能不會。

隨著樣本量變得非常大，即使與 null 中指定的情況非常微小的差異也可能變得可檢測到。這不是測試失敗，這就是它應該如何工作！

[在我看來，有時似乎有點反常，雖然幾乎每個人都會堅持他們的測試的一致性，但當他們真正得到假設檢驗時，很多人會抱怨假設檢驗有問題。]

當這困擾人們時，這表明假設檢驗（或至少他們使用的形式）沒有解決他們所面臨的實際研究問題。在某些情況下，置信區間可以更好地解決這個問題。在其他情況下，最好通過計算效果大小來解決。在其他情況下，等效測試可能會更好地解決他們想要的問題。在其他情況下，他們可能需要其他東西。

[警告：如果某些假設不成立，在某些情況下，您可能會隨著樣本量的增加而增加誤報，但這是假設的失敗，而不是大樣本假設檢驗本身的問題。 ]

在大樣本中，抽樣偏差等問題可以完全支配抽樣變異性的影響，以至於它們是您唯一看到的東西。解決此類問題需要付出更大的努力，因為與小樣本中的抽樣變化相比，產生可能非常小的影響的小問題可能在大樣本中占主導地位。同樣，這種事情的影響不是假設檢驗本身的問題，而是在獲取樣本的方式上，或者在實際上不是的情況下將其視為隨機樣本。

我目前正在處理大量樣本（大約 5,000 個案例），我在其中進行了 t 檢驗，結果 p 值小於 0.001。我可以使用什麼測試來確定這是否是有效的 p 值，或者是否因為樣本量很大而發生這種情況。

需要考慮的一些問題：

顯著性水平：在非常大的樣本中，如果您使用與在小樣本中相同的顯著性水平，那麼您就沒有平衡兩種錯誤類型的成本；您可以在幾乎不損害您關心的效果大小的情況下大幅減少 I 型錯誤 - 如果沒有什麼收穫，那麼容忍相對較高的 I 型錯誤率是很奇怪的。大樣本中的假設檢驗將明智地在顯著性水平低得多的情況下進行，同時仍保持良好的功效（如果您可以獲得 99.9% 的功效並將 I 類錯誤率降低 1 倍，那麼您為什麼會有 99.99999% 的功效？ 10？）。

p 值的有效性：您可能希望解決您的程序對潛在假設失敗的穩健性；這不是通過對數據假設的假設檢驗來解決的。您可能還想考慮與抽樣偏差等相關的可能問題（例如，您真的有目標人群的隨機樣本嗎？）

實際意義：在假設兩個樣本 t 檢驗的情況下，計算與 null 情況下的實際差異的 CI，查看 CI 的均值差異* - 它應該排除 0，但它是如此之小嗎？不在乎嗎？

*（或者，如果它與您的情況更相關，也許是效應大小的計算。）

讓自己對自己的測試放心的一種方法是（在測試之前，實際上希望在你有數據之前）在一些小但與你的應用程序相關的效果大小下進行功率研究；如果你當時有很好的能力，並且 I 類錯誤率相當低，那麼當效應大小至少有那麼大時，你幾乎總是會做出正確的決定，而當效應大小為 0 時，你幾乎總是會做出正確的決定。您幾乎沒有總是做出正確選擇的唯一部分是在非常小的效應大小的小窗口中（一旦您對拒絕沒有強烈興趣），其中功率曲線從無論您進行功率計算的效果大小是多少。

我不是統計專家，所以請原諒我帖子中出現的任何“新手”。

這個網站的全部目的是產生好的問題和好的答案，而且問題非常好。您不應該為使用該網站而為它的用途而道歉。[然而，它的各個方面在網站上的其他問題和答案中得到了解決。如果您向下看本頁右側的“相關”列，您會看到一些類似問題的鏈接列表（由自動算法判斷）。該列表中至少有幾個問題是高度相關的，在某種程度上可能改變了您問題的形式或重點，但陳述本身的真實性的基本問題 - 與可能發生的誤報有關 -大概會留下來，所以即使你已經追查了這些問題，你大概仍然需要問主要的問題]

例如看到這個問題；它有大約十萬。

側欄中的其他問題之一中的一個數據集具有數万億的樣本量。這是一個很大的樣本。在那種情況下，抽樣變化（以及假設檢驗）通常變得完全無關緊要。

引用自：https://stats.stackexchange.com/questions/125750

樣本量太大？[複製]

相關問答

高維柯西分佈是什麼樣的？

關於文章“拋棄 p 值。改用 Bootstrap 置信區間”的三個問題

我可以比較 p 值嗎？

為什麼當平均值看起來真的不同時，t.test() 的 p 值在統計上不顯著

為什麼均值 ± 2*SEM（95% 置信區間）重疊，但 p 值為 0.05？

如果您多次執行相同的測試，您可以將 p 值相乘嗎？