我們想遠離意義嗎？

July 30, 2020

最近我發現許多統計學家都在談論遠離重要性。

我知道許多研究的結論都是基於 p 值，我同意這有時會產生誤導。如果我們使用顯著性，諸如樣本量之類的東西會在結果中發揮重要作用。

我被教導在擬合 ARIMA 模型時使用重要性。例如，當一個參數的 p 值 > 0.05 時，它被認為是微不足道的，應該從模型中排除。這是我被教導擬合模型的方式。這也適用於回歸。

既然我們想擺脫重要性，我們是否使用像 MSE 這樣的指標來代替？我還發現越來越多的人開始使用置信區間而不是進行假設檢驗。

這個答案有很大幫助，但我仍然不明白我們將如何選擇模型？

我們寧願執行交叉驗證並使用自舉進行模型選擇，而不是查看重要性？（我認為這可能是回答我的問題的一部分）。

警告悲觀/憤世嫉俗的帖子

我們不想離開意義。

這是導致您的問題的錯誤前提。

最近我發現許多統計學家都在談論遠離重要性。

..

既然我們想遠離意義…

我們不想離開意義。意義很重要。它是一個指標，表明數據集足夠大/足夠顯著，以便由於隨機噪聲而不太可能出現某些觀察到的效果。我們仍然希望實驗者瞄準意義重大的實驗。那些可能反映噪聲的微不足道的實驗不是很有用；結果的解釋是不確定的（它是“真實”的效果還是噪音？）。顯著性意味著實驗能夠給出具有相對更確定的解釋的結果（結果可能不是噪音，而是對原假設的一些真實的證偽）。

一個有意義的問題是在錯誤的研究重點。

我們想要擺脫的是科學的趨勢，即只為了重要而執行和報告實驗。重要性的問題在於它可能是假的。顯著性的表達僅與用於計算它的模型一樣好。

這意味著，即使重要性意味著鑑於目前的假設預測沒有影響，它不太可能發生，但研究人員很可能會在不存在的情況下找到重要的結果。

這使得我們現在有一個關於研究數據的報告，只有很小的影響。如果某件事有很大的影響，那麼它很可能已經被證明了。但是，我們現在擁有一支龐大的熱心（和壓力）科學家大軍，他們試圖找到新的東西，所以他們將專注於一些（任何）小的東西，並通過做一個重要的實驗讓它變大。

一個重要的問題是在僅基於實驗中發生的錯誤來表達實驗之間發生的錯誤的方法中。

當前的實驗性科學“世界”正受到這些激勵措施的推動，以發表有意義的文章（無關緊要）而不是有意義的文章。問題在於，由於技術的發展，我們已經能夠擴大實驗工作的規模並進行大規模測試，從而使微小的影響顯著可見。這將重點放在尋找人口分佈參數的微小差異（這對許多研究人員來說是資源豐富的利基），而這些人口中的個體有更多的變化和差異。

我們關注平均值，而不是具體/個人，因為平均值之間的差異，無論多麼小，都可以很容易地變得顯著（實際上並不總是那麼容易，但原理很簡單，它只是增加了測試）。

**例如：**假設我們對巴黎 1 萬名男性和柏林 1 萬名男性的身高進行抽樣。如果我們找到分佈均值和標準差的近似值在巴黎和在柏林，那麼 t 檢驗可能會讓我們得出結論，我們發現了顯著的影響，巴黎的男性平均身高高於柏林。

但是請看下面（組成）樣本的直方圖。分佈大致相同；由於較大的散佈/方差，我們可能認為均值的微小差異並不那麼重要（而且我們在表達標準誤差時應該小心，因為該方法可能對較小的影響具有相對較大的影響）。只有大樣本才能使我們對標準誤差的估計非常小，因此我們得出結論認為存在顯著差異。然而，對於如此微小的差異，我們無法真正了解這種差異是否歸因於導致柏林人與巴黎人不同的真實效果，

的區別如果您只是充分採樣（增加您的“放大倍數”或“研究能力”），則可能對於某些給定的實驗具有統計學意義。但是人口之間的差異非常小，這使得簡化關於分佈的假設不再可以忽略不計。當你只是想比較手段時是正確的（你可能想知道它是否真的是最有用的，但是嘿，這是我們可以做的重要的事情）。對於比較均值，樣本均值將接近正態分佈，因此關於基本人口分佈的假設無關緊要。然而，當你進入這些微小的影響時，採樣和其他系統影響可能會成為一個問題。

所有模型都是錯誤的，但有些模型是有用的。關於重要性的表達是估計，通常是錯誤的，但通常不是那麼糟糕，因此仍然有用。它們並不是那麼糟糕，因為抽樣誤差主導系統誤差的假設通常有效，而後者可以忽略不計。然而，最近，這些（以前）用於估計誤差的有用模型變得越來越不正確，越來越沒用。這是因為越來越多的研究能夠放大發生在變異較大的人群中的小影響。通過增加採樣大小可以放大微小的影響。但是當我們看到小的影響和小的採樣噪聲（由於大樣本）時，系統誤差就不能再忽略了。

型號選擇

我們將如何選擇模型？

如果您測量微小的影響，並純粹通過增加樣本量使它們顯著，那麼您不再確定確定的影響是由於空模型中的差異造成的，它也可能是抽樣程序（當顯著性檢驗失敗時我們傾向於說原假設是證偽的，但我們應該說原假設加上實驗是證偽的。但是我們通常不會這麼說，因為對於足夠大的效應，我們傾向於忽略系統效應）。

因此，顯著性通常僅根據樣本數據中的方差/殘差來確定（通過估計我們單個數據中測量值的分佈實驗）。但是，假設這是對結果誤差的良好估計是錯誤的（尤其是在確定小的影響時）。我們還應該估計/猜測/假設我們的儀器/方法從實驗到實驗的變化。這實際上是我在高中物理課上學到的。沒有提到計算標準偏差的公式和基於實驗的誤差估計，但我們不得不對誤差做出合理的邏輯猜測（例如，當使用一些容量玻璃器皿測量一定體積的水時，我們使用了一些經驗法則，例如誤差是刻度最小刻度的 1/10）。

重要性並不是模型選擇的真正工具。顯著性是假設檢驗和驗證可能源自此類檢驗的結論的（統計）有效性的工具（結論應該以合理的概率，不是由隨機噪聲引起的）。

通過顯著性檢驗，您通常會偏愛零假設/模型。實驗的目標不是模型選擇，而是模型拒絕。進行顯著性檢驗以試驗/測試原假設是否正確（並且通常在事後使用替代假設進行測試，以便如果特定替代假設為真，則該測試具有很高的概率/能力來拒絕原假設）。

在這類試驗中，您確實會遇到這樣的情況，即可能有多個模型可以用來檢驗零假設，並且想法可能是看看哪些模型最有意義。這確實類似於很多模型選擇，並且這些概念可以以混合方式執行，但從我的角度來看，它們不應被視為混合。例如，可以測試多個因素並查看其中任何一個是否具有顯著影響。您可以將其視為模型選擇，查看哪個因素是最佳模型……但是，原則上更像是執行多個零假設檢驗（每個假設都是特定因素沒有影響）。

模型選擇是一種優化，可以在沒有意義的情況下進行計算（如果您有適當的損失函數）。如果您正在做一些優化，例如預測，那麼自舉可能確實是一種很好的方法，不僅可以測試估計的方差，還可以測試偏差。

引用自：https://stats.stackexchange.com/questions/479840

我們想遠離意義嗎？

我們不想離開意義。

一個有意義的問題是在錯誤的研究重點。

一個重要的問題是在僅基於實驗中發生的錯誤來表達實驗之間發生的錯誤的方法中。

型號選擇

相關問答

關於文章“拋棄 p 值。改用 Bootstrap 置信區間”的三個問題

我可以比較 p 值嗎？

為什麼當平均值看起來真的不同時，t.test() 的 p 值在統計上不顯著

為什麼均值 ± 2*SEM（95% 置信區間）重疊，但 p 值為 0.05？

為什麼不以以下方式進行引導？

如果您多次執行相同的測試，您可以將 p 值相乘嗎？