如何在不測試的情況下驗證真實案例中的測試假設

September 2, 2016

我們知道，從形式上講，測試的假設是無法測試的，因為如果我們根據測試結果選擇要使用的測試，則得到的複合測試具有未知的屬性（I 類和 II 類錯誤率）。我認為這就是為什麼“六西格碼”類型的統計方法（使用基於測試結果的決策樹來選擇要使用的測試）在專業統計學家中名聲不佳的原因之一。

然而，對於現實世界的數據，我們經常會得到經典假設可能不成立的樣本，因此我們需要以某種方式進行檢查。那麼，您在工作/研究中**實際上是做什麼的？**執行非正式檢查，例如查看數據的分佈，並使用t-當經驗分佈似乎不太偏斜時進行測試？這是我看到的大部分時間都在做的事情。但是，只要我們根據這個“非正式測試”的結果做出決定，我們仍然會影響測試屬性，當然如果我們不使用檢查來做出決定，那麼檢查是沒有用的，我們不應該浪費寶貴的時間去做。當然，您可以回答我，正式的測試屬性被高估了，而在實踐中我們不需要對此保持虔誠。這就是為什麼我對你在實踐中所做的事情感興趣，而不僅僅是來自理論背景。

另一種方法是始終使用具有較少假設的測試。通常，我已經看到這種方法被認為是更喜歡非參數測試而不是參數測試，因為前者不假設測試統計數據來自由參數向量索引的一系列分佈，因此應該更穩健（更少的假設）。這是真的嗎？使用這種方法，我們不會在某些情況下冒險使用動力不足的測試嗎？我不知道。是否有適用於應用統計的有用（可能很簡單）參考，其中列出了要使用的測試/模型列表，作為經典測試（t 檢驗、卡方等）的更好替代品，以及何時使用它們？

我最常看到的（並且我自己也會這樣做）是查看來自同一地區的多組歷史數據以獲取相同的變量，並以此為基礎來決定什麼是合適的。當這樣做時，當然應該記住，在計劃的應用程序中，考慮到足夠大的樣本量，回歸殘差中與正態性的輕微偏差通常不是太大的問題。通過查看獨立數據，可以避免諸如 I 類錯誤控制之類的測試屬性混亂的問題（這在某些領域非常重要，例如出於監管目的的驗證性臨床試驗）。正如您所說，（在適當的時候）使用參數方法的原因是效率，

引用自：https://stats.stackexchange.com/questions/233019

comments powered by Disqus

如何在不測試的情況下驗證真實案例中的測試假設

相關問答

我可以對非常小的樣本使用 Mann-Whitney U 檢驗嗎？

為什麼參數測試比非參數測試更強大？

樣條插值是否被視為非參數模型？

實際上，獨立同分佈假設是否適用於絕大多數監督學習任務？

線性回歸的線性假設

線性回歸中的假設需要什麼？