如何在不測試的情況下驗證真實案例中的測試假設
我們知道,從形式上講,測試的假設是無法測試的,因為如果我們根據測試結果選擇要使用的測試,則得到的複合測試具有未知的屬性(I 類和 II 類錯誤率)。我認為這就是為什麼“六西格碼”類型的統計方法(使用基於測試結果的決策樹來選擇要使用的測試)在專業統計學家中名聲不佳的原因之一。
然而,對於現實世界的數據,我們經常會得到經典假設可能不成立的樣本,因此我們需要以某種方式進行檢查。那麼,您在工作/研究中**實際上是做什麼的?**執行非正式檢查,例如查看數據的分佈,並使用t-當經驗分佈似乎不太偏斜時進行測試?這是我看到的大部分時間都在做的事情。但是,只要我們根據這個“非正式測試”的結果做出決定,我們仍然會影響測試屬性,當然如果我們不使用檢查來做出決定,那麼檢查是沒有用的,我們不應該浪費寶貴的時間去做。當然,您可以回答我,正式的測試屬性被高估了,而在實踐中我們不需要對此保持虔誠。這就是為什麼我對你在實踐中所做的事情感興趣,而不僅僅是來自理論背景。
另一種方法是始終使用具有較少假設的測試。通常,我已經看到這種方法被認為是更喜歡非參數測試而不是參數測試,因為前者不假設測試統計數據來自由參數向量索引的一系列分佈,因此應該更穩健(更少的假設)。這是真的嗎?使用這種方法,我們不會在某些情況下冒險使用動力不足的測試嗎?我不知道。是否有適用於應用統計的有用(可能很簡單)參考,其中列出了要使用的測試/模型列表,作為經典測試(t 檢驗、卡方等)的更好替代品,以及何時使用它們?
我最常看到的(並且我自己也會這樣做)是查看來自同一地區的多組歷史數據以獲取相同的變量,並以此為基礎來決定什麼是合適的。當這樣做時,當然應該記住,在計劃的應用程序中,考慮到足夠大的樣本量,回歸殘差中與正態性的輕微偏差通常不是太大的問題。通過查看獨立數據,可以避免諸如 I 類錯誤控制之類的測試屬性混亂的問題(這在某些領域非常重要,例如出於監管目的的驗證性臨床試驗)。正如您所說,(在適當的時候)使用參數方法的原因是效率,