顯著性測試或交叉驗證?
選擇相關變量的兩種常用方法是顯著性檢驗和交叉驗證。每個人都試圖解決什麼問題,我什麼時候更喜歡一個而不是另一個?
首先,讓我們明確一點,將問題置於多元線性回歸的背景下,我們對響應變量進行回歸,, 在幾個不同的變量上(相關與否),帶參數向量和回歸函數
這可以是給定觀察的響應變量的平均值的模型. 問題是如何選擇一個子集是非零的,特別是顯著性檢驗與交叉驗證的比較。
為了清楚地了解術語,重要性測試是一個通用概念,在不同的上下文中以不同的方式進行。例如,它取決於檢驗統計量的選擇。交叉驗證實際上是一種估計預期泛化誤差的算法,這是一個重要的通用概念,取決於損失函數的選擇。
預期的泛化誤差在正式定義方面有點技術性,但換句話說,它是用於預測獨立數據集時擬合模型的預期損失,其中預期超過用於估計的數據以及獨立數據用於預測的集合。
為了進行合理的比較,讓我們關注是否可以取等於 0 或不取。
- 對於零假設的顯著性檢驗,主要過程是計算一個**-值,這是在原假設 下**,選擇的檢驗統計量大於我們的數據集觀察到的概率,也就是說,當假設. 解釋是一個小-value 是反對原假設的證據。對於“小”在絕對意義上的含義,有一些常用的規則,例如著名的 0.05 或 0.01 顯著性水平。
- 對於我們計算的預期泛化誤差,可能使用交叉驗證,在假設下對預期泛化誤差的估計:. 這個數量告訴我們模型與我們使用的方法的擬合程度,以及,用於預測獨立數據時**的平均性能。**一個大的預期泛化誤差是不好的,但是沒有關於它需要多大的絕對值是壞的規則。我們將不得不估計模型的預期泛化誤差,其中也允許不為0,然後我們可以比較兩個估計的誤差。哪個最小對應我們選擇的模型。
使用顯著性檢驗,我們並不直接關注在零假設下模型與其他模型相比的“性能”,但我們關心的是記錄零是錯誤的。這在驗證設置中(對我來說)最有意義,其中主要目標是確認和記錄一個事先明確指定的科學假設,可以表述為.
另一方面,預期泛化誤差僅與預期預測損失方面的平均“性能”有關,並得出結論,最好允許在預測方面與 0 不同並不是試圖記錄是“真的”不同於 0不管它是什麼意思。
我個人從未處理過正式需要顯著性測試的問題,但是-values 在我的工作中找到了自己的方式,並為變量選擇提供了明智的指導和第一印象。然而,我主要使用像套索這樣的懲罰方法與任何形式模型選擇的泛化錯誤相結合,我正在慢慢地試圖抑制我什至計算的傾向-價值觀。
對於探索性分析,我認為沒有支持顯著性檢驗和-values,我肯定會建議關注變量選擇的預期泛化誤差之類的概念。在其他可能考慮使用- 記錄的價值不是 0,我會說報告一個估計值幾乎總是一個更好的主意而是一個置信區間。