Machine-Learning
為什麼引導很有用?
如果您所做的只是從經驗分佈中重新採樣,為什麼不研究經驗分佈呢?例如,與其通過重複抽樣來研究變異性,不如從經驗分佈中量化變異性?
自舉(或其他重採樣)是一種估計統計量分佈的實驗方法。
這是一種非常直接和簡單的方法(它只是意味著您使用樣本數據的許多隨機變體進行計算,以獲得、估計、所需的統計分佈)。
當“理論/分析”表達式太難以獲得/計算時(或者像aksakal 所說的有時它們是未知的),您很可能會使用它。
- 示例 1:如果您進行 pca 分析並希望將結果與*“特徵值偏差的估計”*進行比較,假設變量之間沒有相關性。
您可以多次打亂數據並重新計算 pca 特徵值,以便獲得特徵值的分佈(基於對樣本數據的隨機測試)。
請注意,當前的做法是凝視碎石圖並應用經驗法則來“決定”某個特徵值是否顯著/重要。
- 示例 2:您進行了非線性回歸y ~ f(x),為您提供函數 f 的一組參數的一些估計。 現在您想知道這些參數的標準誤差。
在這裡不可能像在 OLS 中那樣簡單地查看殘差和線性代數。然而,一種簡單的方法是多次計算相同的回歸,並重新打亂殘差/誤差,以便了解參數將如何變化(假設誤差項的分佈可以通過觀察到的殘差建模)。