KNN:1-最近鄰
我的問題是關於 1-最近鄰分類器,是關於 Hastie、Tibshirani 和 Friedman 的優秀著作 The Elements of Statistical Learning 中的一個陳述。該聲明是(第 465 頁,第 13.3 節):
“因為它只使用離查詢點最近的訓練點,1-最近鄰估計的偏差往往很低,但方差很高。”
該書可在
http://www-stat.stanford.edu/~tibs/ElemStatLearn/download.html獲得
首先,我們可以定義什麼是偏差和方差。從“如何在不增加維度的情況下增加方差”的問題中,我們得出:
“首先,分類器的偏差是其平均估計函數和真實函數之間的差異,而分類器的方差是估計的預測函數與其平均值的預期偏差(即分類器對隨機函數的依賴程度)在訓練集中進行採樣)。
因此,偏差的存在表明模型基本上有問題,而方差也很糟糕,但具有高方差的模型至少可以平均預測得很好。”
有人可以解釋一下為什麼 1-最近鄰分類器的方差高而偏差低嗎?
偏差很低,因為您僅將模型擬合到最近的 1 點。這意味著您的模型將非常接近您的訓練數據。
方差很大,因為僅優化 1 個最近點意味著您對數據中的噪聲進行建模的概率非常高。按照上面的定義,您的模型將高度依賴於您選擇作為訓練數據的數據點子集。如果你隨機重新排列你選擇的數據點,模型在每次迭代中都會有很大的不同。所以
估計的預測函數與其平均值的預期偏差(即分類器對訓練集中隨機抽樣的依賴程度)
會很高,因為每次你的模型都會不同。
例子 通常,k-NN 模型將數據中的特定點與訓練集中 N 個最近的數據點相匹配。對於 1-NN,此點僅取決於 1 個其他點。例如,您想將樣本分成兩組(分類) - 紅色和藍色。如果您針對某個點 p 訓練模型,該點最近的 4 個鄰居將是紅色、藍色、藍色、藍色(按距離遞增到 p)。然後 4-NN 會將您的點分類為藍色(3 次藍色和 1 次紅色),但您的 1-NN 模型將其分類為紅色,因為紅色是最近的點。這意味著,您的模型非常接近您的訓練數據,因此偏差很低。如果您計算模型和訓練數據之間的 RSS,則它接近於 0。與此相反,您的模型中的方差很高,因為您的模型非常敏感和搖擺不定。如上所述,訓練集的隨機改組可能會顯著改變您的模型。相比之下,10-NN 在這種情況下會更穩健,但可能會變得僵硬。選擇哪個 k 取決於您的數據集。這在很大程度上取決於Bias-Variance-Tradeoff,這與這個問題完全相關。