KNN：1-最近鄰

May 11, 2015

我的問題是關於 1-最近鄰分類器，是關於 Hastie、Tibshirani 和 Friedman 的優秀著作 The Elements of Statistical Learning 中的一個陳述。該聲明是（第 465 頁，第 13.3 節）：

“因為它只使用離查詢點最近的訓練點，1-最近鄰估計的偏差往往很低，但方差很高。”

該書可在

http://www-stat.stanford.edu/~tibs/ElemStatLearn/download.html獲得

首先，我們可以定義什麼是偏差和方差。從“如何在不增加維度的情況下增加方差”的問題中，我們得出：

“首先，分類器的偏差是其平均估計函數和真實函數之間的差異，而分類器的方差是估計的預測函數與其平均值的預期偏差（即分類器對隨機函數的依賴程度）在訓練集中進行採樣）。

因此，偏差的存在表明模型基本上有問題，而方差也很糟糕，但具有高方差的模型至少可以平均預測得很好。”

有人可以解釋一下為什麼 1-最近鄰分類器的方差高而偏差低嗎？

偏差很低，因為您僅將模型擬合到最近的 1 點。這意味著您的模型將非常接近您的訓練數據。

方差很大，因為僅優化 1 個最近點意味著您對數據中的噪聲進行建模的概率非常高。按照上面的定義，您的模型將高度依賴於您選擇作為訓練數據的數據點子集。如果你隨機重新排列你選擇的數據點，模型在每次迭代中都會有很大的不同。所以

估計的預測函數與其平均值的預期偏差（即分類器對訓練集中隨機抽樣的依賴程度）

會很高，因為每次你的模型都會不同。

例子通常，k-NN 模型將數據中的特定點與訓練集中 N 個最近的數據點相匹配。對於 1-NN，此點僅取決於 1 個其他點。例如，您想將樣本分成兩組（分類） - 紅色和藍色。如果您針對某個點 p 訓練模型，該點最近的 4 個鄰居將是紅色、藍色、藍色、藍色（按距離遞增到 p）。然後 4-NN 會將您的點分類為藍色（3 次藍色和 1 次紅色），但您的 1-NN 模型將其分類為紅色，因為紅色是最近的點。這意味著，您的模型非常接近您的訓練數據，因此偏差很低。如果您計算模型和訓練數據之間的 RSS，則它接近於 0。與此相反，您的模型中的方差很高，因為您的模型非常敏感和搖擺不定。如上所述，訓練集的隨機改組可能會顯著改變您的模型。相比之下，10-NN 在這種情況下會更穩健，但可能會變得僵硬。選擇哪個 k 取決於您的數據集。這在很大程度上取決於Bias-Variance-Tradeoff，這與這個問題完全相關。

引用自：https://stats.stackexchange.com/questions/151756

KNN：1-最近鄰

相關問答

K=1 時 KNN 分類器中的訓練誤差

KNN 應該使用哪種類型的數據規範化？

為什麼我們需要擬合 k 最近鄰分類器？

具有連續和二元變量的 K 最近鄰

如何規範在線學習中的數據？

R中傾向得分匹配後的不同結果