Classification

k=1 的 k-NN 是否總是意味著過度擬合?

  • July 14, 2014

我在某處發現了這樣的聲明,但另一方面,在我發現的一些來源中,這沒關係。

在解釋變量是 TF-IDF 值(餘弦測量)的二元分類問題中使用 1-NN 時過擬合的風險如何?

您的標題問題的簡短回答是“否”。考慮一個具有二進制目標變量的示例,該變量在很大程度上被單個解釋變量的某個值完全分開:

解釋 x 目標

顯然,1-NN 分類在這裡可以很好地工作並且不會過擬合。(事實上還有其他方法可以同樣有效並且可能更簡單,這與中心點無關。)

TF-IDF 值超出了我的專業領域,但總的來說,寫得鬆散,目標值的值在解釋值跨越的空間中的間隔越大,1-NN 分類就越有效,而不管應用領域。

引用自:https://stats.stackexchange.com/questions/107870

comments powered by Disqus