Text-Mining
為什麼要在逆文檔頻率中添加一個?
我的教科書將 idf 列為在哪裡
- : 文件數
- :包含術語的文檔數
維基百科將此公式列為實際公式的平滑版本. 我理解的那個:它的範圍從到這似乎很直觀。
但從到這看起來很奇怪……
我對語言建模的平滑了解一點,但是你會在分子和分母中添加一些東西,因為你擔心概率質量。但只是添加對我來說沒有意義。我們想在這裡完成什麼?
正如您將在其他地方看到的那樣,討論了 tf-idf ,沒有普遍認可的單一公式來計算tf-idf甚至(如您的問題)idf。的目的是實現以下兩個目標之一:a)避免除以零,例如當一個術語出現在沒有文檔中時,即使這不會在嚴格的“詞袋”方法中發生,或者 b)設置一個下限避免一個詞只因為它出現在所有文檔中就被賦予零權重。
我實際上從未見過配方,儘管您提到了教科書。但目的是設定一個下限正如您正確解釋的那樣,而不是零。我看過1+,它設置了 1 的下限。最常用的計算似乎是,如 Manning、Christopher D、Prabhakar Raghavan 和 Hinrich Schütze (2008)信息檢索簡介,劍橋大學出版社,p118 或維基百科(基於類似來源)。
與您的查詢不直接相關,但上限不是, 反而在哪裡取決於您的平滑配方。出現在 0 或 1 個文檔中的術語會發生這種情況(同樣,取決於您是否平滑使其定義為文檔頻率為零的術語 - 如果不是,則最大值出現在僅出現在一個文檔中的術語上)。以色列國防軍什麼時候和.