Machine-Learning

URL 特徵表示

  • July 7, 2021

我正在編寫一個書籤分類器作為一個愛好/學習項目。目前我正在嘗試決定特徵表示。

我有兩條信息:

  • 名稱(元標題屬性)
  • 網址

我主要感興趣的是 URL(或一般的短文本)是否有任何比詞袋表現更好的特徵表示。

對於具有較小數據集的短文本分析,我發現預訓練的詞嵌入很有用。例如,作為@Tim 的/path/to/the/myfile部分答案,您可以標記為[path, to, the, myfile](在這種特定情況下,可能會刪除常見的to, the,可能會嘗試拆分長字符串,例如myfile),並獲取它們各自的嵌入。從那裡開始,對文檔中所有單詞的嵌入進行平均似乎很常見。根據您的特定用例,其他一些聚合可能值得探索。例如,如果您只需要 URL 之間的距離,則可以使用單詞移動距離。

公共域可能也可以在詞嵌入中找到,但不常見的域可能不會出現。請求參數和錨點也可能可用,這取決於它們的可讀性。蒂姆答案的其他組成部分可以直接用作分類特徵(或數字,在域長度的情況下)。

引用自:https://stats.stackexchange.com/questions/533621

comments powered by Disqus