Missing-Data

為什麼有些人用-999或-9999來代替缺失值?

  • July 22, 2016

我有一個數據集。有很多缺失值。對於某些列,缺失值被替換為 -999,但其他列,缺失值被標記為“NA”。

為什麼我們要使用 -999 來替換缺失值?

這是早期的保留,當時計算機軟件將數值向量存儲為數值向量。沒有實數具有“我失踪了”的語義。因此,當早期的統計軟件必須區分“真實”數字和缺失值時,他們會輸入“顯然”不是有效數字的東西,例如 -999 或 -9999。

當然,-999 或 -9999 代表缺失值根本不是“顯而易見的”。很多時候,它當然可以是一個有效值。除非您明確檢查這些值,否則您的分析中可能會出現各種“有趣”的錯誤。

如今,可以包含缺失值的數值向量在內部表示為“豐富的”數值向量,即具有關於缺失值的附加信息的數值向量。這當然要好得多,因為缺失值將被視為有效值,而不會被錯誤地視為有效值。

不幸的是,一些軟件仍然使用這樣的約定,也許是為了兼容性。即使他們的軟件支持乾淨地輸入缺失值,一些用戶也通過非正式滲透吸收了這個約定並輸入 -999 而不是 NA。

道德:不要將缺失值編碼為 -999。

引用自:https://stats.stackexchange.com/questions/225175

comments powered by Disqus

相關問答