Data-Transformation
我應該如何轉換包括零在內的非負數據?
如果我有高度傾斜的正面數據,我經常會記錄日誌。但是我應該如何處理包含零的高度偏斜的非負數據?我已經看到使用了兩種轉換:
- 它具有 0 映射到 0 的簡潔特徵。
- 其中 c 被估計或設置為一些非常小的正值。
還有其他方法嗎?有什麼好的理由比其他方法更喜歡一種方法嗎?
在我看來,最合適的轉換選擇取決於模型和上下文。
“0”點可能源於幾個不同的原因,每個原因可能需要區別對待:
- 截斷(如 Robin 的示例):使用適當的模型(例如,混合模型、生存模型等)
- 缺失數據:在適當的情況下估算數據/刪除觀察結果。
- 自然零點(例如,收入水平;失業者的收入為零):根據需要進行轉換
- 測量儀器的靈敏度:也許,添加少量數據?
我並沒有真正提供答案,因為我懷疑當你有零時沒有通用的“正確”轉換。