為什麼建議對計數數據進行平方根變換?
當您有計數數據時,通常建議取平方根。(有關 CV 的一些示例,請參見此處的@HarveyMotulsky 的答案,或此處的@whuber 的答案。)另一方面,當擬合一個響應變量分佈為泊鬆的廣義線性模型時,日誌是規範鏈接。這有點像對響應數據進行對數轉換(儘管更準確地說是對數轉換,控制響應分佈的參數)。因此,這兩者之間存在一些緊張關係。
- 您如何調和這種(明顯的)差異?
- 為什麼平方根比對數更好?
對於 Poisson ,平方根近似方差穩定。平方根有許多改進屬性的變體,例如添加 $ \frac{3}{8} $ 在取平方根或Freeman-Tukey ( $ \sqrt{X}+\sqrt{X+1} $ - 儘管它也經常根據平均值進行調整)。
在下面的圖中,我們有一個泊松 $ Y $ 與預測器相比 $ x $ (平均 $ Y $ 的倍數 $ x $ ), 接著 $ \sqrt{Y} $ 對比 $ \sqrt{x} $ 接著 $ \sqrt{Y+\frac{3}{8}} $ 對比 $ \sqrt{x} $ .
平方根變換在一定程度上改善了對稱性——儘管不如 $ \frac{2}{3} $ 電源 [1]:
如果您特別想要接近正態性(只要泊鬆的參數不是很小)並且不關心/可以調整異方差,請嘗試 $ \frac{2}{3} $ 力量。
對於泊松數據,規範鏈接通常不是特別好的轉換;記錄零是一個特定的問題(另一個是異方差;即使沒有 0,您也可以獲得左偏度)。如果最小值不太接近 0,則它可用於線性化均值。在許多情況下,對於泊鬆的條件總體均值來說,這是一個很好的“轉換” ,但對於泊松數據並不總是如此。但是,如果您確實想要轉換,一種常見的策略是添加一個常量 $ y^*=\log(y+c) $ 這避免了 $ 0 $ 問題。在這種情況下,我們應該考慮添加什麼常量。在不離手頭的問題太遠的情況下,價值 $ c $ 之間 $ 0.4 $ 和 $ 0.5 $ 在一系列 $ \mu $ 價值觀。我通常只使用 $ \frac12 $ 因為它很簡單,周圍的值 $ 0.43 $ 通常做得稍微好一點。
至於為什麼人們選擇一種轉變而不是另一種轉變(或不選擇)——這實際上是他們為實現目標所做的事情。
[1]:在 Henrik Bengtsson 在他的講義“廣義線性模型和變換殘差”中繪製的圖,請參見此處 (參見第 4 頁的第一張幻燈片)。我添加了一點 y-jitter 並省略了線條。