為什麼建議對計數數據進行平方根變換？

December 22, 2012

當您有計數數據時，通常建議取平方根。（有關 CV 的一些示例，請參見此處的@HarveyMotulsky 的答案，或此處的@whuber 的答案。）另一方面，當擬合一個響應變量分佈為泊鬆的廣義線性模型時，日誌是規範鏈接。這有點像對響應數據進行對數轉換（儘管更準確地說是對數轉換，控制響應分佈的參數）。因此，這兩者之間存在一些緊張關係。

您如何調和這種（明顯的）差異？

為什麼平方根比對數更好？

對於 Poisson ，平方根近似方差穩定。平方根有許多改進屬性的變體，例如添加在取平方根或Freeman-Tukey ( - 儘管它也經常根據平均值進行調整）。

在下面的圖中，我們有一個泊松與預測器相比（平均的倍數），接著對比接著對比 .

平方根變換在一定程度上改善了對稱性——儘管不如電源 [1]：

如果您特別想要接近正態性（只要泊鬆的參數不是很小）並且不關心/可以調整異方差，請嘗試力量。

對於泊松數據，規範鏈接通常不是特別好的轉換；記錄零是一個特定的問題（另一個是異方差；即使沒有 0，您也可以獲得左偏度）。如果最小值不太接近 0，則它可用於線性化均值。在許多情況下，對於泊鬆的條件總體均值來說，這是一個很好的“轉換” ，但對於泊松數據並不總是如此。但是，如果您確實想要轉換，一種常見的策略是添加一個常量這避免了問題。在這種情況下，我們應該考慮添加什麼常量。在不離手頭的問題太遠的情況下，價值之間和在一系列價值觀。我通常只使用因為它很簡單，周圍的值通常做得稍微好一點。

至於為什麼人們選擇一種轉變而不是另一種轉變（或不選擇）——這實際上是他們為實現目標所做的事情。

[1]：在 Henrik Bengtsson 在他的講義“廣義線性模型和變換殘差”中繪製的圖，請參見此處（參見第 4 頁的第一張幻燈片）。我添加了一點 y-jitter 並省略了線條。

引用自：https://stats.stackexchange.com/questions/46418

為什麼建議對計數數據進行平方根變換？

相關問答

泊松分佈的原始推導是什麼？

指數分佈的隨機變量的指數分佈？

總和nnn帶參數的泊松隨機變量1n1nfrac 1 n

將“標準泊松”轉換為任意泊松

哪些分佈具有未定義的均值但不對稱？

XGboost 和深度學習模型中 Tweedie 或泊松損失/目標函數的用途是什麼