Data-Transformation

轉換比例數據:當 arcsin 平方根不夠時

  • May 19, 2011

百分比/比例數據的反正弦平方根轉換是否有(更強?)替代方法?在我目前正在處理的數據集中,在我應用此轉換後仍然存在明顯的異方差性,即殘差與擬合值的圖仍然非常菱形。

編輯回應評論:數據是實驗參與者的投資決策,他們可能以 10% 的倍數投資 0-100% 的捐贈基金。我還使用序數邏輯回歸查看了這些數據,但想看看有效的 glm 會產生什麼。另外,我可以看到答案對未來的工作很有用,因為反正弦平方根似乎被用作我所在領域的萬能解決方案,而且我沒有遇到任何替代方案。

當然。*John Tukey 描述了EDA*中的一系列(遞增的、一對一的)轉換。它基於以下想法:

  1. 能夠通過參數控制擴展尾部(朝向 0 和 1)。
  2. 儘管如此,要匹配中間附近的原始(未轉換)值( $ 1/2 $ ),這使得轉換更容易解釋。
  3. 使重新表達關於 $ 1/2. $ 也就是說,如果 $ p $ 被重新表示為 $ f(p) $ , 然後 $ 1-p $ 將重新表示為 $ -f(p) $ .

如果你從任何遞增的單調函數開始 $ g: (0,1) \to \mathbb{R} $ 可微分於 $ 1/2 $ 您可以對其進行調整以滿足第二個和第三個標準:只需定義

$$ f(p) = \frac{g(p) - g(1-p)}{2g'(1/2)}. $$

分子是顯式對稱的(標準 $ (3) $ ),因為交換 $ p $ 和 $ 1-p $ 反轉減法,從而否定它。看到那個 $ (2) $ 滿足,注意分母正是需要使 $ f^\prime(1/2)=1. $ 回想一下,導數用線性函數逼近函數的局部行為;一個斜率 $ 1=1:1 $ 從而意味著 $ f(p)\approx p $ (加上一個常數 $ -1/2 $ ) 什麼時候 $ p $ 足夠接近 $ 1/2. $ 這就是原始值“在中間附近匹配”的意義。

Tukey 稱之為“折疊”版本 $ g $ . 他的家庭由冪和對數變換組成 $ g(p) = p^\lambda $ 何時何地 $ \lambda=0 $ , 我們認為 $ g(p) = \log(p) $ .

讓我們看一些例子。什麼時候 $ \lambda = 1/2 $ 我們得到折疊的根,或“froot” $ f(p) = \sqrt{1/2}\left(\sqrt{p} - \sqrt{1-p}\right) $ . 什麼時候 $ \lambda = 0 $ 我們有折疊對數或“flog” $ f(p) = (\log(p) - \log(1-p))/4. $ 顯然這只是logit變換的常數倍數, $ \log(\frac{p}{1-p}) $ .

lambda=1、1/2、0 和 arcsin 的圖形

在此圖中,藍線對應於 $ \lambda=1 $ ,中間的紅線到 $ \lambda=1/2 $ , 和極端的綠線 $ \lambda=0 $ . 金虛線是反正弦變換, $ \arcsin(2p-1)/2 = \arcsin(\sqrt{p}) - \arcsin(\sqrt{1/2}) $ . 斜率的“匹配”(標準 $ (2) $ ) 使所有圖形在附近重合 $ p=1/2. $

最有用的參數值 $ \lambda $ 介於 $ 1 $ 和 $ 0 $ . (您可以使用負值使尾部更重 $ \lambda $ ,但這種用法很少見。) $ \lambda=1 $ 除了重新設置值( $ f(p) = p-1/2 $ )。作為 $ \lambda $ 向零收縮,尾巴被拉得更遠 $ \pm \infty $ . 這滿足標準#1。因此,通過選擇適當的值 $ \lambda $ ,你可以在尾巴中控制這種重新表達的“強度”。

引用自:https://stats.stackexchange.com/questions/10975

comments powered by Disqus