Intuition

Box-Cox 變換背後的直覺

  • May 20, 2020

對於嚴重偏斜的特徵,變換技術有助於穩定方差,使數據更像正態分佈,提高關聯度量的有效性。

我真的很難理解 Box-Cox 變換背後的直覺。我的意思是如何為平方根和對數轉換以及估計 lambda 配置數據轉換方法。

誰能用簡單的話(也許還有一個例子)解釋一下 Box-Cox 變換背後的直覺是什麼

非負數據的 Box-Cox 變換系列的設計目標是:

  1. 公式應該簡單、直接、易於理解且易於計算。
  2. 他們不應該對數據中間有太大的改變,但對尾部的影響更大。
  3. 該族應該足夠豐富,以在必要時引起數據偏度的大變化:這意味著它應該能夠收縮或擴展數據的一條尾部,同時擴展或收縮另一條尾部,任意數量。

讓我們依次考慮每一個的含義。

1.簡單

線性變換——那些形式 $ x\to \alpha x + \beta $ 對於常數 $ \alpha $ 和 $ \beta $ –僅僅改變數據的規模和位置;它們不能改變分佈的形狀。 下一個最簡單的公式是考慮變換,形式為 $ x\to x^\lambda $ 對於(非零)常數 $ \lambda. $

2. 穩定性

冪變換具有很好的特性,即重新調整數據會導致重新調整其冪。也就是說,將數據相乘 $ x $ 通過一些正比例因子 $ \alpha $ 結果成倍增加 $ x^\lambda $ 經過 $ \alpha^\lambda. $ 好的,它不是相同的比例因子,但它仍然只是一個重新縮放。

鑑於此,讓我們始終對任何一批數據進行標準化 $ (x_1, x_2, \ldots, x_n) $ 通過重新調整它以將其中心(也許是它的中位數)放置在 $ 1. $ 具體來說,這取代了每個 $ x_i $ 經過 $ x_i $ 除以所有的中間值 $ x $ 的。這不會改變數據分佈的形狀——它實際上相當於選擇了一個合適的度量單位來表達這些值。對於那些喜歡公式的人,讓 $ \mu $ 是批次的中位數。我們將研究轉變

$$ x \to \frac{(x/\mu)^\lambda - 1}{\lambda} = \frac{\mu^{-\lambda}}{\lambda},x^\lambda + \frac{-1}{\lambda} = \alpha, x^\lambda + \beta $$

對於各種 $ \lambda. $ 的影響 $ \alpha $ 和 $ \beta $ (這取決於 $ \lambda $ 和 $ \mu $ ) 在 $ x^\lambda $ 不要改變分佈的形狀 $ x_i^\lambda. $ 從這個意義上說,標準化數據的 Box-Cox 變換實際上只是冪變換。

因為我們做了 $ 1 $ 批次的中心值,設計標準 2——“穩定性”——要求不同的功率值 $ \lambda $ 對附近的值影響相對較小 $ 1. $

讓我們通過檢查冪對附近數字的作用來更詳細地了解這一點 $ 1. $ 根據二項式定理,如果我們寫 $ x $ 作為 $ x=1+\epsilon $ (對於相當小的 $ \epsilon $ ),然後大約

$$ (1 + \epsilon)^\lambda = 1 + \lambda \epsilon + \text{Something}\times \epsilon^2. $$

忽略 $ \epsilon^2 $ 真的很小,這告訴我們

奪權 $ \lambda $ 一個數 $ x $ 靠近 $ 1 $ 是一個幾乎線性的函數,它改變之間的距離 $ x $ 和 $ 1 $ 通過一個因素 $ \lambda. $

有鑑於此,我們可以匹配不同可能的效果 $ \lambda $ 通過距離的補償劃分 $ \lambda. $ 也就是說,我們將使用

$$ \operatorname{BC}_\lambda(x) = \frac{x^\lambda - 1^\lambda}{\lambda} = \frac{x^\lambda - 1}{\lambda}. $$

分子是冪變換之間的(有符號)距離 $ x $ 以及數據中間的冪變換( $ 1 $ ); 分母根據擴展進行調整 $ x-1 $ 因數 $ \lambda $ 掌權時。 $ \operatorname{BC}_\lambda $ 是帶參數的 Box-Cox 變換 $ \lambda. $

通過這種結構,我們保證當 $ x $ 接近其批次數據的典型值, $ \operatorname{BC}_\lambda(x) $ 無論如何,將近似為相同的值(並且接近於零) $ \lambda $ 可能是(當然,在合理範圍內: $ \lambda $ 可以做極端的事情)。

3. 靈活性

我們有很多可能的值 $ \lambda $ 從中選擇。它們有何不同?

這可以通過繪製各種 Box-Cox 變換來探索 $ \lambda. $ 這是一組圖表 $ \lambda \in {-1,-1/2, 0, 1/2, 1, 2}. $ (對於意義 $ \lambda=0, $ 請參閱本網站其他地方的自然對數近似。)

圖1

黑色實線描繪了 Box-Cox 變換 $ \lambda=1, $ 這只是 $ x\to x-1. $ 它只是將批次的中心移動到 $ 0 $ (就像所有的 Box-Cox 變換一樣)。向上彎曲的粉紅色圖形用於 $ \lambda=2. $ 向下彎曲的圖顯示,按照曲率增加的順序,較小的值 $ \lambda $ 向下 $ -1. $

不同的曲率量和方向為改變一批數據的形狀提供了所需的靈活性。

例如,向上曲線圖 $ \lambda=2 $ 舉例說明了所有 Box-Cox 變換的效果 $ \lambda $ 超過 $ 1: $ 的值 $ x $ 多於 $ 1 $ (即,大於批次的中間,因此在其上尾)被拉得越來越遠離的中間(在 $ 0 $ )。的價值觀 $ x $ 以下 $ 1 $ (小於批次的中間,因此在其較低的尾部)被推到更靠近新的中間。這會使數據向右或高值“傾斜”(相當強烈,即使對於 $ \lambda=2 $ ).

向下彎曲的圖,對於 $ \lambda \lt 1, $ 具有相反的效果:它們將批次中的較高值推向新的中間值,並將較低的值拉離新的中間值。這會使數據向左(或更低的值)傾斜。

該點附近所有圖形的重合度 $ (1,0) $ 是先前標準化的結果:它構成了視覺驗證,即選擇 $ \lambda $ 對於批次中間附近的值幾乎沒有什麼區別。

最後,讓我們看看不同的 Box-Cox 變換對一小批數據做了什麼。

圖 2

轉換後的值由水平位置表示。(原始數據看起來就像黑點,顯示在 $ \lambda=1, $ 但位於 $ +1 $ 右側的單位。)顏色對應於第一個圖中使用的顏色。底層的灰線顯示了轉換後的值在以下情況下會發生什麼 $ \lambda $ 平滑地從 $ -1 $ 到 $ +2. $ 這是了解這些轉換對數據尾部的影響的另一種方式。(這也說明了為什麼 $ \lambda=0 $ 有意義:它對應於取值 $ \lambda $ 任意接近 $ 0. $ )

引用自:https://stats.stackexchange.com/questions/467494

comments powered by Disqus