Box-Cox 變換背後的直覺
對於嚴重偏斜的特徵,變換技術有助於穩定方差,使數據更像正態分佈,提高關聯度量的有效性。
我真的很難理解 Box-Cox 變換背後的直覺。我的意思是如何為平方根和對數轉換以及估計 lambda 配置數據轉換方法。
誰能用簡單的話(也許還有一個例子)解釋一下 Box-Cox 變換背後的直覺是什麼
非負數據的 Box-Cox 變換系列的設計目標是:
- 公式應該簡單、直接、易於理解且易於計算。
- 他們不應該對數據中間有太大的改變,但對尾部的影響更大。
- 該族應該足夠豐富,以在必要時引起數據偏度的大變化:這意味著它應該能夠收縮或擴展數據的一條尾部,同時擴展或收縮另一條尾部,任意數量。
讓我們依次考慮每一個的含義。
1.簡單
線性變換——那些形式 x→αx+β 對於常數 α 和 β –僅僅改變數據的規模和位置;它們不能改變分佈的形狀。 下一個最簡單的公式是考慮冪變換,形式為 x→xλ 對於(非零)常數 λ.
2. 穩定性
冪變換具有很好的特性,即重新調整數據會導致重新調整其冪。也就是說,將數據相乘 x 通過一些正比例因子 α 結果成倍增加 xλ 經過 αλ. 好的,它不是相同的比例因子,但它仍然只是一個重新縮放。
鑑於此,讓我們始終對任何一批數據進行標準化 (x1,x2,…,xn) 通過重新調整它以將其中心(也許是它的中位數)放置在 1. 具體來說,這取代了每個 xi 經過 xi 除以所有的中間值 x 的。這不會改變數據分佈的形狀——它實際上相當於選擇了一個合適的度量單位來表達這些值。對於那些喜歡公式的人,讓 μ 是批次的中位數。我們將研究轉變
x→(x/μ)λ−1λ=μ−λλ,xλ+−1λ=α,xλ+β
對於各種 λ. 的影響 α 和 β (這取決於 λ 和 μ ) 在 xλ 不要改變分佈的形狀 xλi. 從這個意義上說,標準化數據的 Box-Cox 變換實際上只是冪變換。
因為我們做了 1 批次的中心值,設計標準 2——“穩定性”——要求不同的功率值 λ 對附近的值影響相對較小 1.
讓我們通過檢查冪對附近數字的作用來更詳細地了解這一點 1. 根據二項式定理,如果我們寫 x 作為 x=1+ϵ (對於相當小的 ϵ ),然後大約
(1+ϵ)λ=1+λϵ+Something×ϵ2.
忽略 ϵ2 真的很小,這告訴我們
奪權 λ 一個數 x 靠近 1 是一個幾乎線性的函數,它改變之間的距離 x 和 1 通過一個因素 λ.
有鑑於此,我們可以匹配不同可能的效果 λ 通過距離的補償劃分 λ. 也就是說,我們將使用
BCλ(x)=xλ−1λλ=xλ−1λ.
分子是冪變換之間的(有符號)距離 x 以及數據中間的冪變換( 1 ); 分母根據擴展進行調整 x−1 因數 λ 掌權時。 BCλ 是帶參數的 Box-Cox 變換 λ.
通過這種結構,我們保證當 x 接近其批次數據的典型值, BCλ(x) 無論如何,將近似為相同的值(並且接近於零) λ 可能是(當然,在合理範圍內: λ 可以做極端的事情)。
3. 靈活性
我們有很多可能的值 λ 從中選擇。它們有何不同?
這可以通過繪製各種 Box-Cox 變換來探索 λ. 這是一組圖表 λ∈−1,−1/2,0,1/2,1,2. (對於意義 λ=0, 請參閱本網站其他地方的自然對數近似。)
黑色實線描繪了 Box-Cox 變換 λ=1, 這只是 x→x−1. 它只是將批次的中心移動到 0 (就像所有的 Box-Cox 變換一樣)。向上彎曲的粉紅色圖形用於 λ=2. 向下彎曲的圖顯示,按照曲率增加的順序,較小的值 λ 向下 −1.
不同的曲率量和方向為改變一批數據的形狀提供了所需的靈活性。
例如,向上曲線圖 λ=2 舉例說明了所有 Box-Cox 變換的效果 λ 超過 1: 的值 x 多於 1 (即,大於批次的中間,因此在其上尾)被拉得越來越遠離新的中間(在 0 )。的價值觀 x 以下 1 (小於批次的中間,因此在其較低的尾部)被推到更靠近新的中間。這會使數據向右或高值“傾斜”(相當強烈,即使對於 λ=2 ).
向下彎曲的圖,對於 λ<1, 具有相反的效果:它們將批次中的較高值推向新的中間值,並將較低的值拉離新的中間值。這會使數據向左(或更低的值)傾斜。
該點附近所有圖形的重合度 (1,0) 是先前標準化的結果:它構成了視覺驗證,即選擇 λ 對於批次中間附近的值幾乎沒有什麼區別。
最後,讓我們看看不同的 Box-Cox 變換對一小批數據做了什麼。
轉換後的值由水平位置表示。(原始數據看起來就像黑點,顯示在 λ=1, 但位於 +1 右側的單位。)顏色對應於第一個圖中使用的顏色。底層的灰線顯示了轉換後的值在以下情況下會發生什麼 λ 平滑地從 −1 到 +2. 這是了解這些轉換對數據尾部的影響的另一種方式。(這也說明了為什麼 λ=0 有意義:它對應於取值 λ 任意接近 0. )