Distributions

比較傅里葉空間中的兩個分佈

  • May 6, 2014

許多工具可以提供兩個連續概率分佈之間的距離。大多數(半)距離,如 Kullback-Leibler 散度,使用概率密度函數。然而,當談到比較傅立葉空間中的兩個分佈時,即通過它們的特徵函數,文獻非常稀少。有沒有一種優雅的方式來做到這一點?

在傅立葉空間中可以考慮的一個值得注意的距離是最大平均差異 (MMD)。首先選擇一個半正定 $ k : \mathcal X \times \mathcal X \to \mathbb R $ 對應於一個再生核希爾伯特空間(RKHS) $ \mathcal H_k $ . 然後MMD

$$ \begin{align} \operatorname{MMD}k(\mathbb P, \mathbb Q) &= \sup{f \in \mathcal H_k : \lVert f \rVert_{\mathcal H_k} \le 1} \mathbb E_{X \sim \mathbb P}[ f(X)] - \mathbb E_{Y \sim \mathbb Q}[ f(Y)] \&= \left\lVert \mathbb E_{X \sim \mathbb P}[k(X, \cdot)] - \mathbb E_{Y \sim \mathbb Q}[k(Y, \cdot)] \right\rVert \&= \sqrt{ \mathbb{E}_{\substack{X, X' \sim \mathbb P\Y, Y' \sim \mathbb Q}}\left[ k(X, X') + k(Y, Y') - 2 k(X, Y) \right] } .\end{align} $$你可能對能量距離 很熟悉;這是針對特定內核選擇的 MMD 的一種特殊情況。這是許多內核選擇的適當度量,稱為特徵內核;它始終是一個半度量。

這與傅里葉變換有什麼關係?好吧,如果 $ \mathcal X = \mathbb R^d $ 和 $ k(x, y) = \psi(x - y) $ , 以便 $ \psi : \mathbb R^d \to \mathbb R $ 是一個正定函數,那麼 MMD可以寫成 $$ \operatorname{MMD}k(\mathbb P, \mathbb Q) = \sqrt{\int \left\lvert \varphi{\mathbb P}(\omega) - \varphi_{\mathbb Q}(\omega) \right\rvert^2 , \mathrm{d}\hat\psi(\omega)} $$ 在哪裡 $ \varphi $ 表示特徵函數,並且 $ \hat\psi $ 是傅里葉變換 $ \psi $ 在度量意義上。(它總是一個有限的非負測度;你可以從這個定義中看出,一個平移不變核是特徵的,當且僅當其傅里葉變換處處為正時。)有關證明,參見推論 4

Sriperumbudur 等人,Hilbert 空間嵌入和概率度量指標,JMLR 2010。

MMD - 您可以通過上面的第三種形式輕鬆估計 - 因此比較分佈 $ L_2 $ 它們的完整特徵函數之間的距離,頻率根據內核的選擇加權。比如常見的高斯核 $ k(x, y) = \exp\left( -\frac{1}{2\sigma^2} \lVert x - y \rVert^2 \right) $ 將使用均值為 0 和方差的高斯加權頻率 $ 1/\sigma^2 $ .

有時它更好,有時計算速度更快/信息更多,而是比較特定位置而不是任何地方的特徵函數。事實證明,最好稍微調整一下,評估隨機位置平滑特徵函數的差異:

Chwialkowski 等人,用概率度量的分析表示進行快速兩樣本測試,NeurIPS 2015。

後續工作會發現要測試的信息最多的頻率,而不是隨機的:

Jitkrittum 等人,具有最大測試能力的可解釋分佈特徵,NeurIPS 2016。

這些都與 kjetil 在評論中提到的基於經驗特徵函數的經典測試密切相關。

引用自:https://stats.stackexchange.com/questions/96634

comments powered by Disqus