比較傅里葉空間中的兩個分佈

May 6, 2014

有許多工具可以提供兩個連續概率分佈之間的距離。大多數（半）距離，如 Kullback-Leibler 散度，使用概率密度函數。然而，當談到比較傅立葉空間中的兩個分佈時，即通過它們的特徵函數，文獻非常稀少。有沒有一種優雅的方式來做到這一點？

在傅立葉空間中可以考慮的一個值得注意的距離是最大平均差異 (MMD)。首先選擇一個半正定核 $ k : \mathcal X \times \mathcal X \to \mathbb R $ 對應於一個再生核希爾伯特空間（RKHS） $ \mathcal H_k $ . 然後MMD

$$ \begin{align} \operatorname{MMD}k(\mathbb P, \mathbb Q) &= \sup{f \in \mathcal H_k : \lVert f \rVert_{\mathcal H_k} \le 1} \mathbb E_{X \sim \mathbb P}[ f(X)] - \mathbb E_{Y \sim \mathbb Q}[ f(Y)] \&= \left\lVert \mathbb E_{X \sim \mathbb P}[k(X, \cdot)] - \mathbb E_{Y \sim \mathbb Q}[k(Y, \cdot)] \right\rVert \&= \sqrt{ \mathbb{E}_{\substack{X, X' \sim \mathbb P\Y, Y' \sim \mathbb Q}}\left[ k(X, X') + k(Y, Y') - 2 k(X, Y) \right] } .\end{align} $$你可能對能量距離很熟悉；這是針對特定內核選擇的 MMD 的一種特殊情況。這是許多內核選擇的適當度量，稱為特徵內核；它始終是一個半度量。

這與傅里葉變換有什麼關係？好吧，如果 $ \mathcal X = \mathbb R^d $ 和 $ k(x, y) = \psi(x - y) $ ，以便 $ \psi : \mathbb R^d \to \mathbb R $ 是一個正定函數，那麼 MMD也可以寫成 $$ \operatorname{MMD}k(\mathbb P, \mathbb Q) = \sqrt{\int \left\lvert \varphi{\mathbb P}(\omega) - \varphi_{\mathbb Q}(\omega) \right\rvert^2 , \mathrm{d}\hat\psi(\omega)} $$ 在哪裡 $ \varphi $ 表示特徵函數，並且 $ \hat\psi $ 是傅里葉變換 $ \psi $ 在度量意義上。（它總是一個有限的非負測度；你可以從這個定義中看出，一個平移不變核是特徵的，當且僅當其傅里葉變換處處為正時。）有關證明，參見推論 4

Sriperumbudur 等人，Hilbert 空間嵌入和概率度量指標，JMLR 2010。

MMD - 您可以通過上面的第三種形式輕鬆估計 - 因此比較分佈 $ L_2 $ 它們的完整特徵函數之間的距離，頻率根據內核的選擇加權。比如常見的高斯核 $ k(x, y) = \exp\left( -\frac{1}{2\sigma^2} \lVert x - y \rVert^2 \right) $ 將使用均值為 0 和方差的高斯加權頻率 $ 1/\sigma^2 $ .

有時它更好，有時計算速度更快/信息更多，而是比較特定位置而不是任何地方的特徵函數。事實證明，最好稍微調整一下，評估隨機位置平滑特徵函數的差異：

Chwialkowski 等人，用概率度量的分析表示進行快速兩樣本測試，NeurIPS 2015。

後續工作會發現要測試的信息最多的頻率，而不是隨機的：

Jitkrittum 等人，具有最大測試能力的可解釋分佈特徵，NeurIPS 2016。

這些都與 kjetil 在評論中提到的基於經驗特徵函數的經典測試密切相關。

引用自：https://stats.stackexchange.com/questions/96634

comments powered by Disqus

比較傅里葉空間中的兩個分佈

相關問答

KL-Divergence 可以大於 1 嗎？

是來自 Beyer 等人的相對對比定理。論文：“關於高維空間中距離度量的令人驚訝的行為”誤導？

Bhattacharya 係數和 Bhattacharya 距離的直覺？

用傅里葉分析去季節化數據

為什麼歐幾里得距離在高維中不是一個好的度量？

定義 ARIMA 順序的問題