Bhattacharya 係數和 Bhattacharya 距離的直覺?
Bhattacharyya 距離定義為, 在哪裡對於離散變量,對於連續隨機變量也是如此。我試圖獲得一些直覺,了解這個指標告訴你關於 2 個概率分佈的內容,以及何時它可能是比 KL 散度或 Wasserstein 距離更好的選擇。(注意:我知道 KL-divergence 不是距離)。
Bhattacharyya 係數為 $$ BC(h,g)= \int \sqrt{h(x) g(x)}; dx $$ 在連續情況下。有一篇很好的維基百科文章https://en.wikipedia.org/wiki/Bhattacharyya_distance。如何理解這一點(以及相關的距離)?讓我們從多元正態案例開始,它具有指導意義,可以在上面的鏈接中找到。當兩個多元正態分佈具有相同的協方差矩陣時,Bhattacharyya 距離與馬氏距離一致,而在兩個不同的協方差矩陣的情況下,它確實有第二項,因此推廣了馬氏距離。這可能是聲稱在某些情況下 Bhattacharyya 距離比 Mahalanobis 更好的說法的基礎。Bhattacharyya 距離也與 Hellinger 距離密切相關https://en.wikipedia.org/wiki/Hellinger_distance。
使用上面的公式,我們可以找到一些隨機解釋。寫 $$ \DeclareMathOperator{\E}{\mathbb{E}} BC(h,g) = \int \sqrt{h(x) g(x)}; dx = \ \int h(x) \cdot \sqrt{\frac{g(x)}{h(x)}}; dx = \E_h \sqrt{\frac{g(X)}{h(X)}} $$ 所以它是似然比統計量的平方根的期望值,在分佈下計算 $ h $ (的零分佈 $ X $ )。這可以與Kullback-Leibler (KL) Divergence 上的 Intuition進行比較,後者將 Kullback-Leibler 散度解釋為對數似然比統計量的期望(但在替代項下計算) $ g $ )。這種觀點在某些應用中可能很有趣。
還有另一種觀點,與一般的 f-分歧族相比,定義為,參見Rényi entropy $$ D_f(h,g) = \int h(x) f\left( \frac{g(x)}{h(x)}\right); dx $$ 如果我們選擇 $ f(t)= 4( \frac{1+t}{2}-\sqrt{t} ) $ 由此產生的 f 散度是 Hellinger 散度,我們可以從中計算 Bhattacharyya 係數。這也可以看作是從 Renyi 熵獲得的 Renyi 散度的示例,請參見上面的鏈接。