Gaussian-Process

為什麼高斯過程中的均值函數無趣?

  • July 5, 2016

我剛剛開始閱讀有關 GP 的內容,類似於常規高斯分佈,它的特徵是均值函數和協方差函數或內核。我在一次演講中,演講者說平均函數通常很無趣,所有的推理工作都花在估計正確的協方差函數上。

有人可以向我解釋為什麼會這樣嗎?

我想我知道演講者在說什麼。就我個人而言,我並不完全同意她/他,而且有很多人不同意。但公平地說,也有很多人這樣做:) 首先,請注意,指定協方差函數(內核)意味著指定函數的先驗分佈。僅僅通過改變內核,高斯過程的實現就發生了巨大的變化,從平方指數內核生成的非常平滑、無限可微的函數

在此處輸入圖像描述

對應於指數核(或 Matern 核)的“尖峰”、不可微函數)

在此處輸入圖像描述

另一種查看方法是在測試點中寫入預測均值(高斯過程預測的均值,通過在訓練點上調節 GP 獲得),在零均值函數的最簡單情況下:

在哪裡是測試點之間的協方差向量和訓練點,是訓練點的協方差矩陣,是噪聲項(剛剛設置如果您的講座涉及無噪聲預測,即高斯過程插值),以及是訓練集中的觀察向量。可以看到,即使 GP 先驗的均值為零,但預測均值根本不為零,而且取決於核和訓練點的數量,它可以是一個非常靈活的模型,能夠學習到極複雜的圖案。

更一般地說,是內核定義了 GP 的泛化屬性。一些內核具有通用逼近特性,即,在給定足夠的訓練點的情況下,它們原則上能夠將緊湊子集上的任何連續函數逼近到任何預先指定的最大容差。

那麼,你為什麼要關心平均函數呢?首先,一個簡單的均值函數(線性或正交多項式函數)使模型更易於解釋,對於像 GP 一樣靈活(因此復雜)的模型,這一優勢不可低估。其次,在某種程度上,零均值(或者,就其價值而言,也是常數均值)GP 在遠離訓練數據的預測方面很糟糕。許多固定核(除了周期性核)是這樣的為了. 這種收斂到 0 的速度可能會出人意料地迅速發生,尤其是使用平方指數核時,尤其是當需要較短的相關長度才能很好地擬合訓練集時。因此,具有零均值函數的 GP 將始終預測一旦你離開訓練集。

現在,這在您的應用程序中可能有意義:畢竟,使用數據驅動模型執行遠離用於訓練模型的數據點集的預測通常是一個壞主意。請參閱此處,了解為什麼這可能是一個壞主意的許多有趣且有趣的示例。在這方面,零均值 GP 在遠離訓練集時總是收斂到 0,比模型(例如高度多元正交多項式模型)更安全,後者會很高興地做出瘋狂的大預測你遠離訓練數據。

然而,在其他情況下,您可能希望您的模型具有某種漸近行為,即不會收斂到一個常數。也許身體上的考慮會告訴你,足夠大,您的模型必須變為線性。在這種情況下,您需要一個線性均值函數。通常,當您的應用程序對模型的全局屬性感興趣時,您必須注意均值函數的選擇。當您只對模型的局部(接近訓練點)行為感興趣時,零或恆定均值 GP 可能綽綽有餘。

引用自:https://stats.stackexchange.com/questions/222238

comments powered by Disqus

相關問答