為 GP 選擇均值函數的標準
在為高斯過程選擇協方差函數時,可以使用幾個標準來選擇一類協方差函數,例如我們想要多少“平滑度”,我們是否想要一些週期性等。
但是,我找不到一些標準來選擇平均函數,也找不到常用函數的列表……我見過的唯一一個被使用的是 $ w^Tx $ .
任何幫助,將不勝感激
如此處所述
對於高斯過程,平均函數通常不是建模工作的主要焦點。但是,在某些情況下,例如外推,我們需要使用比恆定均值函數更好的方法,因為否則高斯過程的響應具有恆定均值函數 $ C $ 將恢復為 $ C+\bar{y} $ 距離訓練數據“足夠遠”。如果我們使用平方指數協方差函數,和/或最適合訓練數據的長度尺度相對於訓練集的“直徑”非常小,那麼“足夠遠”可能是“非常接近”。
排除平均函數是確定性的瑣碎情況(即,它是輸入的已知函數,但它不依賴於訓練數據,例如 $ \mathbf{c}^T\cdot\mathbf{x} $ , 和 $ \mathbf{c} $ 一個預定的向量),我們基本上有兩種情況:
均值函數是一個線性模型
這意味著平均函數是
$$ g(\mathbf{x}\vert\boldsymbol{\beta})=\boldsymbol{\beta}^T\cdot\mathbf{b}(\mathbf{x}) $$
在哪裡 $ \boldsymbol{\beta} $ 是未知參數的向量,並且 $ \mathbf{b}(\mathbf{x}) $ 是一組固定的基函數,例如:
- 最大次數的單項式 $ p $ , IE, $ {x_1^{\alpha_1}\dots x_d^{\alpha_d}\vert\sum_{i=1}^d\alpha_i\le p} $
- 傅里葉單項式 $ \mathbb{R}^d $ , IE, $ {\exp(i\mathbf{m}\cdot \mathbf{x})\vert \ \Vert\mathbf{m}\Vert_1\le M} $
- 樣條曲線(我讓你很高興寫出多元表達式)
- 等等。
在這種情況下,如果我們選擇高斯先驗 $ \boldsymbol{\beta}\sim\mathcal{N}(\mathbf{b},\boldsymbol{\Sigma}) $ ,那麼預測均值向量和協方差矩陣仍然有一個解析表達式,就像在恆定均值函數的情況下一樣。這個表達式有點麻煩:你可以在CE Rasmussen & CKI Williams, Gaussian Processes for Machine Learning中找到方程 (2.41) 。筆記:與恆定均值函數情況一樣,這些分析表達式僅在協方差函數(內核)是預先確定的情況下才是準確的(最多除了用於容納噪聲觀察的塊金項)。如果(幾乎總是如此)協方差函數包含需要根據訓練數據估計其後驗分佈的自由超參數,那麼如果要執行“精確”貝葉斯推理,則需要使用模擬(MCMC)。
均值函數是非線性模型
例如,在以下情況下就是這種情況:
- 基函數本身就是訓練數據的函數
- 基函數的數量取決於訓練數據
- 均值函數不是基函數的線性組合(例如,有理函數)
- 等等。
在這種情況下,計算預測均值和協方差的唯一方法是通過模擬,即使協方差函數是預先指定的。但是,我從未見過非線性平均函數的實際應用。我想,當數據生成過程非常複雜以至於均值函數的線性模型不合適時,您要么專注於改進/複雜化協方差函數,要么使用其他統計模型而不是高斯過程(例如,貝葉斯神經網絡)。
選擇標準
現在您有了表達式,您可以基於純粹的啟發式標準(例如,WAIC 或交叉驗證)或基於先驗知識執行選擇。例如,如果你從物理學中知道,對於 $ \Vert \mathbf{x} \Vert_2\to\infty $ ,您的響應應該是輸入的線性函數,您將選擇一個線性多項式的均值函數,如果您知道它必須成為周期性的,您將選擇傅里葉基等。
另一個可能的標準是可解釋性:出於顯而易見的原因,GP 不是最直接可解釋的模型,但是如果您使用線性均值函數,那麼至少漸近地,當內核的影響“消失”時,您可以解釋線性模型的係數作為一種效應大小。
最後,非常量均值函數可用於顯示樣條模型、廣義加法模型 (GAM) 和高斯過程之間的嚴格關係。