從“均勻間隔”樣本開始的單位圓盤上的回歸
我需要解決單位磁盤上的複雜回歸問題。最初的問題吸引了一些有趣的評論,但遺憾的是沒有答案。同時,我在這個問題上學到了更多的東西,因此我將嘗試將原始問題分解為子問題,看看這次我是否有更好的運氣。
我有 40 個溫度傳感器,它們在單位圓盤內有規律地排列成一個窄環:
這些傳感器及時獲取溫度。然而,由於時間變化遠小於空間變化,讓我們通過忽略時間變化來簡化問題,並假設每個傳感器只給我一個時間平均值。這意味著我有 40 個樣本(每個傳感器一個)並且我沒有重複的樣本。
我想建立一個回歸曲面從傳感器數據。回歸有兩個目標:
- 我需要估計平均徑向溫度分佈. 使用線性回歸,我已經估計了一個表面,它是平均溫度表面,因此我只需要對我的表面進行積分, 正確的?如果我使用多項式進行回歸,這一步應該是小菜一碟。
- 我需要估計徑向溫度曲線,使得在每個徑向位置,.
鑑於這兩個目標,我應該使用哪種技術進行單位磁盤上的回歸?當然,高斯過程通常用於空間回歸。然而,為單位磁盤定義一個好的內核並不是微不足道的,所以我想保持簡單並使用多項式,除非你覺得這是一個失敗的策略。我讀過Zernike polynomials。Zernike 多項式似乎適用於單位圓盤上的回歸,因為它們是周期性的.
選擇模型後,我需要選擇一個估計程序。由於這是一個空間回歸問題,不同位置的誤差應該是相關的。普通最小二乘假設不相關的錯誤,因此我猜廣義最小二乘會更合適。GLS 似乎是一種相對常見的統計技術,因為
gls
標準 R 分佈中有一個函數。但是,我從未使用過 GLS,我對此表示懷疑。例如,如何估計協方差矩陣?一個可行的例子,即使只有幾個傳感器,也會很棒。PS 我選擇使用 Zernike 多項式和 GLS,因為在我看來,在這裡做的事情是合乎邏輯的。但是,我不是專家,如果您覺得我走錯了方向,請隨意使用完全不同的方法。
我認為您在考慮諸如Zernike 多項式之類的東西時走在正確的軌道上。正如 jwimberly 在回答中指出的那樣,這些是磁盤上正交基函數係統的一個示例。我不熟悉 Zernike 多項式,但許多其他正交函數族(包括 Bessel 函數)在經典數學物理學中作為某些偏微分方程的特徵函數自然出現(在撰寫本文時,該鏈接頂部的動畫甚至顯示了振動鼓頭的示例)。
我想到了兩個問題。首先,如果您所追求的只是徑向輪廓(平均),那麼您需要對空間模式進行多少限制?其次,時空數據中出現了哪些類型的可變性?
關於第一個問題,我想到了兩個問題。由於極坐標,每個傳感器的支撐區域都有一個趨勢. 第二個問題是混疊的可能性,本質上是傳感器相對於模式相位的未對準(使用傅立葉/貝塞爾類比)。請注意,混疊可能是限制峰值溫度的主要不確定性(即).
就第二個問題而言,數據可變性實際上有助於解決任何混疊問題,本質上允許任何未對齊在不同測量值上平均。(假設沒有系統偏差……但這對於任何方法都是一個問題,例如沒有物理模型來提供更多信息)。
因此,一種可能性是純粹在傳感器位置定義您的空間正交函數。這些“經驗正交函數”可以通過PCA在您的時空數據矩陣上計算。(可能您可以使用一些權重來考慮可變的傳感器支持區域,但考慮到統一的極坐標網格和徑向平均值的目標,這可能不是必需的。)
請注意,如果有任何可用於“預期”溫度變化的物理建模數據,可在密集的時空計算網格上獲得,那麼可以將相同的 PCA 程序應用於該數據以導出正交函數。(這在工程中通常稱為“適當的正交分解”,用於模型簡化,例如,可以提取昂貴的計算流體動力學模型以用於進一步的設計活動。)
最後的評論,如果您要按支持區域(即極坐標單元大小)對傳感器數據進行加權,這將是GLS框架中的一種對角協方差。(這將更多地適用於您的預測問題,儘管加權 PCA 將密切相關。)
我希望這有幫助!
**更新:**在我看來,您的新傳感器分佈圖改變了很多事情。如果你想估計磁盤內部的溫度,你需要一個比簡單的“單位磁盤上的正交函數集”更多的信息。傳感器數據中的信息太少了。
如果您確實想估計磁盤上的空間溫度變化,我能看到的唯一合理方法是將問題視為數據同化問題之一。在這裡,您至少需要基於一些基於物理的考慮來約束空間分佈的參數形式(這些可能來自模擬,或者可能來自具有相似動力學的系統中的相關數據)。
我不知道您的特定應用程序,但如果是這樣的,那麼我想您可以利用大量的工程文獻來選擇適當的先驗約束。(對於那種詳細的領域知識,這可能不是最好的 StackExchange 站點。)