Nonlinear-Regression

使用 GAM 回歸分析非線性數據,但審稿人建議改為擬合指數或對數曲線。使用哪個?

  • July 10, 2021

我正在嘗試發表我的碩士論文,該論文著眼於大像對植被的影響,重點是人工水坑的影響。我已經提交了初步意見,現在正在進行重大修訂,這涉及對我的統計方法的一些質疑。

我觀察到的一些大象撞擊測量顯示與水的距離呈非線性關係,這導致我使用 GAM。然而,一位評論家表示,他們認為這在統計上過於矯枉過正,只不過是“擬合證明距離很重要的複雜非線性函數”而已。他們建議我應該通過擬合其他人可以使用的簡單函數(例如指數衰減曲線)來描述大象撞擊和到水的距離之間的非線性關係。我認為要提出的觀點是,這些更簡單的函數可以讓我對大象的影響說一些更普遍的東西(例如,它們類似於對數曲線),而 GAM 僅用於描述我在特定研究區域中發現的影響和因此,它的一般用處不大。

我仍然是統計學的新手,所以我會很感激一些關於哪種方法似乎更明智的想法。我在下面的數據中包含了一些示例。

上圖顯示了一種植被類型在距水的不同距離處的冠層體積/公頃(圓圈代表單個採樣點)。該線顯示了 GAM 回歸的預測關係。這種關係似乎類似於對數曲線,因此審閱者可能會建議我在這種情況下擬合它。

一種植被類型在距水的不同距離處的冠層體積/公頃(圓圈代表單個採樣點)

離水不同距離的第二種植被類型的冠層體積/公頃(圓圈代表單個樣地)

第二張圖顯示了與到水的距離相關的樹冠體積/公頃,但在第二種植被類型中。這種植被類型受大象的影響更大。再次,圖表上的線來自 GAM 預測,但這可能是我可以尋找擬合指數曲線的地方?

對於我使用 GAM 的優點與審閱者建議使用更簡單的功能的任何想法,我將不勝感激。順便說一句,我還沒有真正探索將對數或指數曲線擬合到 R 中的數據,所以我也非常感謝這方面的任何指針。

除了 Demetri 的回答(+1):

  1. GAM 的使用在生態學領域已經很成熟,所以我會添加一些書籍/有影響力的文章。表明您不是在重新發明輪子,而是與現代建模方法並駕齊驅。
  2. 您沒有描述您的樣本量,但您可能想嘗試驗證模式以表明通過使用 GAM,您可以獲得更好的擬合優度。如果像 AIC/BIC 之類的東西對特定模型表現出明顯的偏好,這可以平息一些(不太複雜的)批評……
  3. 我會強調 GAM 擬合程序如何看待收縮。有人在他/她的腦海中將 GAM 過度簡化為“各種多項式基礎”是合理的,因此容易過度擬合。
  4. 考慮一下他們的觀點:是否有任何既定的研究表明已經存在對數或指數衰減曲線?審閱者可能會滿意您承認它們是一種可能性。也許你可以對之前的工作進行批判性評估,並展示你的工作是如何向前邁進的。
  5. 正如 Dimitri 所提到的,在沒有先驗知識的情況下指定函數形式會導致強烈的偏見。您可以禮貌地加倍強調您使用的是非參數方法。甚至可以嘗試不同的基函數(例如三次回歸樣條和薄板樣條)並顯示結果(希望)非常相似,因此不依賴於基函數的選擇。

需要明確的是:在我看來,在這裡使用 GAM 是正確的方法;對“為什麼不是 X 功能形式”的批評很弱。如果先前的研究為特定的建模假設提出了強有力的證據,那麼這種批評可能是有道理的,但即便如此,它也不是一個特別有力的立場。也就是說,試著看看它們來自哪裡,批評可以幫助加強你的手稿和/或減輕未來讀者的擔憂。

引用自:https://stats.stackexchange.com/questions/534072

comments powered by Disqus