PCA /對應分析中的“馬蹄效應”和/或“拱形效應”是什麼?
生態統計中有許多技術可以對多維數據進行探索性數據分析。這些被稱為“協調”技術。許多與統計學中其他地方的常用技術相同或密切相關。也許典型的例子是主成分分析(PCA)。生態學家可能會使用 PCA 和相關技術來探索“梯度”(我並不完全清楚梯度是什麼,但我已經閱讀了一些關於它的內容。)
在此頁面上,**主成分分析 (PCA)**下的最後一項內容為:
- PCA 對植被數據有一個嚴重的問題:馬蹄效應。這是由沿梯度的物種分佈的曲線性引起的。由於物種響應曲線通常是單峰的(即非常強烈的曲線),馬蹄效應很常見。
在頁面下方,在**對應分析或倒數平均 (RA)**下,它指的是“拱形效應”:
- RA有一個問題:拱形效應。它也是由沿梯度分佈的非線性引起的。
- 拱形不像 PCA 的馬蹄效應那麼嚴重,因為漸變的末端沒有捲積。
有人可以解釋一下嗎?我最近在低維空間(即對應分析和因子分析)中重新表示數據的圖中看到了這種現象。
- “梯度”更普遍地對應於什麼(即,在非生態環境中)?
- 如果您的數據發生這種情況,這是一個“問題”(“嚴重問題”)嗎?為了什麼?
- 應該如何解釋出現馬蹄形/拱形的輸出?
- 是否需要採取補救措施?什麼?原始數據的轉換會有幫助嗎?如果數據是有序評級怎麼辦?
答案可能存在於該站點的其他頁面中(例如,對於PCA、CA和DCA)。我一直在努力解決這些問題。但是討論是用非常陌生的生態術語和例子來表達的,因此很難理解這個問題。
第一季度
生態學家一直在談論梯度。梯度有很多種,但最好將它們視為您想要或對響應很重要的任何變量的某種組合。因此,梯度可以是時間、空間、土壤酸度或養分,或者更複雜的東西,例如以某種方式響應所需的一系列變量的線性組合。
我們談論梯度是因為我們在空間或時間中觀察物種,並且大量事物隨著空間或時間而變化。
第二季度
我得出的結論是,在許多情況下,PCA 中的馬蹄形並不是一個嚴重的問題*,如果*你了解它是如何產生的,並且當“梯度”實際上由 PC1 和 PC2 表示時不要做一些愚蠢的事情,比如拿 PC1(好吧它也分為更高的 PC,但希望二維表示是可以的)。
在加州,我想我也是這麼想的(現在不得不考慮一下)。當數據中沒有強二維時,該解決方案可以形成一個拱形,這樣滿足 CA 軸正交性要求的第一軸的折疊版本比數據中的另一個方向解釋了更多的“慣性”。這可能更嚴重,因為這是由 PCA 組成的結構,其中拱形只是表示沿單一優勢梯度的地點的物種豐度的一種方式。
我一直不太明白為什麼人們如此擔心 PC1 上的錯誤排序與強大的馬蹄鐵。我會反駁說,在這種情況下您不應該只使用 PC1,然後問題就消失了;PC1 和 PC2 上的坐標對消除了這兩個軸中任何一個軸上的反轉。
第三季度
如果我在 PCA 雙圖中看到馬蹄形,我會將數據解釋為具有單一的主要梯度或變化方向。
如果我看到拱門,我可能會得出相同的結論,但我會非常謹慎地試圖解釋 CA 軸 2。
我不會應用 DCA - 它只是將拱形扭曲(在最好的情況下),這樣您就不會在二維圖中看到奇怪的東西,但在許多情況下,它會產生其他虛假結構,例如鑽石或喇叭形狀。 DCA空間中的樣本排列。例如:
library("vegan") data(BCI) plot(decorana(BCI), display = "sites", type = "p") ## does DCA
我們看到典型的樣本點向圖的左側散開。
第四季度
我建議這個問題的答案取決於你分析的目的。如果拱門/馬蹄形是由於單一的主導梯度,那麼不必將其表示為PCA 軸,如果我們可以估計一個表示站點/樣本沿梯度的位置的變量,那將是有益的。
這將建議在數據的高維空間中找到非線性方向。一種這樣的方法是 Hastie & Stuezel 的主曲線,但其他非線性流形方法可能就足夠了。
例如,對於一些病理數據
我們看到了一個強大的馬蹄鐵。主曲線試圖通過數據的 m 維中的平滑曲線來恢復這種潛在的梯度或樣本的排列/排序。下圖顯示了迭代算法如何收斂於近似底層梯度的東西。(我認為它偏離了圖頂部的數據,以便更接近更高維度的數據,部分原因是曲線被宣佈為主曲線的自洽標準。)
我有更多詳細信息,包括我從中獲取這些圖像的博客文章中的代碼。但這裡的要點是主曲線很容易恢復樣本的已知順序,而 PC1 或 PC2 本身則不能。
在 PCA 案例中,通常在生態學中應用轉換。流行的變換是在對變換後的數據計算歐幾里德距離時可以考慮返回一些非歐幾里德距離的變換。例如,海靈格距離是
在哪裡是豐富的樣本中的第 th 種,是所有物種豐度的總和第一個樣本。如果我們將數據轉換為比例並應用平方根變換,那麼歐幾里得距離保持 PCA 將表示原始數據中的 Hellinger 距離。
馬蹄鐵在生態學中早已為人所知和研究;一些早期的文學作品(加上更現代的外觀)是
- 古道爾 DW 等人。(1954)植被分類的客觀方法。三、一篇使用因子分析的文章。澳大利亞植物學雜誌 2, 304–324。
- Noy-Meir I. & Austin MP 等人。(1970)主成分排序和模擬植被數據。生態學 51, 551–552。
- Podani J. & Miklós I. 等人。(2002)主坐標分析中的相似係數和馬蹄效應。生態學 83, 3331–3343。
- 天鵝 JMA 等人。(1970)使用模擬植被數據對一些排序問題的檢查。生態學 51, 89–102。
主要的主曲線參考是
- De’ath G. 等人。(1999)主曲線:一種用於間接和直接梯度分析的新技術。生態學 80, 2237–2253。
- Hastie T. & Stuetzle W. 等人。(1989)主曲線。美國統計協會雜誌 84, 502–516。
前者是一個非常生態的展示。