如何評估多變量和特定方法結果的可重複性?
方法“A”使用由大約 30 個不同變量組成的多變量“指紋”描述生物樣品。不同的變量表現出不同的典型分佈,其中許多變量彼此密切相關。根據先前的經驗,假設我們無法將許多變量轉換為正態分佈。
方法“B”被設計為方法“A”的改進版本,我們希望比較這兩種方法的可重複性。如果我們處理單個變量,我們將對幾個樣本進行獨立分析並使用方差分析來比較方法內和方法間的變異性。但這裡我們處理的是多變量輸出,我們不希望對每個變量進行一次分析。這個問題的正確方法是什麼?
解決
gui11aume 的 回答提供了有用且有價值的信息。根據 AdamO 的建議,我將根據 gui11aume 的答案改編“下游應用程序”,然後 進行 7 次單向分析。
這讓我想起了癌症診斷,其中舊的基因表達特徵被新的基因表達特徵所取代,這當然應該更好。但是如何證明他們更好呢?
這裡有一些建議來比較這些方法的可重複性。
1. 使用共慣量分析 (CIA)。
中央情報局應該更多地宣傳,不幸的是它沒有被廣泛使用(例如沒有維基百科頁面)。CIA 是一種雙表方法,其工作原理與典型分析(CA) 相同,即在兩組多密度測量之間尋找具有最大相關性的一對線性分數。它相對於 CA 的優勢在於,即使您的維度多於觀察值,您也可以做到這一點。您可以在相同的樣本上測量這兩種方法,以獲得 30 列的兩個耦合表和觀察。第一對主成分應該是強相關的(如果方法真的測量相同的東西)。如果方法 B 更好,則殘差方差應該小於方法 A 的殘差方差。使用這種方法,您可以解決方法的一致性和它們的不一致,您將其解釋為噪聲。
2.使用距離。
您可以使用測試和重新測試之間的 30 維歐幾里得距離來測量方法的可重複性。您為每種方法生成該分數的樣本,並且可以將樣本與 Wilcoxon 檢驗進行比較。
3. 使用下游應用。
您可能正在獲取這些指紋來做出決定,或對患者或生物材料進行分類。您可以計算兩種方法的測試和重新測試之間的一致與不一致,並將它們與 Wilcoxon 測試進行比較。
方法三是最簡單的,也是最接地氣的。即使對於高維輸入,決策通常也很簡單。無論我們的問題多麼複雜,請記住,統計數據是決策科學。
關於您評論中的問題。
使用魯棒的降維方法將多變量數據降維為一維並對其進行分析呢?
降維無論多麼穩健,都將與方差損失相關聯。如果有一種方法可以將您的多變量指紋轉換為單個分數,從而捕獲幾乎所有的方差,那麼可以肯定,這是迄今為止最好的做法。但是,為什麼指紋首先是多元的呢?
我從 OP 的上下文中假設指紋是多變量的,因為很難在不丟失信息的情況下進一步降低其維度。在這種情況下,它們在單個分數上的可重複性不一定是整體可重複性的良好代表,因為您可能會忽略大部分方差(在最壞的情況下接近 29/30)。