用於評估方差-協方差矩陣同質性的診斷圖
是否有一個方便的圖來比較兩個(或更多)組的方差 - 協方差矩陣?查看大量邊際圖的替代方法,尤其是在多元正態情況下?
Michael Friendly 和 Matthew Sigal的一篇文章Visualizing Tests for Equality of Covariance Matrices剛剛發表在*《美國統計學家》*(2020 年第 74 卷 - 第 2 期,第 144-155 頁)上。它建議了幾個圖形程序來比較協方差矩陣。
作者的
R
軟件包heplot
支持這些程序。這篇文章中的插圖是根據https://github.com/mattsigal/eqcov_supp/blob/master/iris-ex.R維護的補充代碼對文章中的插圖進行的修改。(我刪除了一些分散注意力的圖形元素。)讓我們一步一步地去那裡,使用著名的Iris數據集,這將需要我們比較三個協方差矩陣 $ d=4 $ 變量。
這是它的四個變量中的兩個的散點圖,其中符號大小和顏色區分了三種鳶尾花。
像往常一樣,任何組的前兩個二元矩都可以使用協方差橢圓來描述。 它是以均值點為中心的馬氏距離等值線。該軟件顯示了兩個這樣的輪廓,大概估計了 68% 和 95% 的公差橢圓(對於二元正態分佈)。(像往常一樣,通過參考合適的卡方分佈的分位數來找到等高線水平。)
如果數據沒有異常值和強非線性,這些提供了一個很好的視覺總結,我們可以通過擦除數據簡單地看到:
第一項創新是繪製一個合併的協方差橢圓。這是通過首先在每個協方差矩陣乘以其估計中的自由度時恢復平方和和乘積矩陣來獲得的。然後對這些 SSP 矩陣求和(當然是按分量),然後將結果除以總自由度。我們可以通過著色來區分匯集的協方差橢圓:
第二項創新將所有橢圓轉換為一個公共中心:
例如,Virginica 協方差類似於 Versicolor 協方差,但往往更大。Setosa 協方差較小且方向不同,清楚地區分了 Setosa 萼片寬度-長度關係與其他兩個物種的關係。
(請注意,由於等高線級別(例如 68% 或 95%)只是平等地重新調整所有橢圓,因此選擇用於此繪圖的級別不再重要。)
最後的創新模擬了散點圖矩陣: $ d \gt 2 $ 變量,創建一個 $ d\times d $ 數組由這些變量雙重索引,並在變量“X”和“Y”的單元格中繪製這兩個變量的所有協方差橢圓,包括合併的橢圓。使用輪廓的線條樣式和/或它們綁定的多邊形的填充樣式以圖形方式區分協方差。為池化橢圓選擇一種相對突出的樣式:在這裡,它是唯一被填充的,並且邊界最暗。
出現了一種模式,其中 Setosa 協方差矩陣與其他兩個物種的協方差矩陣不同,而 Virginica 的協方差矩陣(仍以紅色顯示)總體上往往表現出更大的值。
儘管這種“二元切片”方法不允許我們查看這些協方差矩陣中發生的一切,但可視化是對協方差矩陣進行合理比較的一個很好的開始。圖形表示的進一步簡化是可能的(使用受 Tufte 或 Bertin 啟發的設計原則),我認為可能會使這種方法更加有效。
什麼時候 $ d $ 變大(根據我的經驗,大於 $ 8 $ 除非您願意在高分辨率大幅面打印機上輸出,否則會變得笨拙,但即便如此 $ 40 $ 是在上限附近),需要某種方差減少技術。友好和 Sigal 探索 PCA 解決方案。有趣的是關注具有最小特徵值的主成分的應用程序。