Self-Study

協方差和相關矩陣和/或其逆矩陣的行列式是否有有用的解釋?

  • June 12, 2017

幾年前在 VB 和 T-SQL 中學習計算協方差和相關矩陣及其逆矩陣時,我了解到各種條目具有有趣的屬性,可以使它們在正確的數據挖掘場景中有用。一個明顯的例子是協方差矩陣的對角線上存在方差。一些我還沒有使用但可能在某些時候派上用場的不太明顯的例子是逆相關矩陣中的方差膨脹因子和逆協方差矩陣中的偏相關。

然而,我尚未在文獻中直接看到的一件事是如何解釋這些矩陣的行列式。由於經常為其他類型的矩陣計算行列式,我希望能找到關於它們的大量信息,但我在 StackExchange 論壇和 Internet 其他地方的隨意搜索中發現的很​​少。我遇到的大多數提及都圍繞著使用行列式作為計算其他統計測試和算法的過程中的一個步驟,例如主成分分析 (PCA) 和 Hotelling 的測試之一;沒有人直接解決如何自行解釋這些決定因素。數據挖掘文獻中沒有經常討論它們是否有實際原因?更重要的是,它們是否以獨立的方式提供任何有用的信息,如果是,我如何解釋每個的決定因素?我意識到行列式是一種由線性變換引起的有符號體積,所以我懷疑這些特定行列式的行列式可能表示整個集合上協方差或相關性等的某種體積度量,或者類似的東西(與普通的協方差和相關性相反,它們位於兩個屬性或變量之間)。這也引出了他們的倒數代表什麼樣的體積的問題。我對該主題或涉及的大量矩陣數學不夠熟悉,無法進一步推測,但我能夠編寫所有四種類型的矩陣及其行列式。我的問題並不緊迫,但從長遠來看,我將不得不決定是否值得在我的探索性數據挖掘過程中定期包含這些矩陣及其決定因素。在這些特定語言中以一對一的雙變量方式計算協方差和相關性會更便宜,但如果我能得出一些更深入的見解來證明費用合理,我會加倍努力並實施行列式計算編程資源。提前致謝。如果我能獲得一些更深入的見解來證明編程資源方面的費用是合理的,我會加倍努力並實施行列式計算。提前致謝。如果我能獲得一些更深入的見解來證明編程資源方面的費用是合理的,我會加倍努力並實施行列式計算。提前致謝。

我能夠從雜亂無章的來源中拼湊出這些矩陣的一些一般原則、用例和屬性;他們中很少有直接涉及這些主題,大多數只是順便提及。由於行列式代表有符號的體積,我預計與這四種類型的矩陣有關的行列式將轉化為某種多維關聯度量;這在某種程度上證明是正確的,但其中一些表現出有趣的特性:

協方差矩陣:

• 在高斯分佈的情況下,行列式間接測量微分熵,這可以解釋為數據點在矩陣體積上的分散。請參閱 tmp 在什麼是協方差矩陣的行列式給出的答案?詳情。

• Alexander Vigodner 在同一線程中的回答說它還具有積極性。

• 協方差矩陣行列式可以解釋為廣義方差。請參閱 NIST 統計手冊第6.5.3.2 頁。行列式和特徵結構

逆協方差矩陣:

• 相當於協方差矩陣行列式所代表的廣義方差的逆;最大化逆協方差矩陣的行列式顯然可以代替計算Fisher信息矩陣的行列式,可用於優化實驗設計。請參閱 kjetil b halvorsen 對 CV 線程Determinant of Fisher Information的回答

相關矩陣:

• 這些比協方差矩陣行列式更有趣,因為相關量隨著行列式接近 1 而減小,隨著後者接近 0 而增加。這與普通相關係數相反,其中較高的數字表示較大的正相關。“僅當所有相關性都等於 0 時,相關矩陣的行列式才等於 1.0,否則行列式將小於 1。請記住,行列式與由標準分數表示的數據點群所佔據的空間量有關" 看這套杜蘭課程筆記這個 Quora 頁面

• 對這種意外行為的另一個引用:“當某些變量彼此完全相關或高度相關時,相關矩陣的行列式變為零或接近零。” 請參閱Rakesh Pandey 的問題如何使用 SPSS 處理計算可靠性中接近零行列式的問題?

• 第三個參考:“具有非常小的 det(R) 僅意味著您有一些幾乎線性相關的變量。” Carlos Massera Filho 在這個 CrossValidated 線程中的回答。

• 行列式也遵循從 0 到 1 的等級,這與相關係數遵循的 -1 到 1 等級不同。它們也缺乏普通行列式在表達體積方向時可能表現出的符號。我發現的任何文獻中都沒有提到相關決定因素是否仍然代表某種方向性的概念。

逆相關矩陣:

• 谷歌搜索“逆相關矩陣”和“行列式”這兩個詞的組合結果只有 50 個命中,因此顯然它們不常用於統計推理。

• 顯然,在某些情況下,最小化逆相關行列式可能是有用的,因為存在使用自適應濾波器消除迴聲的專利,其中包含旨在做到這一點的正則化過程。見第 5 在本專利文件中。

• 第。Telman Aliev 的 Robust Technology with Analysis of Interference in Signal Processing(可在 Google 圖書預覽中獲得)的 5 似乎表明相關矩陣的“規定不佳”與逆相關矩陣行列式的不穩定性有關。換句話說,其行列式的劇烈變化與其組成元素的微小變化成比例,與相關矩陣捕獲的信息量有關。

這些決定因素可能還有其他屬性和用例未在此處列出;為了完整起見,我將發布這些內容並為我提出的問題提供答案,以防其他人遇到這些解釋的實際用途(就像我對相關決定因素所做的那樣)。

引用自:https://stats.stackexchange.com/questions/284861

comments powered by Disqus