數據空間、變量空間、觀察空間、模型空間（例如在線性回歸中）

January 26, 2016

假設我們有數據矩陣，即-經過-, 和標籤向量，即一個接一個。這裡，矩陣的每一行都是一個觀察值，每一列對應一個維度/變量。（認為)

那麼data space, variable space, observation space,model space是什麼意思呢？

是列向量跨越的空間，a（退化）-D 空間，因為它有排名時的坐標，稱為變量空間，因為它是由變量向量跨越的？或者它被稱為觀察空間，因為每個維度/坐標對應於一個觀察？

那麼行向量所跨越的空間呢？

這些術語出現在一些關於多元統計的書籍中。假設你有 $ n $ 個人由 $ p $ 定量特徵數據矩陣。然後，您可以將個人繪製為空間中以軸為特徵的點。這將是經典的散點圖，也就是可變空間圖。我們說，個體雲跨越了由軸特徵定義的空間。

您也可以設想散點圖，其中點是變量，軸是個體。完全像以前一樣，只是顛倒過來。那將是主題空間圖（或觀察空間圖），其中包含變量，個人定義它。

請注意，如果（經常） $ n>p $ 那麼，在第二種情況下，只有一些 $ p $ 尺寸 $ n $ 維度是非冗餘的；這意味著您可以並且可能會繪製 $ p $ 可變點 $ p $ 維圖 $ ^1 $ . 此外，根據傳統，變量點通常與原點相連，因此它們顯示為矢量（箭頭）。我們主要使用主題空間表示來顯示變量之間的關係，因此為了方便起見，我們刪除了軸主題並將點描繪為箭頭。

如果特徵（數據矩陣的列）在繪製主題空間圖之前居中，則變量向量之間角度的餘弦等於它們的 Pearson 相關性，而向量長度等於變量的範數（平方根和） ) 或標準偏差（如果除以df）。

變量空間和主體空間是一枚硬幣的兩個面，它們是同一個歐幾里得分析空間，只是相互映照而已。它們共享相同的屬性，例如非零特徵值和特徵向量。因此，可以將主題和變量並排繪製為該分析空間的主軸（或其他正交基）空間中的點， - 這種聯合圖稱為biplot。我不知道“數據空間”這個詞到底是什麼意思——如果它意味著特定的東西，那麼我想它是主題空間和變量空間是兩個實體的公共分析空間。

一些本地鏈接：

圖片顯示主成分 (PCA) 與線性回歸的主題空間表示（與回歸和 PCA的傳統變量空間（散點圖）表示進行比較），因子分析與 PCA （再次與因子分析與 PCA的變量空間表示進行比較）回歸、偏相關、相關、回歸b與相關、協方差與共同方差、抑制因子。

雙圖的理論解釋。一篇解釋PCA中雙圖結構的自學。

另請參閱一篇文章，試圖弄清楚是否可以在主題空間圖上以幾何方式解決PCA 任務（似乎 PC 定義了橢圓；但是如何找到那個唯一的橢圓？）。

$ ^1 $ 想像一下，您有n=5個人和p=2變量，並且您以某種方式神奇地在 5 維空間中繪製了 2 個點。然後，您可以旋轉由任意 2 個軸定義的子空間，使其嵌入 2 個點（因此從現在開始跨越該平面）；之後，您安全地放下其他 3 個軸（尺寸），因為它們已變得不必要。兩個變量點的相對位置被保留。

引用自：https://stats.stackexchange.com/questions/192625

comments powered by Disqus

數據空間、變量空間、觀察空間、模型空間（例如在線性回歸中）

相關問答

統計測試“穩健”意味著什麼？

我已經在回歸中使用了我的整個數據集，我不應該將其用作預測模型嗎？

為什麼我們要匹配因果推理與回歸混雜因素？

維基百科關於 sigmoid 函數的頁面不正確嗎？

說一個“估計”或“測量”r平方是否正確？

為什麼我和我的同事對測試集和驗證集的定義相反？