數據空間、變量空間、觀察空間、模型空間(例如在線性回歸中)
假設我們有數據矩陣,即-經過-, 和標籤向量,即一個接一個。這裡,矩陣的每一行都是一個觀察值,每一列對應一個維度/變量。(認為)
那麼
data space
,variable space
,observation space
,model space
是什麼意思呢?是列向量跨越的空間,a(退化)-D 空間,因為它有排名時的坐標,稱為變量空間,因為它是由變量向量跨越的?或者它被稱為觀察空間,因為每個維度/坐標對應於一個觀察?
那麼行向量所跨越的空間呢?
這些術語出現在一些關於多元統計的書籍中。假設你有 $ n $ 個人由 $ p $ 定量特徵數據矩陣。然後,您可以將個人繪製為空間中以軸為特徵的點。這將是經典的散點圖,也就是可變空間圖。我們說,個體雲跨越了由軸特徵定義的空間。
您也可以設想散點圖,其中點是變量,軸是個體。完全像以前一樣,只是顛倒過來。那將是主題空間圖(或觀察空間圖),其中包含變量,個人定義它。
請注意,如果(經常) $ n>p $ 那麼,在第二種情況下,只有一些 $ p $ 尺寸 $ n $ 維度是非冗餘的;這意味著您可以並且可能會繪製 $ p $ 可變點 $ p $ 維圖 $ ^1 $ . 此外,根據傳統,變量點通常與原點相連,因此它們顯示為矢量(箭頭)。我們主要使用主題空間表示來顯示變量之間的關係,因此為了方便起見,我們刪除了軸主題並將點描繪為箭頭。
如果特徵(數據矩陣的列)在繪製主題空間圖之前居中,則變量向量之間角度的餘弦等於它們的 Pearson 相關性,而向量長度等於變量的範數(平方根和) ) 或標準偏差(如果除以df)。
變量空間和主體空間是一枚硬幣的兩個面,它們是同一個歐幾里得分析空間,只是相互映照而已。它們共享相同的屬性,例如非零特徵值和特徵向量。因此,可以將主題和變量並排繪製為該分析空間的主軸(或其他正交基)空間中的點, - 這種聯合圖稱為biplot。我不知道“數據空間”這個詞到底是什麼意思——如果它意味著特定的東西,那麼我想它是主題空間和變量空間是兩個實體的公共分析空間。
一些本地鏈接:
- 圖片顯示主成分 (PCA) 與線性回歸的主題空間表示(與回歸和 PCA的傳統變量空間(散點圖)表示進行比較),因子分析與 PCA (再次與因子分析與 PCA的變量空間表示進行比較)回歸、偏相關、相關、回歸b與相關、協方差與共同方差、抑制因子。
- 雙圖的理論解釋。一篇解釋PCA中雙圖結構的自學。
- 另請參閱一篇文章,試圖弄清楚是否可以在主題空間圖上以幾何方式解決PCA 任務(似乎 PC 定義了橢圓;但是如何找到那個唯一的橢圓?)。
$ ^1 $ 想像一下,您有
n=5
個人和p=2
變量,並且您以某種方式神奇地在 5 維空間中繪製了 2 個點。然後,您可以旋轉由任意 2 個軸定義的子空間,使其嵌入 2 個點(因此從現在開始跨越該平面);之後,您安全地放下其他 3 個軸(尺寸),因為它們已變得不必要。兩個變量點的相對位置被保留。