Regression

數據空間、變量空間、觀察空間、模型空間(例如在線性回歸中)

  • January 26, 2016

假設我們有數據矩陣,即-經過-, 和標籤向量,即一個接一個。這裡,矩陣的每一行都是一個觀察值,每一列對應一個維度/變量。(認為)

那麼data space, variable space, observation space,model space是什麼意思呢?

是列向量跨越的空間,a(退化)-D 空間,因為它有排名時的坐標,稱為變量空間,因為它是由變量向量跨越的?或者它被稱為觀察空間,因為每個維度/坐標對應於一個觀察?

那麼行向量所跨越的空間呢?

這些術語出現在一些關於多元統計的書籍中。假設你有 $ n $ 個人由 $ p $ 定量特徵數據矩陣。然後,您可以將個人繪製為空間中以軸為特徵的點。這將是經典的散點圖,也就是可變空間圖。我們說,個體雲跨越了由軸特徵定義的空間。

您也可以設想散點圖,其中點是變量,軸是個體。完全像以前一樣,只是顛倒過來。那將是主題空間圖(或觀察空間圖),其中包含變量,個人定義它。

請注意,如果(經常) $ n>p $ 那麼,在第二種情況下,只有一些 $ p $ 尺寸 $ n $ 維度是非冗餘的;這意味著您可以並且可能會繪製 $ p $ 可變點 $ p $ 維圖 $ ^1 $ . 此外,根據傳統,變量點通常與原點相連,因此它們顯示為矢量(箭頭)。我們主要使用主題空間表示來顯示變量之間的關係,因此為了方便起見,我們刪除了軸主題並將點描繪為箭頭。

如果特徵(數據矩陣的列)在繪製主題空間圖之前居中,則變量向量之間角度的餘弦等於它們的 Pearson 相關性,而向量長度等於變量的範數(平方根和) ) 或標準偏差(如果除以df)。

變量空間和主體空間是一枚硬幣的兩個面,它們是同一個歐幾里得分析空間,只是相互映照而已。它們共享相同的屬性,例如非零特徵值和特徵向量。因此,可以將主題和變量並排繪製為該分析空間的主軸(或其他正交基)空間中的點, - 這種聯合圖稱為biplot。我不知道“數據空間”這個詞到底是什麼意思——如果它意味著特定的東西,那麼我想它是主題空間和變量空間是兩個實體的公共分析空間。

在此處輸入圖像描述

一些本地鏈接:


$ ^1 $ 想像一下,您有n=5個人和p=2變量,並且您以某種方式神奇地在 5 維空間中繪製了 2 個點。然後,您可以旋轉由任意 2 個軸定義的子空間,使其嵌入 2 個點(因此從現在開始跨越該平面);之後,您安全地放下其他 3 個軸(尺寸),因為它們已變得不必要。兩個變量點的相對位置被保留。

引用自:https://stats.stackexchange.com/questions/192625

comments powered by Disqus