Machine-Learning
為什麼要大寫XXX和小寫為是的是的y?
為什麼大多數時候(在許多網站、文章或演示中)特徵變量(列)用大寫的“X”表示,而目標變量是小寫的“y”?
在我看來更像是一個編碼標準。前任。
X = df.iloc[:, :-1] y = df.iloc[:, -1]
只是好奇,因為我幾乎從不只使用一個字母來表示存儲有意義數據的變量。
關於為什麼的問題 $ X $ 和 $ y $ 數學概念中的流行選擇已在科學史和數學 SE網站上得到解答:為什麼 X 和 Y 通常用作數學佔位符?(簡而言之:因為笛卡爾是這麼說的!)
在線性代數方面,使用大寫拉丁字母表示矩陣(例如設計矩陣 $ X $ ) 和向量的小寫拉丁字母 (響應向量 $ y $ )。關於在統計學中使用矩陣的標準教科書(例如Searle的 Matrix Algebra Useful for Statistics、Harville 的Matrix Algebra From a Statistician’s Perspective和Gentle 的Matrix Algebra: Theory, Computations, and Applications in Statistics)也使用了這個約定,所以它有成為表示事物的標準方式。