在製作模型之前，變量通常會被調整（例如標準化）——什麼時候這是個好主意，什麼時候是壞主意？

December 1, 2011

在什麼情況下，您希望或不想在模型擬合之前對變量進行縮放或標準化？縮放變量的優點/缺點是什麼？

標準化就是模型中不同變量的權重。如果您“僅”為了數值穩定性而進行標準化，則可能會有一些轉換產生非常相似的數值屬性但不同的物理含義可能更適合解釋。居中也是如此，這通常是標準化的一部分。

您可能想要標準化的情況：

變量是不同的物理量

並且數值在非常不同的量級上

並且沒有“外部”知識表明具有高（數字）變化的變量應該被認為更重要。

您可能不想標準化的情況：

如果變量是相同的物理量，並且（大致）具有相同的大小，例如

不同化學物質的相對濃度

不同波長的吸光度

不同波長下的發射強度（否則測量條件相同）

您絕對不想標準化樣本（基線通道）之間不變的變量 - 您只會放大測量噪聲（您可能希望將它們從模型中排除）

如果您有這樣的物理相關變量，則所有變量的測量噪聲可能大致相同，但信號強度變化更大。即具有低值的變量具有較高的相對噪聲。標準化會炸毀噪音。換句話說，您可能必須決定是要標準化相對噪聲還是絕對噪聲。

可能有物理上有意義的值，您可以使用這些值將您的測量值關聯到，例如，使用透射強度的百分比（透射率 T）代替透射強度。

您可以在“中間”做一些事情，並轉換變量或選擇單位，以便新變量仍然具有物理意義，但數值的變化並沒有那麼不同，例如

如果您與小鼠一起工作，請使用體重 g 和以 cm 為單位的長度（兩者的預期變化範圍約為 5）而不是基本單位 kg 和 m（預期變化範圍為 0.005 kg 和 0.05 m - 相差一個數量級）。

對於上面的透射率 T，您可以考慮使用吸光度

居中類似：

可能有（物理上/化學上/生物上/…）有意義的基線值可用（例如對照、盲等）

平均值真的有意義嗎？（一般人有一個卵巢和一個睾丸）

引用自：https://stats.stackexchange.com/questions/19216

在製作模型之前，變量通常會被調整（例如標準化）——什麼時候這是個好主意，什麼時候是壞主意？

相關問答

對於所有類型的分佈，均值的 CDF 是否始終為 0.5？

沒有統計知識的人的 AUC

離散變量和連續變量。定義是什麼？

Westfall 說，“峰度的比例由中央決定μ±σμ±σmupmsigma範圍通常很小”但反過來是真的嗎？

如果使用所有 PC，PCA 是否提供優勢？

如果是是Y獨立於X1X1X_{1}和X2X2X_{2}, 是否表明是是Y也獨立於X1+X2X1+X2X_{1}+X_{2}?