對比的虛擬編碼：0,1 vs. 1,-1

May 21, 2013

我正在尋求您的幫助，以了解二分變量的兩種不同對比之間的差異。

在此頁面上： http : //www.psychstat.missouristate.edu/multibook/mlt08.htm 在“二分預測變量”下，有兩種編碼二分預測變量的方法：使用對比 0,1 或對比 1,-1 . 我有點理解這裡的區別（0,1 是虛擬編碼，1,-1 添加到一組並從另一組中減去）但不明白在我的回歸中使用哪個。

例如，如果我有兩個二分預測變量，性別 (m/f) 和運動員 (y/n)，我可以在兩者上使用對比 0,1 或在兩者上使用 1,-1。當使用兩種不同的對比時，主效應或交互效應的解釋是什麼？這是否取決於我的細胞大小是否不同？

“二分預測變量”，有兩種編碼二分預測變量的方法：使用對比 0,1 或對比 1,-1。

這實際上是錯誤的。編碼方式的數量沒有限制。這兩個只是最常見的（實際上在它們之間，幾乎無處不在），並且可能是最容易處理的。

我有點理解這裡的區別（0,1 是虛擬編碼，1,-1 添加到一組並從另一組中減去）但不明白在我的回歸中使用哪個。

哪個更方便/合適。如果你有一個設計的實驗，每個實驗都有相同的數字，那麼第二種方法有一些不錯的方面；如果你不這樣做，第一個可能在幾個方面更容易。

例如，如果我有兩個二分預測變量，性別 (m/f) 和運動員 (y/n)，我可以在兩者上使用對比 0,1 或在兩者上使用 1,-1。

當使用兩種不同的對比時，主效應或交互效應的解釋是什麼？

a) (i) 考慮性別主效應（為簡單起見沒有交互作用）{m=0, f=1} - 然後對應於該虛擬變量的係數將衡量女性和男性之間的均值差異（截距將是男性的平均值）。

(ii) 對於{m=-1, f=1}，性別主效應是均值差的一半，截距是均值的平均值（如果設計是平衡的，它也是所有數據的平均值） . 等效地，主要影響是每組均值與截距的差異。

b) (i) 考慮性別{m=0,f=1}和運動員{n=0,y=1}之間的相互作用

現在截距代表男性非運動員的平均值（0,0），性別主效應是女性非運動員和男性非運動員平均值之間的差異，運動員主效應表示平均值之間的差異男性運動員和男性非運動員的差異，相互作用是兩個差異的差異 - 這是女性的平均運動員/非運動員差異減去平均運動員/非運動員的差異。

(ii) 考慮性別{m=-1,f=-1}和運動員{n=-1,y=1}之間的相互作用

現在截距代表四個組均值的平均值（如果設計完全平衡，它也將是整體平均值）。截距是之前的四分之一。

主要影響是差異效應的平均值 - 性別效應是運動員內男女差異和非運動員內男女差異的平均值。運動員主效應是女性運動員/非運動員差異和男性運動員/非運動員差異的平均值。

這是否取決於我的細胞大小是否不同？

“不同尺寸”是什麼意思？您的意思是每個單元格中的觀察次數不同嗎？（如果是這樣，我在上面主要解決了這個問題 - 相同的單元格數給出了額外的含義/簡化了解釋，例如使截距成為數據的總平均值，而不僅僅是組平均值的平均值。）

引用自：https://stats.stackexchange.com/questions/59578

對比的虛擬編碼：0,1 vs. 1,-1

相關問答

年齡部分作為連續變量，部分作為分類變量

究竟什麼是多熱編碼，它與單熱編碼有何不同？

具有高基數的分類變量的編碼

從連續數據到分類數據總是錯誤的嗎？

為什麼處理編碼會導致隨機斜率和截距之間存在相關性？

如何使用 Python 統計證明列是否具有分類數據