Data-Transformation

將兩個變量折疊(組合)為一個以進行分析

  • July 17, 2012

我遇到了一個讓我有些困惑的話題:兩個變量的合併。

假設我們有來自相同主題的兩個測量值。兩個變量(和) 正在測量類似但不完全相同的東西。變量(或組合變量,稱為) 稍後將用作解釋變量 () 的一些其他變量 ().

例如,假設我們要估計一個人的智商,而我們只有他父母的智商(我們不知道孩子的性別)。

哪些統計(和非統計)問題與決定是否將兩種測量合併為一個相關?

需要考慮的一些問題:

  1. 假設我們稍後將擬合類型的線性回歸~(在哪裡或者是和或兩者的組合),是否有時間我們寧願合併兩個變量(,) 合二為一?
  2. 兩個變量的關聯如何(和) 與是否合併它們的決定相關?
  3. 之間有沒有關係/和這可能會影響合併決策?
  4. 如果和是序數變量還是強制整數變量,這對合併它們的值有影響嗎?
  5. 關於這個主題還有其他我沒有提到的問題需要考慮嗎?

建立在以前的答案之上:

  1. 是的,會有。在回歸分析中,您假設您的回歸器彼此正交。如果你考慮,收入,受教育年限,父母的種族,你最終會得到強相關的回歸量。這將導致您對兩者的估計 和估計不准確(大標準誤差),您可能會錯誤地得出結論認為它們不重要。有關相關回歸量影響的討論,請參閱此鏈接。基本上,在合唱團中,很難知道誰在唱什麼。
  2. 可能的組合:總和、平均值、兩個(或更多)系列的第一個主成分。你必須在這裡證明你的選擇是合理的。在受教育年限的情況下,您可以將兩個數字相加並聲明為“父母的教育”。
  3. 你到底什麼意思 ?
  4. 不,您可以使用任何類型的變量來執行此操作。參見受教育年限的例子。
  5. 請注意,任何數據聚合都會導致信息丟失。作為研究人員,你的工作就是權衡這種選擇的利弊。

引用自:https://stats.stackexchange.com/questions/32472

comments powered by Disqus

相關問答