Regression

SPSS和Stata輸出不同

  • August 26, 2014

我精通 Stata,但正在為我的新職位學習 SPSS。我正在使用一個簡單的數據集進行非常基本的回歸併進行比較以查看結果是否相同。他們不是。我很接近,但 beta 的大小和重要性略有不同。數據從 Excel 複製並粘貼到每個文件中;我沒有在 SPSS 中使用 Stata 文件,反之亦然。對於 SPSS,我沒有加權,它使用列表刪除,它在“輸入”方法上。我認為 Stata 正在做同樣的事情,作為它的默認值(但如果我錯了,請糾正我,這是一個不同的默認值!)。

關於還有什麼要檢查的任何想法?我只是在做一個簡單的線性回歸。

數據:https ://www.dropbox.com/s/8g31cjf8vr69i44/rwj%20county%20data.xls?dl=0

句法

SPSS

REGRESSION
/MISSING LISTWISE
/STATISTICS COEFF
/DEPENDENT FreeLunch
/METHOD=ENTER FoodInsecure Rural Female @18 Hispanic.

(或者,對於點擊,分析->回歸->線性;強制在“方法”下選擇進入/逐步/刪除/後退/前進。)

斯塔塔

reg percentfreelunch percentfoodinsecure rural female under18 hispanic

數據在 Excel 中並粘貼到兩者中。

結果

SPSS

          Var. |   Unst.B | Std.Err. |   St.B |     t | Sig.
    (Constant) | -139.616 |   66.652 | -2.095 | .045
% Food Insecure |    2.785 |     .674 |   .546 | 4.131 | .000
         Rural |     .131 |     .048 |   .404 | 2.701 | .011
        Female |    2.657 |    1.170 |   .372 | 2.270 | .031
          < 18 |    -.416 |     .583 |  -.145 | -.715 | .480
      Hispanic |    1.156 |     .236 |  1.092 | 4.905 | .000

斯塔塔

              Var. |     Coef. | Std.Err. |     t | P>|t|
percentfoodinsecure |   2.76532 | .6741544 |  4.10 | 0.000
             rural |  .1378976 | .0495354 |  2.78 | 0.009
            female |  2.826711 | 1.204272 |  2.35 | 0.026
           under18 | -.3799895 |  .588423 | -0.65 | 0.523
          hispanic |  1.168375 | .2398765 |  4.87 | 0.000
             _cons | -149.3858 |  69.0891 | -2.16 | 0.039

問題(令人驚訝)與粘貼期間的捨入值有關。

在 Excel 中,大多數值是在其他地方計算的,並記錄為雙精度值(大約 16 位小數精度)。僅% Food Insecure實際存儲到少量小數位(一位)。 沒有任何數據列按照 Excel 中的顯示方式存儲。在粘貼過程中,接收應用程序通常會接受*出現的數據,*而不是實際存儲的數據!

**在這種情況下,數據的四捨五入很重要,**因為對於幾個變量——尤其是女性百分比和糧食不安全百分比——四捨五入的數量可能是數據標準偏差的一個可觀的部分。

當我在R使用中直接讀取Excel數據時,我準確地xlsx::read.xlsx再現了SPSS結果。當我將數據四捨五入為整數(對於)並將其他數據四捨五入到小數點後 - 正如它們在將它們粘貼到時出現的那樣- 我得到了新的結果,但估計的係數發生了明顯的變化。例如,攔截% Free Lunch``R變成.

我無法重現 Stata 結果R(我的匯總統計數據與 Nick Cox 提出的數據不太一致:我的意思% Food insecure是代替),但我懷疑如果我將它們粘貼到我的 Stata 副本中,我會得到報告的 Stata 結果。(一個重要線索是為最小值和最大值呈現的四捨五入值:在大多數情況下,這些不是Excel 文件中實際記錄的最小值和最大值。)

兩組結果之間的差異只是標準誤差的一小部分,因此它們——在這種統計意義上——無關緊要。

不存在共線性問題:VIF 很好而且很低。

道德

**當您關心您的數據時,請直接閱讀它們:**不要通過複製粘貼或轉錄手動干預。

引用自:https://stats.stackexchange.com/questions/113314

comments powered by Disqus