Regression

怎麼能R2R2R^2對於相同的回歸有兩個不同的值(沒有截距)[重複]

  • September 5, 2015

我的問題是多方面的。因此,我將首先提出我的問題,然後解釋是什麼導致我提出這個問題。

如何計算具有定義 y 截距的線性回歸的決定係數?y 變量是因變量,x 變量是自變量。例如,當 x 變量為 0 時,y 截距將設置為 0。直線的方程為 y = mx + b 和 b = 0。

當我試圖繪製實驗測量的流體流量數據時,我的問題就出現了。我正在以一種將數據與達西定律進行比較的方式繪製我的數據,達西定律是流體流過多孔介質的唯像模型,它表示在某些條件下體積流量與壓力梯度成正比。

下面是我的數據集和我的數據圖。

x: {54, 25, 14, 7}

和:{458、295、204、118}

注意*:為簡單起見,我將數據集數字四捨五入到最接近的整數。

在此處輸入圖像描述

我在 Microsoft Excel 中繪製了數據,並應用了一條線性趨勢線,其中 y 截距設置為零。我以這種方式應用趨勢線,因為根據達西定律,當 x 變量(壓力梯度)等於 0 時,y 變量(體積流量)應該為零。在繪圖上顯示決定係數,Excel 顯示為 R2 = 0.779。

當我使用 Microsoft Excel 的LINEST 函數時,我得到了一個決定係數,R2 = 0.9602,如下圖所示。

在此處輸入圖像描述

對於我使用的 LINEST 函數:=LINEST(known y’s, known x’s, FALSE, TRUE),其中在第三個參數中我使用“FALSE”將 y 截距 b 設置為零。

Excel 給出的兩個決定係數之間存在差異,分別為 0.779 和 0.9602。

此外,如果我告訴 Excel 的 LINEST 函數在沒有設置截距的情況下計算回歸,例如:= LINEST(known y’s, known x’s, TRUE, TRUE),其中第三個參數我使用“TRUE”來表示,正如 Excel 聲稱的那樣,“to正常計算 b"。我得到一個決定係數,R2 = 0.9742,如下圖所示。

在此處輸入圖像描述

如果我將繪圖的趨勢線格式化為沒有設置 y 截距,則此 R2 值與 Excel 為 R2 值提供的圖形輸出相匹配,如下圖所示。

在此處輸入圖像描述

由於 Excel 為沒有設置 y 截距的趨勢線計算了相同的 R2 值,這使我相信當嘗試將 y 截距設置為零時 LINEST 函數存在錯誤(使用“FALSE”作為第三個參數)。

我已經讀過很多次了,除了最簡單的統計數據之外,一個人真的不應該使用 Excel,有時甚至不應該使用 Excel,因為 Excel 有一堆“gotchyas”。

如果我想手動計算決定係數,我該怎麼做?此外,Excel 發生了什麼,為什麼它計算不同的值?我正在使用 Excel 2010。

我認為這是一個有趣的問題(+1),不是因為 Excel,而是因為它指出有兩種不同的定義顯然Excel混合了兩者!

正如我在評論中所說,由於可以確定係數中描述的“問題”不止一個?它的上限是多少?, 有兩種定義:

讓我們首先介紹一些符號:您的數據表示為對於因變量和為獨立變量。您使用圖表上的趨勢和線性函數估計係數,您會發現. 所以你發現你可以'‘近似'‘經過. 所以用你的價值觀你發現. 明顯地,不會等同於你有一個殘差.

此外,我們將需要平均,我們稱之為.

對於具有截距的模型:

“通常”的定義計算如下:

  1. 取,殘差,將它們平方,然後將它們相加,tis 是殘差平方和,在您的情況下,您會發現14016.96;
  2. 從每個值,減去平均值,將所有這些數字平方並將它們相加,這是平方的總和,在您的情況下,您有;
  3. 現在等於 ,這大約是您在圖表中找到的值(差異可能是由於舍入誤差)。

對於沒有截距的模型:

由於存在的問題在沒有截距的模型中(請參閱Can 決定係數不止一個?它的上限是多少?),還有另一種定義對於這樣的模型:

  1. 帶上你的值,將它們平方,然後將這些平方相加,你會發現;
  2. 做同樣的事情, 你發現,;
  3. 這是第二個除以第一個,你會發現,這取決於您的其他價值你提到的。

如您所見,excell 在圖表中具有趨勢線的第一個值,而 ‘linest’ 具有第二個值。由於第二個值是沒有截距的模型的值,我會說“線”更接近,但總的來說,我會說你應該避免沒有截距的模型。

編輯:由於您在評論中的問題,我添加了以下內容:

@傑克麥克格雷格

你問“你能解釋一下你的最後一句話嗎?”,我認為這意味著“我為什麼要避免沒有截距的模型?”

回歸模型做了幾個假設,當這些假設得到滿足時,具有“不錯”的屬性,例如無偏性(平均而言“正確”)、一致性(隨著樣本量的增加越來越好)和效率(最小方差)。

假設之一是誤差項is 的均值為零。如果該假設未得到滿足,則無法顯示這些“不錯”的屬性。

假設具有均值零不是很嚴格,至少如果您的模型有截距:確實,如果誤差的均值不為零,則通過將均值添加到截距它將為零!

如果您沒有截距,那麼這不起作用,因此如果您的模型中不包含截距,則必須確定錯誤平均為零,換句話說,您必須有一些理論結果“保證”您的線路將通過原點(注意這是兩個限制:“線路”和“通過原點”),所以你有確定功能形式和“通過起源”。

如果您對“通過原點起作用”沒有理論或其他理由,那麼這只是一個假設,但如果您的假設被違反,那麼係數的估計可能會出現偏差。

引用自:https://stats.stackexchange.com/questions/171240

comments powered by Disqus