R
線性回歸或序數邏輯回歸預測葡萄酒評級(從 0 到 10)
我有來自這裡的葡萄酒數據,它由 11 個數字自變量組成,每個條目的相關評級與值在 0 到 10 之間。這使得使用回歸模型來研究變量和相關變量之間的關係成為一個很好的數據集評分。但是,線性回歸是否合適,還是使用多項/有序邏輯回歸更好?
考慮到特定類別,邏輯回歸似乎更好,即不是連續因變量,但(1)有 11 個類別(有點太多?)和(2)經過檢查,這些類別中只有 6-7 個類別的數據,即其餘5-4 個類別在數據集中沒有示例。
另一方面,線性回歸應該線性估計0-10之間的評級,這似乎更接近我想要找出的;然而,因變量在數據集中不是連續的。
哪種方法更好?注意:我使用 R 進行分析
編輯,解決答案中提到的一些要點:
- 沒有商業目標,因為這實際上是針對大學課程的。任務是以我認為合適的方式分析選擇的數據集。
- 評分的分佈看起來很正常(直方圖/qq-plot)。數據集中的實際值在 3-8 之間(即使技術上是 0-10)。
有序 logit 模型更合適,因為您有一個因變量是一個排名,例如 7 比 4 好。所以有一個明確的順序。
這允許您獲得每個 bin 的概率。您需要考慮的假設很少。你可以看看這裡。
序數邏輯(和序數概率)回歸的假設之一是每對結果組之間的關係是相同的。換句話說,序數邏輯回歸假設描述響應變量的最低與所有更高類別之間關係的係數與描述下一個最低類別與所有更高類別等之間關係的係數相同。這稱為比例優勢假設或平行回歸假設。
一些代碼:
library("MASS") ## fit ordered logit model and store results 'm' m <- polr(Y ~ X1 + X2 + X3, data = dat, Hess=TRUE) ## view a summary of the model summary(m)
請記住,您需要將係數轉換為優勢比,然後轉換為概率,以便對概率有一個清晰的解釋。
以一種直接(和簡單化的方式),您可以通過以下方式計算這些:
$ exp(\beta_{i})=Odds Ratio $
$ \frac{exp(\beta_{1})}{\sum exp(\beta_{i})} = Probability $
(不想太技術化)