你會如何向沒有統計背景的人解釋廣義線性模型?
我總是很難向沒有統計背景的觀眾解釋統計技術。如果我想向這些觀眾解釋 GLM 是什麼(不拋出統計術語),最好或最有效的方法是什麼?
我通常用三個部分來解釋 GLM——(1)作為響應變量的隨機分量,(2)作為線性預測變量的系統分量,以及(3)作為連接(1)和(2)。然後我將舉一個線性或邏輯回歸的例子,並解釋如何根據響應變量選擇鏈接函數。因此,它充當連接兩個組件的關鍵。
如果聽眾真的沒有統計背景,我想我會盡量簡化解釋。首先,我會在板上畫一個坐標平面,上面有一條線,如下所示:
參加你演講的每個人都會熟悉一條簡單直線的方程式,,因為那是在小學學到的東西。所以我會在圖紙旁邊顯示它。但是,我會倒著寫,如下所示:
我會說這個方程是簡單線性回歸的一個例子。然後,我將解釋您(或計算機)如何將這樣的方程擬合到數據點的散點圖中,如下圖所示:
我想說的是,我們正在使用我們正在研究的生物體的年齡來預測它有多大,我們得到的線性回歸方程(如圖所示)可以用來預測一個生物體有多大如果我們知道它的年齡。
回到我們的一般方程,我會說 x 是可以預測y 的變量,所以我們稱它們為predictors。y 通常稱為響應。
然後我再解釋一下,這是一個簡單的線性回歸方程的例子,實際上還有更複雜的變體。例如,在稱為邏輯回歸的變體中,y 只允許為 1 或 0。如果您試圖預測“是”或“否”的答案,例如某人是否患有疾病,則可能需要使用這種類型的模型。另一個特殊的變種是稱為泊松回歸的東西,它用於分析“計數”或“事件”數據(除非真的有必要,否則我不會進一步深入研究)。
然後我會解釋線性回歸、邏輯回歸和泊松回歸實際上都是更通用方法的特殊示例,稱為“廣義線性模型”。“廣義線性模型”的偉大之處在於它們允許我們使用可以取任何值的“響應”數據(比如線性回歸中有機體有多大),只取 1 或 0(比如某人是否有邏輯回歸中的疾病),或進行離散計數(如泊松回歸中的事件數)。
然後我會說,在這些類型的方程中,x(預測變量)通過統計學家稱之為“鏈接函數”的東西連接到 y(響應)。我們在 x 與 y 不以線性方式相關的情況下使用這些“鏈接函數”。
無論如何,這是我在這個問題上的兩分錢!也許我提出的解釋聽起來有點虛偽和愚蠢,但如果這個練習的目的只是讓觀眾了解“要點”,那麼這樣的解釋也許還不錯。我認為重要的是要以直觀的方式解釋這個概念,並且避免使用諸如“隨機分量”、“系統分量”、“鏈接函數”、“確定性”、“logit 函數”等詞。如果你與真正沒有統計背景的人交談,例如典型的生物學家或醫生,他們的眼睛只會在聽到這些話時變得呆滯。他們不知道概率分佈是什麼,他們從未聽說過鏈接函數,也不知道什麼是“logit”
在您對非統計受眾的解釋中,我還將重點關注何時使用何種模型。我可能會談論允許在等式的左側包含多少個預測變量(我聽說過的經驗法則不超過您的樣本量除以十)。最好包括一個包含數據的示例電子表格並向觀眾解釋如何使用統計軟件包來生成模型。然後,我將逐步查看該模型的輸出,並嘗試解釋所有不同的字母和數字的含義。生物學家對這些東西一無所知,他們更感興趣的是學習什麼時候使用什麼測試,而不是真正了解 SPSS GUI 背後的數學!
我將不勝感激任何關於我提出的解釋的意見或建議,特別是如果有人注意到錯誤或想出更好的解釋方法!