Logistic

討論二項式回歸和建模策略

  • March 4, 2011

今天我有一個關於二項式/邏輯回歸的問題,它基於我部門的一個小組已經完成並正在徵求意見的分析。我編造了下面的例子來保護他們的匿名性,但他們很想看到回應。

首先,分析從簡單的 1 或 0 二項式響應(例如從一個繁殖季節到下一個繁殖季節的存活率)開始,目標是將這種響應建模為一些協變量的函數。

然而,一些協變量的多次測量可用於某些個體,但不適用於其他個體。例如,假設變量 x 是分娩期間代謝率的量度,個體的後代數量會有所不同(例如,變量 x 對個體 A 測量了 3 次,但對個體 B 僅測量了一次)。這種不平衡不是由於研究人員本身的抽樣策略,而是反映了他們抽樣的人群的特徵;有些人的後代比其他人多。

我還應該指出,測量分娩事件之間的二項式 0\1 響應是不可能的,因為這些事件之間的間隔非常短。再一次,想像一下有問題的物種的繁殖季節很短,但在這個季節可以生出不止一個後代。

研究人員選擇運行一個模型,在該模型中,他們使用變量 x 的平均值作為一個協變量,將個體生育的後代數量作為另一個協變量。

現在,由於多種原因,我不熱衷於這種方法

1)取 x 的平均值意味著在 x 的個體內可變性中丟失信息。

2)均值本身就是一個統計量,因此通過將其放入模型中,我們最終可以對統計量進行統計。

3)一個人的後代數量在模型中,但它也用於計算變量x的平均值,我認為這可能會造成麻煩。

所以,我的問題是人們將如何對這種類型的數據進行建模?

目前,我可能會為有一個後代的個體運行單獨的模型,然後為有兩個後代的個體等運行單獨的模型。此外,我不會使用變量 x 的平均值,而只使用每次出生的原始數據,但我是也不相信這會好得多。

感謝您的時間

(PS:對不起,這是一個很長的問題,我希望這個例子很清楚)

聽起來您確實有點進退兩難,因為每個單獨的測量只有 1 個響應變量。我最初打算推荐一種多層次的方法。但是為了使它起作用,您需要觀察最低級別的響應-您沒有-您在個人級別觀察您的響應(這將是傳銷中的第 2 級)

1)取 x 的平均值意味著在 x 的個體內可變性中丟失信息。

您正在失去協變量 x 的可變性,但這僅在 X 中包含的其他信息與響應相關時才重要。也沒有什麼可以阻止您將 X 的方差作為協變量。

2)均值本身就是一個統計量,因此通過將其放入模型中,我們最終可以對統計量進行統計。

統計量是觀察數據的函數。因此,任何協變量都是“統計數據”。所以不管你喜不喜歡,你已經在做“統計上的統計”了。但是,它確實會影響您應該如何解釋斜率係數 - 作為平均值,而不是個體出生的值。如果您不關心個人出生,那麼這無關緊要。如果你這樣做了,那麼這種方法可能會產生誤導。

3)一個人的後代數量在模型中,但它也用於計算變量x的平均值,我認為這可能會造成麻煩。

僅當 X 的平均值在功能上/確定性上與後代數量相關時才重要。發生這種情況的一種方法是,如果每個出生次數相同的人的 X 值相同。通常情況並非如此。

您可以指定一個模型,其中包含 X 的每個值作為協變量。但這可能會涉及我想像的你的一些新的方法學研究。由於個體內部的測量次數不同,您的似然函數對於不同的個體會有所不同。我不認為多層次建模在概念上適用於這種情況。這僅僅是因為出生不是個體中的子集或樣本。雖然數學可能是一樣的。

您可以合併此結構的一種方法是創建一個模型,例如:

在哪裡是個體的二項式響應和表示出生人數,是協變量,並且是具有相同協變量值且出生次數相同的個體的數量。 是概率,您通常將其建模為:

對於一些單調/可逆函數. “棘手”部分的出現是因為隨. 這種情況下的對數似然是:

在哪裡只是您數據集中可用的出生人數的集合。最大化它可能是一項不平凡的任務,並且您可能不會通過對當前估計進行泰勒級數展開來獲得通常的 IRLS 方程。泰勒系列是我從這裡開始的方式——我只是沒有精力在這個時候完成這個過程。我建議您嘗試重新安排您的答案,使其看起來像“普通”二項式 GLM。這將使您能夠利用可用的標準軟件。

我可以告訴你的是,當你區分取決於取決於(例如第三胎的代謝率係數),這個求和中的一些項會丟失。這基本上是“告訴你”某些觀察對估計某些參數沒有任何貢獻的可能性(例如,生育兩個或更少後代的個體對第三胎代謝率的估計斜率沒有任何貢獻)。

因此,總而言之,當您建議丟失某些東西時,您的直覺是正確的。但是,“純度”的價格可能很高——尤其是如果您需要編寫自己的算法來獲得估算值。

引用自:https://stats.stackexchange.com/questions/7873

comments powered by Disqus