臉書要完蛋了嗎?
最近,這篇論文受到了很多關注(例如來自WSJ)。基本上,作者得出的結論是,到 2017 年,Facebook 將失去 80% 的成員。
他們的主張基於SIR 模型的外推,這是一種在流行病學中經常使用的分區模型。他們的數據來自谷歌搜索“Facebook”,作者使用 Myspace 的消亡來驗證他們的結論。
問題:
作者是否犯了“相關並不意味著因果關係”的錯誤?這種模型和邏輯可能適用於 Myspace,但它適用於任何社交網絡嗎?
更新:Facebook 回擊
根據“相關等於因果”的科學原理,我們的研究明確表明,普林斯頓大學可能面臨完全消失的危險。
我們真的不認為普林斯頓或世界的空氣供應很快就會消失。我們喜歡普林斯頓大學(和空氣)”,最後提醒一句“並非所有的研究都是生來平等的——一些分析方法會得出非常瘋狂的結論。
到目前為止,答案都集中在數據本身上,這對於所在的網站以及它的缺陷是有意義的。
但我是一名計算/數學流行病學家,所以我也會稍微談談模型本身,因為它也與討論相關。
在我看來,這篇論文最大的問題不是谷歌數據。流行病學中的數學模型一直在處理混亂的數據,在我看來,它的問題可以通過相當簡單的敏感性分析來解決。
對我來說,最大的問題是研究人員“注定要成功”——這在研究中應該始終避免。他們在他們決定適合數據的模型中執行此操作:標準 SIR 模型。
簡而言之,SIR 模型(代表易感性 (S) 感染性 (I) 恢復性 (R))是一系列微分方程,用於跟踪人群在經歷傳染病時的健康狀態。受感染的個體與易感個體相互作用並感染他們,然後及時轉移到恢復的類別。
這會產生如下所示的曲線:
美麗,不是嗎?是的,這是針對殭屍流行病的。很長的故事。
在這種情況下,紅線被建模為“Facebook 用戶”。問題是這樣的:
在基本的 SIR 模型中,I 類最終將不可避免地漸近接近零。
它必鬚髮生。無論您是在建模殭屍、麻疹、Facebook 還是 Stack Exchange 等,都沒有關係。如果您使用 SIR 模型對其進行建模,不可避免的結論是傳染性 (I) 類中的人口下降到大約為零。
SIR 模型有一些非常直接的擴展,這使得這不正確——或者你可以讓恢復 (R) 類中的人回到易感 (S) 類(本質上,這將是離開 Facebook 的人從“我是永遠不會回去”到“我可能有一天會回去”),或者你可以讓新的人進入人群(這將是小蒂米和克萊爾獲得他們的第一台計算機)。
不幸的是,作者不適合這些模型。順便說一下,這是數學建模中普遍存在的問題。統計模型試圖描述變量的模式及其在數據中的相互作用。數學模型是關於現實的斷言。你可以得到一個適合很多東西的 SIR 模型,但是你選擇的 SIR 模型也是對系統的一種斷言。也就是說,一旦達到頂峰,它就會趨於零。
順便說一句,互聯網公司確實使用了看起來很像流行病模型的用戶保留模型,但它們也比論文中提出的模型複雜得多。