預測江南 Style 的 Youtube 觀看次數的模型

October 27, 2012

PSY的音樂錄影帶《江南style》很受歡迎，兩個多月後就擁有約5.4億觀眾。我上週在晚餐時從我的青春期前的孩子那裡學到了這一點，很快討論就轉向了是否有可能預測 10-12 天內會有多少觀眾以及何時（/如果）這首歌將超過8億觀眾或10億觀眾。

以下是自發布以來觀看人數的圖片：

這是來自 No1 “Justin Biever-Baby”和 No2 “Eminem - Love the way you lie”音樂視頻的觀眾人數的照片，這兩個音樂視頻都已經存在了很長時間

我第一次嘗試對模型進行推理是應該是 S 曲線，但這似乎不適合 No1 和 No2 歌曲，也不適合音樂視頻的觀看次數沒有限制可以有，只是增長較慢。

所以我的問題是：我應該使用什麼樣的模型來預測音樂視頻的觀眾數量？

啊哈，好問題！！

我也會天真地提出一個 S 形邏輯曲線，但這顯然不合適。據我所知，不斷增加是一個近似值，因為 YouTube 會計算唯一觀看次數（每個 IP 地址一個），因此觀看次數不會超過計算機。

我們可以使用人們具有不同易感性的流行病學模型。為簡單起見，我們可以將其分為高風險組（例如兒童）和低風險組（例如成人）。讓我們打電話“感染”兒童的比例和當時“感染”成年人的比例. 我會打電話高風險組中的（未知）人數和低風險組中的（也是未知的）人數。

在哪裡. 我不知道如何解決該系統（也許@EpiGrad 會），但看看你的圖表，我們可以做出一些簡化的假設。因為增長沒有飽和，我們可以假設非常大並且很小，或

一旦高風險組被完全感染，它預測線性增長。請注意，使用此模型沒有理由假設, 恰恰相反，因為大項現在被納入.

該系統解決

在哪裡和是積分常數。那麼總“感染”人口是，它有 3 個參數和 2 個積分常數（初始條件）。不知道裝起來有沒有容易…

**更新：**玩弄參數，我無法用這個模型重現頂部曲線的形狀，從到總是比上面更銳利。繼續同樣的想法，我們可以再次假設有兩種互聯網用戶：“共享者”和“孤獨者”. 分享者互相感染，獨來獨往者偶然撞見視頻。模型是

並解決

我們可以假設，即只有患者 0 在，產生因為是一個很大的數字。所以我們可以假設. 現在只有3個參數,和確定動態。

即使使用這個模型，似乎拐點也很尖銳，不是很好的擬合，所以模型肯定是錯誤的。這使得這個問題實際上非常有趣。例如，下圖是用,和.

**更新：**從我收集的評論來看，Youtube 計算的是觀看次數（以它的秘密方式）而不是唯一的 IP，這有很大的不同。回到繪圖板。

為簡單起見，我們假設觀眾被視頻“感染”了。他們會定期回來觀看，直到清除感染。最簡單的模型之一是SIR（易感感染抗性），它如下：

在哪裡是感染率和是清除率。總觀看次數是這樣的，在哪裡是每個感染者每天的平均觀看次數。

在這個模型中，觀看次數在感染開始一段時間後開始突然增加，而原始數據中的情況並非如此，這可能是因為視頻也以非病毒（或 meme）方式傳播。我不是估計 SIR 模型參數的專家。只是使用不同的值，這就是我想出的（在 R 中）。
S0 = 1e7; a = 5e-8; b = 0.01 ; k = 1.2
views = 0; S = S0; I = 1;
# Exrapolate 1 year after the onset.
for (i in 1:365) {
  dS = -a*I*S;
  dI = a*I*S - b*I;
  S = S+dS;
  I = I+dI;
  views[i+1] = views[i] + k*I 
}
par(mfrow=c(2,1))
plot(views[1:95], type='l', lwd=2, ylim=c(0,6e8))
plot(views, type='n', lwd=2)
lines(views[1:95], type='l', lwd=2)
lines(96:365, views[96:365], type='l', lty=2)
該模型顯然並不完美，可以通過許多合理的方式進行補充。這個非常粗略的草圖預測在 2013 年 3 月左右的某個地方有 10 億次觀看，讓我們看看……

引用自：https://stats.stackexchange.com/questions/41286

預測江南 Style 的 Youtube 觀看次數的模型

相關問答

網站的唯一身份訪問者是否遵循冪律？

什麼分佈最常用於建模服務器響應時間？

是否有一個網站可以發布我的調查，以便我可以獲得代表人口的樣本？