預測江南 Style 的 Youtube 觀看次數的模型
PSY的音樂錄影帶《江南style》很受歡迎,兩個多月後就擁有約5.4億觀眾。我上週在晚餐時從我的青春期前的孩子那裡學到了這一點,很快討論就轉向了是否有可能預測 10-12 天內會有多少觀眾以及何時(/如果)這首歌將超過8億觀眾或10億觀眾。
以下是自發布以來觀看人數的圖片:
這是來自 No1 “Justin Biever-Baby”和 No2 “Eminem - Love the way you lie”音樂視頻的觀眾人數的照片,這兩個音樂視頻都已經存在了很長時間
我第一次嘗試對模型進行推理是應該是 S 曲線,但這似乎不適合 No1 和 No2 歌曲,也不適合音樂視頻的觀看次數沒有限制可以有,只是增長較慢。
所以我的問題是:我應該使用什麼樣的模型來預測音樂視頻的觀眾數量?
啊哈,好問題!!
我也會天真地提出一個 S 形邏輯曲線,但這顯然不合適。據我所知,不斷增加是一個近似值,因為 YouTube 會計算唯一觀看次數(每個 IP 地址一個),因此觀看次數不會超過計算機。
我們可以使用人們具有不同易感性的流行病學模型。為簡單起見,我們可以將其分為高風險組(例如兒童)和低風險組(例如成人)。讓我們打電話“感染”兒童的比例和當時“感染”成年人的比例. 我會打電話高風險組中的(未知)人數和低風險組中的(也是未知的)人數。
在哪裡. 我不知道如何解決該系統(也許@EpiGrad 會),但看看你的圖表,我們可以做出一些簡化的假設。因為增長沒有飽和,我們可以假設非常大並且很小,或
一旦高風險組被完全感染,它預測線性增長。請注意,使用此模型沒有理由假設, 恰恰相反,因為大項現在被納入.
該系統解決
在哪裡和是積分常數。那麼總“感染”人口是 ,它有 3 個參數和 2 個積分常數(初始條件)。不知道裝起來有沒有容易…
**更新:**玩弄參數,我無法用這個模型重現頂部曲線的形狀,從到總是比上面更銳利。繼續同樣的想法,我們可以再次假設有兩種互聯網用戶:“共享者”和“孤獨者”. 分享者互相感染,獨來獨往者偶然撞見視頻。模型是
並解決
我們可以假設,即只有患者 0 在,產生因為是一個很大的數字。所以我們可以假設. 現在只有3個參數,和確定動態。
即使使用這個模型,似乎拐點也很尖銳,不是很好的擬合,所以模型肯定是錯誤的。這使得這個問題實際上非常有趣。例如,下圖是用,和.
**更新:**從我收集的評論來看,Youtube 計算的是觀看次數(以它的秘密方式)而不是唯一的 IP,這有很大的不同。回到繪圖板。
為簡單起見,我們假設觀眾被視頻“感染”了。他們會定期回來觀看,直到清除感染。最簡單的模型之一是SIR(易感感染抗性),它如下:
在哪裡是感染率和是清除率。總觀看次數是這樣的, 在哪裡是每個感染者每天的平均觀看次數。
在這個模型中,觀看次數在感染開始一段時間後開始突然增加,而原始數據中的情況並非如此,這可能是因為視頻也以非病毒(或 meme)方式傳播。我不是估計 SIR 模型參數的專家。只是使用不同的值,這就是我想出的(在 R 中)。
S0 = 1e7; a = 5e-8; b = 0.01 ; k = 1.2 views = 0; S = S0; I = 1; # Exrapolate 1 year after the onset. for (i in 1:365) { dS = -a*I*S; dI = a*I*S - b*I; S = S+dS; I = I+dI; views[i+1] = views[i] + k*I } par(mfrow=c(2,1)) plot(views[1:95], type='l', lwd=2, ylim=c(0,6e8)) plot(views, type='n', lwd=2) lines(views[1:95], type='l', lwd=2) lines(96:365, views[96:365], type='l', lty=2)
該模型顯然並不完美,可以通過許多合理的方式進行補充。這個非常粗略的草圖預測在 2013 年 3 月左右的某個地方有 10 億次觀看,讓我們看看……