網站的唯一身份訪問者是否遵循冪律?
假設我有一個有序向量,其中第一個元素是給定時間段內訪問次數最多的唯一 IP 對網站的訪問次數,第二個元素是唯一 IP 的訪問次數,第二個元素訪問次數最多,以此類推。我知道每個站點可能存在差異,但是這個向量的形狀通常有一個假設的模式嗎?例如,它是否遵循冪律分佈?
不,網站的唯一身份訪問者不遵循冪律。
在過去幾年中,對冪律聲明的檢驗越來越嚴格(例如,Clauset、Shalizi 和 Newman 2009)。顯然,過去的聲明通常沒有經過很好的測試,通常以對數刻度繪製數據並依靠“眼球測試”來證明直線。現在正式測試更普遍了,許多發行版被證明不遵循冪律。
我所知道的關於網絡用戶訪問的最好的兩個參考文獻是 Ali 和 Scarr (2007) 以及 Clauset、Shalizi 和 Newman (2009)。
**Ali 和 Scarr (2007)**研究了用戶在雅虎網站上的隨機點擊樣本並得出結論:
普遍的觀點是網絡點擊和瀏覽量的分佈遵循無標度冪律分佈。然而,我們發現對數據的統計上顯著更好的描述是尺度敏感的 Zipf-Mandelbrot 分佈,並且它們的混合進一步增強了擬合。以前的分析有三個缺點:他們使用了一小組候選分佈,分析過時的用戶網絡行為(大約在 1998 年),並使用了有問題的統計方法。儘管我們不能排除有一天可能找不到更好的擬合分佈,但我們可以肯定地說,尺度敏感的 Zipf-Mandelbrot 分佈比無標度冪律或 Zipf來自雅虎域的各種垂直領域。
這是一個月內單個用戶點擊的直方圖,以及他們在對數圖上的相同數據,他們比較了不同的模型。數據顯然不在無標度功率分佈所期望的直線對數對數線上。
**Clauset、Shalizi 和 Newman (2009)**使用似然比檢驗將冪律解釋與替代假設進行了比較,得出的結論是網絡點擊和鏈接“不能合理地被認為遵循冪律”。前者的數據是美國在線互聯網服務的客戶在一天內的網絡點擊量,而後者的數據是在 1997 年對大約 2 億網頁的網絡爬網中發現的網站鏈接。下圖給出了累積分佈函數 P(x) 及其最大似然冪律擬合。
對於這兩個數據集,Clauset、Shalizi 和 Newman 發現,具有指數截止以修正分佈極尾的冪分佈明顯優於純冪律分佈,並且對數正態分佈也非常適合。(他們還研究了指數假設和拉伸指數假設。)
如果你手頭有一個數據集,並且不只是好奇,你應該用不同的模型擬合它並比較它們(在 R 中:pchisq(2 * (logLik(model1) - logLik(model2)), df = 1, lower.尾巴=假))。我承認我不知道如何對零調整 ZM 模型進行建模。Ron Pearson發表了關於 ZM 發行版的博客,顯然有一個 R 包 zipfR。我,我可能會從一個負二項式模型開始,但我不是一個真正的統計學家(我喜歡他們的意見)。
(我還想對上面的第二位評論者 @richiemorrisroe 指出數據可能受到與個人人類行為無關的因素的影響,例如爬網程序和代表許多人計算機的 IP 地址。)
提到的論文: