網站的唯一身份訪問者是否遵循冪律？

November 18, 2012

假設我有一個有序向量，其中第一個元素是給定時間段內訪問次數最多的唯一 IP 對網站的訪問次數，第二個元素是唯一 IP 的訪問次數，第二個元素訪問次數最多，以此類推。我知道每個站點可能存在差異，但是這個向量的形狀通常有一個假設的模式嗎？例如，它是否遵循冪律分佈？

不，網站的唯一身份訪問者不遵循冪律。

在過去幾年中，對冪律聲明的檢驗越來越嚴格（例如，Clauset、Shalizi 和 Newman 2009）。顯然，過去的聲明通常沒有經過很好的測試，通常以對數刻度繪製數據並依靠“眼球測試”來證明直線。現在正式測試更普遍了，許多發行版被證明不遵循冪律。

我所知道的關於網絡用戶訪問的最好的兩個參考文獻是 Ali 和 Scarr (2007) 以及 Clauset、Shalizi 和 Newman (2009)。

**Ali 和 Scarr (2007)**研究了用戶在雅虎網站上的隨機點擊樣本並得出結論：

普遍的觀點是網絡點擊和瀏覽量的分佈遵循無標度冪律分佈。然而，我們發現對數據的統計上顯著更好的描述是尺度敏感的 Zipf-Mandelbrot 分佈，並且它們的混合進一步增強了擬合。以前的分析有三個缺點：他們使用了一小組候選分佈，分析過時的用戶網絡行為（大約在 1998 年），並使用了有問題的統計方法。儘管我們不能排除有一天可能找不到更好的擬合分佈，但我們可以肯定地說，尺度敏感的 Zipf-Mandelbrot 分佈比無標度冪律或 Zipf來自雅虎域的各種垂直領域。

這是一個月內單個用戶點擊的直方圖，以及他們在對數圖上的相同數據，他們比較了不同的模型。數據顯然不在無標度功率分佈所期望的直線對數對數線上。

**Clauset、Shalizi 和 Newman (2009)**使用似然比檢驗將冪律解釋與替代假設進行了比較，得出的結論是網絡點擊和鏈接“不能合理地被認為遵循冪律”。前者的數據是美國在線互聯網服務的客戶在一天內的網絡點擊量，而後者的數據是在 1997 年對大約 2 億網頁的網絡爬網中發現的網站鏈接。下圖給出了累積分佈函數 P(x) 及其最大似然冪律擬合。

對於這兩個數據集，Clauset、Shalizi 和 Newman 發現，具有指數截止以修正分佈極尾的冪分佈明顯優於純冪律分佈，並且對數正態分佈也非常適合。（他們還研究了指數假設和拉伸指數假設。）

如果你手頭有一個數據集，並且不只是好奇，你應該用不同的模型擬合它並比較它們（在 R 中：pchisq(2 * (logLik(model1) - logLik(model2)), df = 1, lower.尾巴=假））。我承認我不知道如何對零調整 ZM 模型進行建模。Ron Pearson發表了關於 ZM 發行版的博客，顯然有一個 R 包 zipfR。我，我可能會從一個負二項式模型開始，但我不是一個真正的統計學家（我喜歡他們的意見）。

（我還想對上面的第二位評論者 @richiemorrisroe 指出數據可能受到與個人人類行為無關的因素的影響，例如爬網程序和代表許多人計算機的 IP 地址。）

提到的論文：

Clauset、Aaron、Cosma Rohilla Shalizi 和 Mark EJ Newman。“經驗數據中的冪律分佈。” 暹羅評論 51.4 (2009): 661-703。（另見本網站）

阿里、卡馬爾和馬克·斯卡。“用於建模網絡點擊分佈的穩健方法。” 第 16 屆萬維網國際會議論文集。ACM，2007 年。

引用自：https://stats.stackexchange.com/questions/43893

comments powered by Disqus

網站的唯一身份訪問者是否遵循冪律？

相關問答

在 R 中為 nls 模型獲取正確的起始值

如何測試分佈是否遵循冪律？

我可以對產生 2 個不同最小 n 的不等大小組進行 t 檢驗功效分析嗎？

如何衡量/爭論趨勢線與冪律的擬合優度？