當現實世界網絡/圖中的所有邊在統計上都可能偶然發生時,這意味著什麼?
我一直在使用本文中概述的骨幹網絡提取方法:http ://www.pnas.org/content/106/16/6483.abstract
基本上,作者提出了一種基於統計的方法,該方法為圖中的每條邊生成一個概率,該邊可能是偶然發生的。我使用典型的統計顯著性截止值 0.05。
我一直在將這種方法應用於幾個現實世界的網絡,有趣的是,一些網絡最終沒有那麼重要的邊緣。我試圖了解這對網絡意味著什麼。唯一一次我將該方法應用於網絡並且沒有明顯的邊緣出現是當我將該方法應用於我生成的隨機網絡時,這正是我們所期望的。
作為現實世界網絡的示例,您可能已經看到最近在《經濟學人》上進行的網絡可視化顯示了過去 25 年來美國參議院的兩極分化:http: //www.economist.com/news/united-states/21591190 -美國-變形蟲。我將骨幹網絡提取方法應用於這些網絡,並且沒有出現如此重要的邊緣。儘管原始邊緣顯然顯示出優先附著和聚類,但這只是偶然嗎?參議院投票網絡本質上是隨機的嗎?
主幹方法背後的零假設是
[The] 歸一化權重對應於某個 k 度節點的連接,是由均勻分佈的隨機分配產生的。
如果沒有任何“重要”邊,則原假設適用於整個圖,即邊權重來自節點發送和接收關係的傾向。
根據您正在分析的關係,主幹方法可能不合適。該方法最適用於概念上是單模加權網絡的網絡。雙模網絡可以投影為加權單模網絡,但這樣做通常沒有意義。
借鑒您在《經濟學人》中的示例,將參議院投票分析為由共享票數加權的單一模式網絡是沒有意義的。參議院投票是一種簽署的、兩種模式的關係。參議員 (i) 與一項立法 (j) 有關係,他們要么投棄權票 (0),要么投票贊成 (+1) 或反對 (-1) 立法。將網絡轉換為加權單模協議網絡,然後對其進行主幹分析將嚴重減少數據。有些立法在政治上更具分裂性,有些立法比其他立法擁有更多的選票——骨幹方法無法捕捉這些機制。
您可能需要考慮條件統一圖 (CUG) 測試而不是主幹方法。這些測試背後的想法是確定某些圖形級別的屬性(例如,聚類、平均路徑長度、中心化、同質性)是否來自偶然性。過程如下:
- 從觀察到的圖中測量f
- 生成控制觀察圖的某些屬性(例如,大小、邊數、度分佈等)的隨機圖
- 從隨機圖中測量f
- 多次重複步驟 2 和 3(例如,1000 次)以產生零分佈
- 將觀察到的測量值與零分佈進行比較
對於雙模網絡,通過排列觀察到的圖來創建隨機圖是有意義的(R 中的 tnet 和 statnet 都有用於排列雙模網絡的例程)。如果測量f需要單模網絡,則應先對雙模網絡進行隨機化處理,然後再將其投影為單模網絡。