Clustering

這個“美國 Reddit”圖表是如何創建的?

  • October 6, 2014

下面是p的圖表。Christian Rudder 的Dataclysm的 202 ,雖然它是由 James Dowdell 製作的。它說明了各種排名前 200 的 subreddit 之間的關係,這是reddit.com上用戶可以提交鏈接、評論和投票的興趣領域。這些類似於本網站上的標籤。subreddit 區域的大小代表了它們的受歡迎程度。subreddit 按交叉評論分組,較深的色調代表留在該 subreddit 內且不向其他人發帖的人的百分比。

這只是一個標準的 Voronoi 分區,帶有一些孤立的顏色,還是涉及更多的東西?

如何製作其中之一?

美國 Reddit

首先,我是 James Dowdell,所以我比較有資格回答(創建了一個帳戶來回答,如果有人擔心可以確認身份)。

簡單的答案確實是其他人所猜測的:這是一個http://en.wikipedia.org/wiki/Voronoi_diagram。我們在第 194 頁使用了相同的概念,其中 voronoi 站點是 craigslist.org 列出的緯度經度對。

不幸的是,這些知識本身實際上並不是很有用。使用 Craigslist 圖表,可以很清楚地為網站使用哪些值。但是 Dataclysm 使用了什麼魔術來在該圖中分配 x/y 坐標?

這個問題的答案比大多數人預期的要復雜得多,我不能說我建議重做我們所做的事情。我敢打賭,這裡的其他人可能會推荐一種或多或少獲得相同結果並且更簡單的方法。

事實是:

克里斯蒂安和我來來回回地為本章創建了 3 個多月的圖表,我們永遠無法完成工作。但是,一種方法的結果通常會反饋到另一種方法中。

  1. 不幸的是,最關鍵的事情涉及一種技術和一些圖像資產,我無權以任何有意義的方式探索或分享,因為我們可能仍然會以某種方式使用它們。我要說的是,我們採用了一個複雜的http://en.wikipedia.org/wiki/Graph_theory#Graph,我們在 Reddit 數據的許可下編譯,涉及用戶 ID 和 subreddit,我們玩弄了這個圖和各種衍生品它在http://gephi.github.io/裡面(這些天我特別喜歡“OpenOrd”)。事實上,我們得到了一幅宏偉的圖像——如果它已經出版,那將是這本書的亮點——但是雖然它在網站上工作得很好,但在一本書中打印效果不佳——沒有足夠的空間或分辨率。Christian 最初考慮將其設置為書中的摺頁,但對於 Crown 來說,這並不划算。
  2. 然而,在這一點上,我們有一個圖像,它具有子reddit 的 x/y 坐標,並且它們至少在 x/y 空間中相對正確地排列。我們也很著急,因為發布截止日期快到了。我首先是一名程序員,其次是一名數據專家,所以為了適應書中頁面的極其嚴格的邊界和時鐘上剩餘的時間,我的直覺是在 Box2D 中編寫一個程序,模擬頁面的邊界為牆壁,在裡面放置一個非常縮小的圖形版本,並模擬這些節點的增長(順便說一下,對於 Box2D 來說這不是自然的,它期望剛體不會改變),直到一切都與牆壁和彼此齊平。節點的增長速度與它們所代表的 subreddit 的大小成正比,這意味著最終大小也將以同樣的方式成正比。box2d程序運行時的截圖
  3. 結果看起來一點也不好看,但它確實給了我一些非常有價值的東西:voronoi 站點。我獲取了生成的 box2d 多邊形的質心,將它們通過一個標準過程,這就是書中圖表所使用的。我相信文本標籤是在 Photoshop 中手動應用的。

順便說一句,單元格著色與我們為形成 (A) 中的圖表而開發的統計數據有關

引用自:https://stats.stackexchange.com/questions/118087

comments powered by Disqus