Data-Visualization

如何改進我對聲譽對投票影響的分析?

  • August 4, 2011

最近,我對聲譽對贊成票的影響進行了一些分析(請參閱博客文章),隨後我對可能更具啟發性(或更合適)的分析和圖形提出了一些問題。

所以有幾個問題(並且隨時特別回答任何人並忽略其他問題):

  1. 在目前的化身中,我並不是說以職位編號為中心。我認為這會在散點圖中給出負相關的錯誤外觀,因為在帖子計數的低端有更多帖子(你會看到這在 Jon Skeet 面板中不會發生,僅在凡人用戶中)控制板)。不將帖子編號居中是否不合適(因為我的意思是使每個用戶的平均得分居中)?
  2. 從圖中可以明顯看出,分數是高度右偏的(平均居中並沒有改變這一點)。在擬合回歸線時,我擬合了線性模型和使用 Huber-White Sandwhich 誤差的模型(通過rlmMASS R 包中),它對斜率估計沒有任何影響。我應該考慮對數據進行轉換而不是穩健回歸嗎?請注意,任何轉換都必須考慮到 0 和負分的可能性。或者我應該使用其他類型的模型來計算數據而不是 OLS?
  3. 我相信最後兩個圖形通常可以改進(並且也與改進的建模策略有關)。在我(厭倦)看來,我懷疑聲譽效應是否真實,它們會在海報歷史的早期實現(我想如果是真的,這些可能會被重新考慮“你給出了一些很好的答案,所以現在我會支持你所有的帖子”而不是“總分的聲譽”效果)。在考慮過度繪圖的同時,如何創建圖形來證明這是否屬實?我想也許證明這一點的一個好方法是擬合表格的模型;

在哪裡是score - (mean score per user)(與當前散點圖中的相同),是post number, 和是代表一些任意範圍的帖子編號的虛擬變量(例如等於1如果帖子編號是1 through 25,等於1如果帖子編號是26 through 50等)。和分別是大截距和誤差項。然後我會檢查估計的斜率以確定聲譽效應是否在海報歷史的早期出現(或以圖形方式顯示它們)。這是一個合理(和適當)的方法嗎?

將某種類型的非參數平滑線擬合到像這樣的散點圖(例如黃土或樣條線)似乎很流行,但我對樣條線的實驗並沒有揭示任何啟發性(在海報歷史早期的任何積極影響的證據都是輕微和喜怒無常的到我包括的樣條數)。由於我假設效果很早就發生了,我的建模方法是否比樣條曲線更合理?

另請注意,儘管我已經挖掘了所有這些數據,但仍有許多其他社區需要檢查(有些像超級用戶和 serverfault 也有類似的大樣本可供提取),因此將來提出建議是很合理的我使用保留樣本來檢查任何關係的分析。

這是一次勇敢的嘗試,但僅憑這些數據,就很難或不可能回答您關於“聲譽對投票的影響”的研究問題。問題在於分離其他現象的影響,我將其與如何解決它們的簡要說明一起列出。

  • 學習效果。隨著聲望的提高,經驗也在提高;隨著經驗的增加,我們希望一個人發布更好的問題和答案;隨著他們質量的提高,我們希望每個帖子獲得更多的選票。可以想像,在分析中處理此問題的一種方法是識別在多個 SE 站點上活躍的人。在任何給定的站點上,他們的聲譽增長速度都會比他們的經驗增長得慢,從而為區分聲譽和學習效果提供了一個句柄。

  • 上下文的時間變化。 這些是無數的,但顯而易見的將包括

    • 選民人數隨時間的變化,包括總體上升趨勢、季節性趨勢(通常與學術週期相關)和異常值(由外部宣傳引起,例如指向特定線程的鏈接)。 在評估任何個人的聲譽趨勢時,任何分析都必須考慮到這一點
    • 社區風俗隨時間的變化。社區,以及它們如何互動、演變和發展。隨著時間的推移,他們可能傾向於或多或少地投票。 任何分析都必須評估這種影響並將其考慮在內
    • 時間本身。 隨著時間的推移,較早的帖子仍然可供搜索並繼續獲得選票。因此,caeteris paribus較舊的帖子應該比新的帖子產生更多的選票。(這是一個強大的影響:一些在每月聲譽聯盟中一直很高的人全年都沒有訪問過這個網站!)這會掩蓋甚至顛倒任何實際的積極聲譽效應。 任何分析都需要考慮每個帖子在網站上出現的時間長度
  • 主題人氣。 一些標籤(例如,r) 比其他人更受歡迎。因此,一個人回答的問題種類的變化可能會與時間變化相混淆,例如聲譽效應。因此,任何分析都需要考慮所回答問題的性質。

  • 視圖[添加為編輯]。不同數量的人出於各種原因(過濾器、鏈接等)查看問題。答案獲得的投票數可能與觀看次數有關,儘管人們預計隨著觀看次數的增加比例會下降。(問題在於有多少人真正對這個問題感興趣,而不是原始數字。我自己的 - 軼事 - 經驗是,我在許多問題上收到的大約一半的讚成票來自前 5-15意見,儘管最終這些問題被查看了數百次。)因此,*任何分析都需要考慮意見的數量,*但可能不是以線性方式。

  • 測量困難。 “聲譽”是針對不同活動獲得的投票總和:初始聲譽、答案、問題、批准問題、編輯標籤 wiki、否決和被否決(按價值降序排列)。因為這些組件評估不同的事物,並且並非都在社區選民的控制之下,所以應該將它們分開進行分析。“聲譽效應”可能與對答案的讚成票有關,也可能與對問題的讚成票有關,但不應影響其他聲譽來源。 絕對應該減去初始聲譽(但也許可以用作一些初始經驗的代理)。

  • 隱藏的因素。 可能還有許多其他無法衡量的混雜因素。例如,參加論壇有各種形式的“倦怠”。在最初的幾週、幾個月或幾年的熱情之後,人們會做什麼?一些可能性包括關注罕見、不尋常或困難的問題;只回答未回答的問題;提供更少但質量更高的答案;等等。其中一些可能會掩蓋聲譽效應,而另一些可能會錯誤地與聲譽效應混淆。 這些因素的代表可能是個人參與率的變化:它們可能表明該人帖子性質的變化。

  • 子社區現象。 仔細查看統計數據,即使是在非常活躍的 SE 頁面上,也表明只有相對少數的人完成了大部分的回答和投票。一個小到兩三個人的小集團,就能對聲望的增長產生深遠的影響。該站點的內置監視器將檢測到一個兩人集團(並且該站點上存在一個這樣的集團),但可能不會檢測到更大的集團。(我不是在談論正式的勾結:人們甚至可以在不知情的情況下成為此類集團的成員。) 我們如何將明顯的聲譽效應與這些不可見、未被發現的非正式集團的活動區分開來? 詳細的投票數據可以用於診斷,但我認為我們無法訪問這些數據。

  • **數據有限。**要檢測聲譽效應,您可能需要關注擁有數十到數百個帖子的個人(至少)。這使當前的人口減少到不到 50 人。儘管存在變異和混淆的所有可能性,但除非它們確實非常強大,否則無法梳理出顯著的影響。 解決方法是使用來自其他 SE 站點的記錄來擴充數據集

考慮到所有這些複雜性,應該清楚的是,博客文章中的探索性圖形幾乎沒有機會揭示任何東西,除非它非常明顯。什麼都沒有發生在我們身上:正如預期的那樣,數據是混亂和復雜的。現在建議對圖表或已提出的分析進行改進還為時過早:在解決這些基本問題之前,增量更改和附加分析將無濟於事

引用自:https://stats.stackexchange.com/questions/13858

comments powered by Disqus