Variance
如何測量詞頻數據的離散度?
如何量化字數向量中的離散量?我正在尋找一個對於文檔 A 來說很高的統計數據,因為它包含許多不經常出現的不同單詞,而對於文檔 B 來說是低的,因為它包含經常出現的一個單詞(或幾個單詞)。
更一般地說,如何衡量名義數據的分散或“傳播”?
在文本分析社區中是否有這樣做的標準方法?
對於概率(比例或份額)總和為 1,家庭囊括了該領域的若干措施建議(指數、係數等)。因此
- 返回觀察到的不同單詞的數量,這是最容易考慮的,不管它忽略概率之間的差異。如果僅作為上下文,這總是有用的。在其他領域,這可能是一個部門的公司數量、在一個地點觀察到的物種數量等等。一般來說,我們稱之為不同項目的數量。
- 返回 Gini-Turing-Simpson-Herfindahl-Hirschman-Greenberg 概率平方和,也稱為重複率或純度或匹配概率或純合性。它經常被報告為它的互補或倒數,有時用其他名稱,如雜質或雜合性。在這種情況下,它是隨機選擇的兩個單詞相同的概率,以及它的補語兩個詞不同的概率。倒數 具有相同數量的相同類別的解釋;這有時被稱為數字等價物。這種解釋可以通過注意到同樣常見的類別(因此每個概率) 暗示所以概率的倒數就是. 選擇一個名字最有可能背叛你工作的領域。每個領域都向自己的前輩致敬,但我認為匹配概率簡單且幾乎可以自定義。
- 返回香農熵,通常表示為並且已經在之前的答案中直接或間接地發出信號。熵這個名字一直停留在這裡,原因有好有壞,有時甚至是物理學上的嫉妒。注意是該度量的等效數字,正如以類似的方式指出的那樣同樣常見的類別產量, 因此還給你. 熵有許多出色的性質;“信息論”是一個很好的搜索詞。
該配方可在 IJ Good 中找到。1953. 物種的種群頻率和種群參數的估計。生物計量學 40:237-264。 www.jstor.org/stable/2333344。
根據口味或先例或方便,對數的其他底數(例如 10 或 2)同樣可能,上面的某些公式僅隱含簡單的變化。
第二個措施的獨立重新發現(或重新發明)在多個學科中是多種多樣的,上面的名稱遠非完整列表。
將家庭中的常用度量結合在一起不僅僅是在數學上具有輕微的吸引力。它強調了根據應用於稀缺和常見項目的相對權重來選擇衡量標準,因此減少了由少量明顯武斷的提議所造成的任何自欺欺人的印象。某些領域的文獻被論文甚至書籍所削弱,這些論文甚至書籍基於作者偏愛的某些衡量標準是每個人都應該使用的最佳衡量標準。
我的計算表明示例 A 和 B 沒有太大不同,除了第一個度量:
---------------------------------------------------------------------- | Shannon H exp(H) Simpson 1/Simpson #items ----------+----------------------------------------------------------- A | 0.656 1.927 0.643 1.556 14 B | 0.684 1.981 0.630 1.588 9 ----------------------------------------------------------------------
(有些人可能有興趣注意到這裡命名的辛普森(Edward Hugh Simpson,1922-)與辛普森悖論的名字相同。他做了出色的工作,但他不是第一個發現這兩個問題的人他被命名,這又是斯蒂格勒的悖論,而這又是……)