Clustering

如何將數值數據分組到自然形成的“括號”中?(例如收入)

  • August 15, 2013

以下描述了我要完成的工作,但有可能一個替代問題陳述可以描述我的目標:

我想要

  1. 將以下數字分組,每組內數字的方差不太大,各組平均值之間的差異不太小
  2. 將最終獲得的分佈與“完美”的分佈進行比較,看看它與完美的“不同”。

外行人對目標的解釋

我正在嘗試計算收入分配,並確定每個人口所處的“收入等級”。收入等級應該根據輸入數據進行自我調整。

我的目標是最終衡量或計算收入等級之間的差異。我假設會有很多括號,並且想看看每一層“相距”多遠。

以下是 20 人樣本集的每小時收入樣本,總收入為 3587:

Population= 10                   pop=2   population=5              population =3
10, 11,13,14,14,14,14,14,15,20,  40,50  ,90,91,92,93,94      999,999,900 

如何使用數學概念對數據進行分組、排序和分析,這些數據就像給定人口的收入分配一樣?

在計算結束時,我想確定分層收入分配,其中完美的分配看起來像這樣

(each person makes $10 more per hour than the previous; total is 3587)
89, 99, 109, 119, 129, 139, 149, 159, 169, 179, 189, 199, 209, 219, 229, 239, 249, 259, 269, 279

或這個:

(evenly distributed groups of people make the same per hour) 
(gaps between income groups is consistent and not "too far")
(income total is 3587)
99 99 99   129 129 129   159 159 159   199 199 199  229 229 229  269 269 269 

問題

我應該如何分析人口群體,並以一種可以告訴我需要多少才能使其更像上面列出的最後兩個模型集的方式來衡量差距?

只要存在可以排列值的某個維度,使用單個變量的聚類分析就非常有意義。這可以是 測量尺度時間空間

給定一些測量尺度上的有序數據,可能有興趣在頻率分佈中尋找相對中斷(反模式,在一個術語中)。

注意事項:然而,在統計科學的幾個領域中,定義了任意或可能看起來是任意的分箱的中斷被廣泛迴避,並且普遍且明顯地偏好以相等的間隔進行分箱,並且通常在可能的情況下完全避免分箱. 這部分是口味問題,部分是慣例問題:隨著存儲完整數據集變得更加容易,實踐已經發生了變化。

一個時間序列可以分為咒語、時期、時期等,理想情況下,子序列內的差異相對較小,子序列之間的差異相對較大。每當要細分單個空間維度(水平或垂直)時,空間也會出現同樣的問題。在地質和其他科學中,這通常在分區的標題下進行研究。

請注意,任何形式的聚類都應始終伴隨著適當的數據繪圖(例如,使用點圖或分位數圖或線圖),這確實可以清楚地表明中斷是明顯的(因此形式聚類僅僅是裝飾性的)或不存在令人信服的中斷(因此正式的聚類可能毫無意義)。

考慮一個按大小排序的值的玩具示例:

   14 15 16 23 24 25 56 57 58 

很明顯,三組聚類

   14 15 16 | 23 24 25 | 56 57 58 

是明智的。無論排序是在值本身,還是在時間或空間上,數據總是可以在一維中排列,這為問題提供了特殊的結構。因此,雖然可以使用更通用的聚類方法,但理想情況下應該利用這種特殊結構。 設計的團體值是通過放置定義的標記(在上面的示例中,); 有可能放置它們的地方。因而有可能的聚類。然而,如果是自由變化的,那麼可能的聚類總數是,因為每個值可以與每個鄰居在同一組中,也可以不在。即使是謙虛的,這是一個很大的數字。

通過放置標記以最小化給定數量的組,可以使問題變得精確(Fisher 1958;Hartigan 1975)

與組均值的偏差平方和是最明顯的可能性。與組中位數的絕對偏差總和以及其他測量值可能會很受歡迎。

Hartigan (1975) 展示了動態編程方法如何使此類計算變得簡單,並提供了 Fortran 代碼。group1d將從 SSC 安裝Stata 實施 (Cox 2007) 。

Cox, NJ 2007。GROUP1D:一維分組或聚類的 Stata 模塊。http://ideas.repec.org/c/boc/bocode/s456844.html

Fisher, WD 1958。關於最大同質性的分組。雜誌,美國統計協會53:789-98。

Hartigan, JA 1975。聚類算法。 紐約:約翰威利。第 6 章。

後記這種方法似乎與具體問題的第一部分相匹配。我之所以提出它,是因為我認為該公式具有一些普遍的興趣(並且因為我很容易回收 Cox 2007 的部分文檔)。但如果具體目標是將收入分佈與參考均勻分佈進行比較,我認為分箱根本沒有任何作用。這是經濟學中的一個標準問題,洛倫茲曲線和不平等度量是其起點。本質上,您可以將分位數與分位數或百分點與百分點進行比較。

引用自:https://stats.stackexchange.com/questions/67571

comments powered by Disqus