測量工作日分佈的均勻性
我有一個與這裡提出的問題類似的問題:
我有一組一周中的幾天的概率分佈。我想測量每個分佈與 (1/7,1/7,…,1/7) 的接近程度。
目前我正在使用上述問題的答案;一個 L2 範數,當分佈在某一天的質量為 1 時,其值為 1,並在 (1/7,1/7,…,1/7) 時最小化。我對此進行線性縮放,使其位於 0 和 1 之間,然後將其翻轉,因此 0 表示完全不均勻,1 表示完全均勻。
這很好用,但我有一個問題;它將每個工作日視為 7-Dim 空間中的一個維度,因此它不考慮日子的臨近;換句話說,它甚至給 (1/2,1/2,0,0,0,0,0) 和 (1/2,0,0,1/2,0,0,0) 賦予相同的分數雖然在某種意義上後者更“分散”和統一,理想情況下應該得到更高的分數。顯然,天的順序是循環的,這增加了複雜性。
我怎樣才能改變這個啟發式來解釋日子的臨近?
推土機距離,也稱為 Wasserstein 度量,測量兩個直方圖之間的距離。本質上,它將一個直方圖視為一堆泥土,然後評估一個需要移動多少泥土,以及將這個直方圖變成另一個直方圖的距離(!)。您將在一周中的幾天內測量您的分佈與統一分佈之間的距離。
這當然說明了日子的臨近——從周一到週二移動“污垢”比從周一到週四更容易,所以 (1/2,0,0,1/2,0,0,0) 會有與集中在星期一和星期二的直方圖相比,與均勻分佈的距離更低。
這沒有考慮一周的“循環”,即周六和周日與週日和周一一樣靠近。為此,您需要尋找在圓形概率質量分佈上定義的推土機距離。這應該可以使用合適的優化方法來實現。
編輯:在 R 中,
emd
包計算直方圖之間的推土機距離。您可以以一種相當簡單(儘管是臨時)的方式解決“循環性”問題。
- 計算推土機距離在星期一到星期日您的分配和統一分配之間。
- 計算距離反對周二至週一的統一分配。
- 計算距離反對周三至週二的統一分配。
- …
- 最後,作為最終距離,使用.
這以犧牲一些額外的計算為代價來處理循環性。
第二次編輯:這不是圓形推土機距離本身。為此,您需要瀏覽一些搜索會出現的文獻。如果在幾天之間移動污垢的最佳方法是從周六到週一移動兩天,這將出現在七次中的五次,但不是在剩下的兩個(污垢需要移動五天)。
但是,我仍然認為這是一種可能有用的方法,至少可以以某種方式考慮循環性 - 當然比僅使用單個直方圖並將一周定義為從周日到週六或以其他任意方式更好。另外,雖然上面的一些鏈接出現了圓形推土機距離的實現,但我不知道 R 的實現,這可能是這裡最常用的語言。