Machine-Learning

數據集不平衡的一般度量

  • October 13, 2016

我正在處理數千個數據集。其中許多是“不平衡的”;要么是具有高度偏態分佈的多類列表(例如,三個類別的樣本比例為 3500:300:4),要么是具有偏態分佈的連續數。我正在尋找一些可以說“數據集有多嚴重不平衡”的指標。有這樣的衡量標準嗎?

最終,我想根據它們的平衡指標對這些數據集進行評分,並為它們中的每一個提供不同的平衡/機器學習解決方案。如果存在,我更喜歡 python 解決方案。

您可以使用香農熵作為平衡的量度。

在一個數據集上實例,如果你有大小等級您可以按如下方式計算熵:

這等於:

  • 當只有一個班級時。換句話說,它傾向於當您的數據集非常不平衡時
  • 當你所有的班級規模相同時

因此,您可以對數據集 使用以下平衡度量:

這等於:

  • 對於不平衡的數據集
  • 對於平衡的數據集

引用自:https://stats.stackexchange.com/questions/239973

comments powered by Disqus