Machine-Learning
數據集不平衡的一般度量
我正在處理數千個數據集。其中許多是“不平衡的”;要么是具有高度偏態分佈的多類列表(例如,三個類別的樣本比例為 3500:300:4),要么是具有偏態分佈的連續數。我正在尋找一些可以說“數據集有多嚴重不平衡”的指標。有這樣的衡量標準嗎?
最終,我想根據它們的平衡指標對這些數據集進行評分,並為它們中的每一個提供不同的平衡/機器學習解決方案。如果存在,我更喜歡 python 解決方案。
您可以使用香農熵作為平衡的量度。
在一個數據集上實例,如果你有大小等級您可以按如下方式計算熵:
這等於:
- 當只有一個班級時。換句話說,它傾向於當您的數據集非常不平衡時
- 當你所有的班級規模相同時
因此,您可以對數據集 使用以下平衡度量:
這等於:
- 對於不平衡的數據集
- 對於平衡的數據集