汪光远吧 关注:8贴子:164
  • 1回复贴,共1

【转】不均衡学习的抽样方法

只看楼主收藏回复

版权声明:本文为CSDN博主「该昵称已经被占用」的原创文章,遵循 CC 4.0 BY-SA 版权协议,转载请附上原文出处链接及本声明。
原文链接:https://blog.csdn.net/u011414200/article/details/50664266
————————————————
通常情况下,在不均衡学习应用中使用抽样方法的目的就是为了通过一些机制改善不均衡数据集,以期获得一个均衡的数据分布。
研究表明,对于一些基分类器来说,与不均衡的数据集相比一个均衡的数据集可以提高全局的分类性能。数据层面的处理方法是处理不均衡数据分类问题的重要途径之一,它的实现方法主要分为对多数类样本的欠抽样和对少数类样本的过抽样学习两种。其主要思想是通过合理的删减或者增加一些样本来实现数据均衡的目的,进而降低数据不均衡给分类器带来的负面影响。
按照对样本数量的影响又可分为:
过抽样,即合理地增加少数类的样本
欠抽样,即合理地删减多数类样本


IP属地:湖北1楼2019-12-31 17:32回复
    随机过抽样和欠抽样
    随机过抽样
    随机过抽样是一种按照下面的描述从少数类中速记抽样生成子集合 E 的方法。
    首先在少数类 SminSmin 集合中随机选中一些少数类样本
    然后通过复制所选样本生成样本集合 E
    将它们添加到 SminSmin 中来扩大原始数据集从而得到新的少数类集合 Smin−newSmin−new
    用这样方法,SminSmin 中的总样本数增加了 |E||E| 个新样本,且 Smin−newSmin−new 的类分布均衡度进行相应的调整,如此操作可以改变类分布平衡度从而达到所需水平。
    欠抽样
    欠抽样技术是将数据从原始数据集中移除。
    首先我们从 SmajSmaj 中随机地选取一些多数类样本 E
    将这些样本从 SmajSmaj 中移除,就有 |Smaj−new|=|Smaj|−|E||Smaj−new|=|Smaj|−|E|
    缺陷
    初看,过抽样和欠抽样技术在功能上似乎是等价的,因为它们都能改变原始数据集的样本容量且能够获得一个相同比例的平衡。
    但是,这个共同点只是表面现象,这是因为这两种方法都将会产生不同的降低分类器学习能力的负面效果。
    对于欠抽样算法,将多数类样本删除有可能会导致分类器丢失有关多数类的重要信息。
    对于过抽样算法,虽然只是简单地将复制后的数据添加到原始数据集中,且某些样本的多个实例都是“并列的”,但这样也可能会导致分类器学习出现过拟合现象,对于同一个样本的多个复本产生多个规则条例,这就使得规则过于具体化;虽然在这种情况下,分类器的训练精度会很高,但在位置样本的分类性能就会非常不理想。
    ————————————————
    版权声明:本文为CSDN博主「该昵称已经被占用」的原创文章,遵循 CC 4.0 BY-SA 版权协议,转载请附上原文出处链接及本声明。
    原文链接:https://blog.csdn.net/u011414200/article/details/50664266


    IP属地:湖北2楼2019-12-31 17:32
    回复