【转】不均衡学习的抽样方法【汪光远吧】

汪光远吧关注：8贴子：164

1回复贴，共1页

【转】不均衡学习的抽样方法

版权声明：本文为CSDN博主「该昵称已经被占用」的原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接及本声明。
原文链接：https://blog.csdn.net/u011414200/article/details/50664266
————————————————
通常情况下，在不均衡学习应用中使用抽样方法的目的就是为了通过一些机制改善不均衡数据集，以期获得一个均衡的数据分布。
研究表明，对于一些基分类器来说，与不均衡的数据集相比一个均衡的数据集可以提高全局的分类性能。数据层面的处理方法是处理不均衡数据分类问题的重要途径之一，它的实现方法主要分为对多数类样本的欠抽样和对少数类样本的过抽样学习两种。其主要思想是通过合理的删减或者增加一些样本来实现数据均衡的目的，进而降低数据不均衡给分类器带来的负面影响。
按照对样本数量的影响又可分为：
过抽样，即合理地增加少数类的样本
欠抽样，即合理地删减多数类样本

送TA礼物

IP属地:湖北

1楼2019-12-31 17:32回复

随机过抽样和欠抽样
随机过抽样
随机过抽样是一种按照下面的描述从少数类中速记抽样生成子集合 E 的方法。
首先在少数类 SminSmin 集合中随机选中一些少数类样本
然后通过复制所选样本生成样本集合 E
将它们添加到 SminSmin 中来扩大原始数据集从而得到新的少数类集合 Smin−newSmin−new
用这样方法，SminSmin 中的总样本数增加了 |E||E| 个新样本，且 Smin−newSmin−new 的类分布均衡度进行相应的调整，如此操作可以改变类分布平衡度从而达到所需水平。
欠抽样
欠抽样技术是将数据从原始数据集中移除。
首先我们从 SmajSmaj 中随机地选取一些多数类样本 E
将这些样本从 SmajSmaj 中移除，就有 |Smaj−new|=|Smaj|−|E||Smaj−new|=|Smaj|−|E|
缺陷
初看，过抽样和欠抽样技术在功能上似乎是等价的，因为它们都能改变原始数据集的样本容量且能够获得一个相同比例的平衡。
但是，这个共同点只是表面现象，这是因为这两种方法都将会产生不同的降低分类器学习能力的负面效果。
对于欠抽样算法，将多数类样本删除有可能会导致分类器丢失有关多数类的重要信息。
对于过抽样算法，虽然只是简单地将复制后的数据添加到原始数据集中，且某些样本的多个实例都是“并列的”，但这样也可能会导致分类器学习出现过拟合现象，对于同一个样本的多个复本产生多个规则条例，这就使得规则过于具体化；虽然在这种情况下，分类器的训练精度会很高，但在位置样本的分类性能就会非常不理想。
————————————————
版权声明：本文为CSDN博主「该昵称已经被占用」的原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接及本声明。
原文链接：https://blog.csdn.net/u011414200/article/details/50664266

IP属地:湖北

2楼2019-12-31 17:32

扫二维码下载贴吧客户端

下载贴吧APP
看高清直播、视频！

贴吧热议榜

1回复贴，共1页

<返回汪光远吧

发表回复

发贴请遵守贴吧协议及“七条底线”贴吧投诉

内容:

使用签名档查看全部

发表

保存至快速回贴

日	一	二	三	四	五	六

【转】不均衡学习的抽样方法

登录百度账号

扫二维码下载贴吧客户端