分类算法中数据不平衡问题的分析研究.doc
约29页DOC格式手机打开展开
分类算法中数据不平衡问题的分析研究,analysis of the problem of unbalanced data classification1.6万字29页原创作品,已通过查重系统 摘要: 不平衡数据分类问题是分类学习中的难点。不平衡数据分类问题在各个领域中的广泛应用推动着其研究发展。以集成分类与数据预处理相结...
内容介绍
此文档由会员 马甲线女神 发布
分类算法中数据不平衡问题的分析研究
Analysis of the problem of unbalanced data classification
1.6万字 29页 原创作品,已通过查重系统
摘要: 不平衡数据分类问题是分类学习中的难点。不平衡数据分类问题在各个领域中的广泛应用推动着其研究发展。以集成分类与数据预处理相结合的分类方法是现今解决不平衡分类问题的主流。集成分类主要运用了不同分类器之间的差异性,通过简单筛选后,形成各分类器间的优势互补,经典的分类器集成方法有Bagging、Adaboost、random space等。针对不平衡数据的预处理方法主要有降采样、过采样、聚类等,同时也有SMOTE等优化采样方法不断涌现。
实验发现,使用经典Adaboost算法处理不平衡数据时,训练集样本结构始终处于较大波动状态,基分类器性能不稳定。当数据集不平衡程度较大时,以算法中的样本权重调整方法需要氦时间才能获取较为平衡的训练集用于分类学习。权重调整过程中产生的具有偏向性分类器较多,严重影响了最终集成效果。
本文基于对Adaboost算法的分析研究,逐步从初始权重赋值、基分类器筛选、权重调整机制等方面,对Adaboost算法进行改进。样本初始权重的设定,力求达到快速进入能够通过加权随机抽取,抽到较平衡的训练集的效果。每次训练后,训练集中样本权重调整机制的修改,保证了后续训练集持续处于较平衡的状态,稳定了分类器性能。通过不同算法间实验结果的比较,证实了改进后的算法,在处理不平衡数据分类问题上具有更高的性能。
关键词:不平衡数据集 集成分类 随机采样 样本权重 平衡训练集
Analysis of the problem of unbalanced data classification
1.6万字 29页 原创作品,已通过查重系统
摘要: 不平衡数据分类问题是分类学习中的难点。不平衡数据分类问题在各个领域中的广泛应用推动着其研究发展。以集成分类与数据预处理相结合的分类方法是现今解决不平衡分类问题的主流。集成分类主要运用了不同分类器之间的差异性,通过简单筛选后,形成各分类器间的优势互补,经典的分类器集成方法有Bagging、Adaboost、random space等。针对不平衡数据的预处理方法主要有降采样、过采样、聚类等,同时也有SMOTE等优化采样方法不断涌现。
实验发现,使用经典Adaboost算法处理不平衡数据时,训练集样本结构始终处于较大波动状态,基分类器性能不稳定。当数据集不平衡程度较大时,以算法中的样本权重调整方法需要氦时间才能获取较为平衡的训练集用于分类学习。权重调整过程中产生的具有偏向性分类器较多,严重影响了最终集成效果。
本文基于对Adaboost算法的分析研究,逐步从初始权重赋值、基分类器筛选、权重调整机制等方面,对Adaboost算法进行改进。样本初始权重的设定,力求达到快速进入能够通过加权随机抽取,抽到较平衡的训练集的效果。每次训练后,训练集中样本权重调整机制的修改,保证了后续训练集持续处于较平衡的状态,稳定了分类器性能。通过不同算法间实验结果的比较,证实了改进后的算法,在处理不平衡数据分类问题上具有更高的性能。
关键词:不平衡数据集 集成分类 随机采样 样本权重 平衡训练集