基于鲸群优化随机森林算法的非平衡数据分类
Unbalanced data classification based on whale swarm optimization random forest algorithm
  
DOI:
中文关键词:  非平衡数据分类;随机森林;鲸群优化算法;弱分类器;决策树
英文关键词:unbalanced data classification; random forest; whale swarm optimization algorithm; weak classifier; decision tree
基金项目:国家自然科学基金(61961010)、广东省高等学校特色专业建设项目(2020SJTSZY01)、广东省“十四五”规划高等教育研究课题(21GYB08)、广东省普通高校特色创新类项目(2021KTSCX150)和广西省自然科学基金青年基金(2018GXNSFBA050029)资助项目
作者单位
叶丽珠 广州商学院 信息技术与工程学院,广东 广州 511363;马来西亚管理与科学大学 研究生院,雪兰莪州 莎阿南市 40100 
郑冬花 广州商学院 信息技术与工程学院,广东 广州 511363;马来西亚管理与科学大学 研究生院,雪兰莪州 莎阿南市 40100 
刘月红 桂林理工大学 信息科学与工程学院,广西 桂林 541004 
牛少华 北京理工大学 机电学院,北京 100081 
摘要点击次数: 451
全文下载次数: 384
中文摘要:
      为了提高非平衡数据分类的准确性,采用随机森林算法用于数据分类,并结合鲸鱼优化算法对随机森林弱分类器权重进行优化求解,以增强随机森林算法对非平衡数据分类的适应性。首先,建立基于随机森林的非平衡数据分类模型。通过随机森林的多个决策树弱分类器进行分类,有效解决样本不均衡导致的分类困难问题。接着,采用鲸群优化算法对弱分类器权重进行优化求解,将分类准确率均值作为鲸群优化适应度函数,以提高弱分类器权重投票对最终分类结果的精度。最后,采用经过鲸群优化得到的随机森林模型进行非平衡数据分类。实验证明,通过合理设置鲸群优化算法参数,可以获得分类准确度更高的随机森林弱分类器权重,相较于常用非平衡数据分类算法,文中算法能够获得更优的分类性能。
英文摘要:
      In order to improve the accuracy of unbalanced data classification, the random forest algorithm is used for data classification, and the whale optimization algorithm is adoped to optimize the key parameters of the random forest, thus the adaptability of the random forest algorithm to unbalanced data classification is enhanced. First, the unbalanced data classification model is developed based on the random forest. The classification difficulties caused by sample imbalance are effectively solved through multiple decision tree weak classifiers of the random forest. Second, the whale swarm optimization algorithm is deployed to optimize the weight of weak classifiers, and the average classification accuracy is taken as the fitness function of the whale swarm optimization. Thus the accuracy of the weak classifier weight voting on the final classification results. Finally, the random forest model optimized by the whale population is used to classify the unbalanced data. Experiments show that by reasonably setting the parameters of the whale swarm optimization algorithm, the weight of random forest weak classifiers with higher classification accuracy can be obtained. Compared with the unbalanced data classification algorithms, this algorithm can obtain better classification performance.
查看全文  查看/发表评论  下载PDF阅读器

你是第3766100访问者
版权所有《南京邮电大学学报(自然科学版)》编辑部
Tel:86-25-85866913 E-mail:xb@njupt.edu.cn
技术支持:本系统由北京勤云科技发展有限公司设计