基于特征融合和机器学习的恶意网页识别研究
    点此下载全文
引用本文:魏旭,成卫青.基于特征融合和机器学习的恶意网页识别研究[J].南京邮电大学学报:自然科学版,2019,39(5):95~104
摘要点击次数: 167
全文下载次数: 74
作者单位
魏旭 南京邮电大学 计算机学院江苏南京210023 
成卫青 南京邮电大学 计算机学院江苏南京210023
东南大学 计算机网络和信息集成教育部重点实验室江苏南京211189 
基金项目:计算机网络和信息集成教育部重点实验室课题(K93-9-2014-04B)和国家自然科学基金(61170322)资助项目
中文摘要:互联网高速发展的同时催生了众多恶意网页。恶意网页是指侵犯用户安全,包括个人隐私和财产等安全的网页。文中基于对若干恶意网页的传统网页特征:网页URL、JavaScript代码和HTML代码的分析,定义了若干特征用于恶意网页识别;提出了若干基于HTTP请求信息的特征;并提出了一个基于特征融合和机器学习的恶意网页识别方法,将HTTP请求特征与传统网页特征相融合,再利用机器学习分类算法构建网页分类模型区分正常和恶意网页。从Alexa选取500个正常网页,从PhishTank和Malwaredomains中共选取500个网页作为恶意网页构建数据集,训练网页分类模型。通过实验验证了基于URL特征、网页代码特征和HTTP请求特征的方法优于不使用HTTP请求特征的方法,并且发现随机森林分类算法更适用于恶意网页识别。
中文关键词:恶意网页  网页安全  网页特征  HTTP请求  机器学习
 
Malicious web page recognition based on feature fusion and machine learning
Abstract:With the rapid development of the Internet,many malicious web pages have emerged.Malicious web pages are referred to as web pages of infringing user security,including personal privacy and property security.Several features are defined for malicious web page recognition,based on the analysis of characteristics of traditional web pages,such as web URL,JavaScript code and HTML code features.Besides,some features based on HTTP request information are proposed.A malicious web page recognition method based on feature fusion and machine learning is proposed by combining HTTP request features with traditional web page features,and then uses machine learning classification algorithms to established web page classification models for distinguishing malicious and normal web pages.500 normal web pages selected from Alexa,and 500 malicious web pages selected from PhishTank and Malwaredomains as the data set for training web page classification models.The experiments show that the method based on URL,page code and HTTP request features is superior to other methods that do not use HTTP request features.Meanwhile,it is found that the random forest classification algorithm is more suitable for malicious web page recognition.
keywords:malicious web pages  web security  web page features  HTTP requests  machine learning
查看全文  查看/发表评论  下载PDF阅读器

你是第2221679访问者
版权所有《南京邮电大学学报(自然科学版)》编辑部
Tel:86-25-85866913 E-mail:xb@njupt.edu.cn
技术支持:本系统由北京勤云科技发展有限公司设计