2018 - URLNet: Learning a URL Representation with Deep Learning for Malicious URL Detection
Abstract
恶意URL检测,传统方法是通过黑名单,但是这种方法不全面,检测不到新的恶意URL。近年来机器学习应用于恶意URL检测的研究较多,最常用的方法是利用URL字符串的词性特征,提取词袋模型,进而使用各种机器学习的分类器例如svm等去进行训练和检测,或者也可以使用专家设计提取的特征去进一步提高模型的性能。但是这些方法都具有局限性:1.无法有效捕获URL字符串中的语义和序列模式;2.需要大量的人工特征工程;3.无法处理在训练数据中没有见过的特征。本文主要提出了一个端到端的深度学习框架URLNet,可以直接从URL去学习非线性的URL embedding去检测恶意URL,具体来说主要将卷积神经网络应用于URL字符串的字符和单词。这种方法允许模型捕获几种类型的语义信息,这是现有模型无法实现的,同时还提出了使用word-embeddings来解决在这个任务中观察到的太多罕见词的问题。