HinCTI: A Cyber Threat Intelligence Modeling and Identification System Based on Heterogeneous Information Network
来源信息
- IEEE Transactions on Knowledge and Data Engineering(CCF A)
- 机构:北京邮电大学
- 作者:Yali Gao; Xiaoyong LI; Hao PENG; Binxing Fang
摘要
网络攻击日益复杂化、持久化、组织化和武器化。面对这种情况,全世界越来越多的组织正显示出越来越愿意利用网络威胁情报公开交换(CTI)来全面了解快速演变的网络威胁形势,并保护自己免受网络攻击。然而,由于CTI之间的显式和隐式关系以及CTI所涉及的网络威胁基础设施节点的异构性,对CTI的建模具有挑战性。
由于CTI中涉及的网络威胁基础设施节点的标签有限,因此自动识别基础设施节点的威胁类型进行预警也是一个挑战。为了应对这些挑战,开发了一个名为HinCTI的实用系统,用于对网络威胁情报进行建模和识别威胁类型。文章设计了一个威胁情报元模式来描述威胁实体的语义关联性。然后在异构信息网络(HIN)上建立网络威胁情报模型,该模型能够集成各种类型的基础设施节点及其之间丰富的关系。在此基础上,定义了一种基于元路径和元图实例的实体节点间相似性实体基础设施节点的威胁类型。此外,通过分层正则化策略,可以缓解过度拟合的问题,在实体的威胁类型识别中取得了很好的效果。利用HinCTI在真实数据集上进行了综合实验,实验结果表明,与现有的最新基线方法相比,本文提出的方法能够显著提高威胁类型识别的性能。我们的工作有助于大大减轻安全人员繁重的分析工作,并有效地保护组织免受网络攻击。
简介
如今,为了全面了解快速发展的网络威胁局势,保护自己免受复杂、持续、有组织和武器化的网络攻击,世界上越来越多的组织越来越愿意利用网络威胁情报公开交流。*CTI是关于现有或新兴资产威胁的证明性知识,可提供主体对威胁反应的决策支持**。众所周知,网络犯罪分子通常充分利用网络基础设施(如域名、互联网协议或IP地址)进行网络攻击。一般来说,不同的情报来源有助于从不同的角度描述网络威胁基础设施节点。CTI建模提供了许多优势,例如获得快速演变的网络威胁形势的全貌,以及揭示特定攻击背后的潜在集团。以域名基础设施节点为例,域名的威胁类型可以是垃圾邮件URL、暴力登录攻击、恶意软件活动和僵尸网络节点活动。识别基础设施节点的威胁类型不仅有利于细粒度的威胁预警,而且有利于采取有针对性的防御措施***。
动机
CTI的建模和威胁情报实体的威胁类型识别无疑应该是任何网络威胁防御和预警系统的最基本的要求。虽然现在针对此有很多的研究,但是依然存在着以下的问题:
- 现有的CTI中涉及的威胁实体的类型标签有限的问题。因此,如何准确有效地从有限的标记威胁实体以及它们之间的大量关系中学习,以预测未标记节点的威胁类型。
- 现有的针对威胁情报的研究主要集中在同质图。但现实中,很多的威胁实体都是异质的。所以如何针对不同类型的节点提取更高级的语义也是一个挑战。
论文贡献
- 提出了一种基于HIN的CTI建模方法。通过基于HIN的CTI建模,该框架不仅可以以语义的方式集成CTI中涉及的威胁实体,同时也可以提取合并实体间的高级语义。
- 提出了一种基于MIIS度量的异构GCN方法来识别实体的威胁类型。作者在实体之间定义了一个MIIS度量值,并提出了基于MIIS度量的异构GCN方法来识别实体的威胁类型。通过分层正则化,可以缓解过拟合问题,实现较高的检测效果。
- 本文开发了一种被称为HinCTI的系统,用于建模网络威胁情报和识别威胁类型。实验结果表明,与现有的基线方法相比,我们提出的方法可以显著提高威胁类型识别的性能。
CTI建模
基于HIN的CTI建模
- 节点类型:四种节点:从情报提供商收集的CTI通常是恶意软件hash、恶意IP地址、恶意域名和邮箱。
- HinCTI:五种关系,表示威胁实体之间的关系。
- 元模式:不同类型的节点及其之间的关系抽象出的一张图
- 元路径和元图:元路径是在元模式图上所定义的路径,**指的是不同顶点之间的一系列关系序列组成的一条路径**。充分且直观地利用了网络结构。在节点类型上定义的元路径和元图可以反映关于相似性的语义上有意义的信息。例如,元路径的两个域名之间的关系可以通过域-恶意软件-域来揭示,它描述了两个域名被同一恶意软件访问,或者通过元路径域-电子邮件-Domain来访问 描述由同一电子邮件地址注册的两个域名
威胁情报可被视为一组威胁基础设施节点和威胁基础设施关系。
系统架构
- 1:基于HIN的CTI建模。通过各种CTI提供商提供的API,获得大量的威胁实体以及它们之间的关系。在CTI建模中,上下文信息与节点关联得越多,就越有利于CTI分析。因此,为了丰富节点的上下文,作者从外部数据库建立相同类型和不同类型的节点之间的关系,如域名和IP节点的“Whois”数据库、恶意软件节点的“CVE”数据库和PDNS的域名和邮件地址节点数据库。这样,就可以构建网络威胁情报HIN来描述各种实体之间的关系。
- 2:特征提取器和元路径和元图生成器。基于之前的网络威胁情报HIN设计的元模式,论文构建了一组元路径和元图,以从不同的语义上捕获在实体之间的更高层次的关系。
- 3:基于异构GCN的威胁类型识别。首先提取基础结构节点特征,并生成节点特征矩阵X。然后融合元图和元路径得到邻接矩阵B,学习网络威胁基础设施节点的威胁类型。
- 4:威胁类型识别:对于每个待识别的未知威胁实体,将首先提取实体特征,然后从外部源中提取其相关的信息。基于提取的特征和构造的基于异构GCN的威胁类型识别模型,识别该实体的威胁类型。
特征提取
- 节点特征:正常域名较为简洁,而恶意域名通常是由域名生成算法(DGA)批量生成的。因此选择域名的长度、信息熵作为特征。恶意域名的使用时间较短同时更新频率较低,因此将域名的活跃时间以及更新频率作为特征。
- 关系特征:
- R:域名及其解析IP之间关系
- S:域名是否被恶意软件访问
- G:域名与注册邮件的关系
- C:IP地址于恶意软件的关系
- N:IP地址于Email的关系
元路径和元图构建
- 元路径可以用来描述节点之间的相关性。
不同的元路径有着不同的语义信息。例如,D-I-D:表示不同的域名指向同样的IP地址。 - 元图:具有单源节点和目标节点的有向无环图。
元图更全面的描述了网络威胁实体之间的关系,其中包含了外部和内在关联。例如:Φ_11表示两个域名被同一个恶意软件访问,同时它们解析的IP地址解析到了同样的Email,而且与相同的恶意软件通信。
基于异构GCN的威胁类型识别
- 在提取了威胁实体的特征并构建了元路径和元图之后,论文提出了基于MIIS度量的异构GCN方法识别CTI涉及的威胁实体的威胁类型。HinCTI,同时集成了节点特性和元路径和元图以及基于相似性的邻接关系,使得能够以更全面的方式表示威胁节点。
- MIIS度量从两个角度定义:语义重叠,由威胁实体vi和vj之间的路径数定义。语义广度。由它们之间的路径实例数(即从vi到vi的路径以及从vj到vj的路径)定义。利用可自动学习的权重向量β将基于元路径和元图的节点相似性结合在一起。MIIS度量计算了任意两个域名节点的相似性,可以构造一个维数为N×N的矩阵B,其中N是域名节点数和Bij=Bji=MIIS(vi,vj)。
层次结构正则化
如果我们简单地把每个类型作为一个独立标签,可以直接用于训练神经网络。然而,在威胁类型标签中通常有一个层次结构, 其中,一个父标签包含几个子标签。因此,在标签之间引入层次依赖关系可以提高威胁类型识别的性能。也就是说,当叶标签(在层次结构中没有子标签)很少有训练示例时,决策可以通过其父标签进行正则化。论文在GCN模型的最终输出层上的分层正则化,提高模型的检测效率。
实验与分析
数据集
威胁情报共享平台IBMX-ForceExchange平台和VirousTotal收集真实数据,并丰富数据,收集到的数据集中包含126,933个威胁实体,在预处理后只剩下11,340个实体。利用威胁情报公司爬取10833个标签,其余507个未标记的由人工和第三方工具进行标记。
Baselines
- Node2Vec+SVM:一种基于随机游走的齐次图网络嵌入方法。忽略了节点的异质性,并对整个异质域对节点进行Node2Vec。
- Metapath2Vec+SVM:一种异构图嵌入方法,它执行基于元路径的随机游走,并利用skip-gram嵌入异构图。对比实验中,作者测试了所有的元路径。
- HAN+SVM:一种半监督的异构图神经网络,它考虑了节点级注意力和语义级注意力来分别学习节点和元路径的重要性。
- **HinCTI-**:不考虑层次正则化的HinCTI模型。
实验对比
基线对比实验可以看出HinCTI方法效果是最高的,同时对比HinCTI-可以发现,节点特征和关系特征的选择很有效。
与传统的方法对比结果:贝叶斯、决策树、SVM、KNN
- -2是将所有的节点特征以及关系特征作为输入对比的实验
- -1是只选择节点特征的实验
两个特征比一个特征模型的F1要高7%-9%
在其他威胁实体(IP,恶意软件,邮箱)上的实验也发现,HinCTI方法效果最好。
总结
工作总结
论文提出了一种基于HIN的CTI建模和威胁类型识别系统:HinCTI。作者设计了元模式和一组元路径和元图来在HIN上建模CTI,提取并合并CTI中涉及的网络威胁实体的高级语义。通过提出的基于MIIS度量的异构GCN的威胁类型识别方法,克服了有限标签的挑战。通过层次正则化缓解了过拟合的问题 。与现有的方法对比发现,HinCTI效果更好。
展望
HinCTI只有节点特征和关系特征,不能充分的表示节点的语义信息,可以利用。利用自然语言处理技术提取更细粒度的结构化数据,同时可以针对非结构化数据中的实体提取进一步研究,丰富异构信息网络,提高威胁识别的性能。
- 域名资料特征域名直接相关的特征:
- 注册商 - 攻击者可能因为某些原因而具有偏好使用的注册商,如注册商价格低,对于投诉不理睬•
- 权威域名服务器 - 攻击者在使用权威域名服务器上也具有某些规律,如使用自解析服务器。这里文中使用的数据为域名注册5分钟内,从zone文件中查询得到的。• 名称服务器IP地址和AS
- 注册时间,攻击者是否在注册时间上具有规律性,如每天的几点,每周的周几• 注册的生成周期
- 三元模型• 最长英语单词比例• 是否包含数字• 是否包含“-”
- 域名长度• 与已知恶意域名的编辑距离
- 注册历史特征这部分是注册强相关特征,寻找异常的注册行为
- 批相关特征同样是在域名注册时的特性,寻找注册的异常行为,文中使用的是在特定注册商上,五分钟内注册的域名