本技术涉及互联网,尤其涉及一种基于迁移学习的全网ipv6活跃地址探测方法、装置、设备及存储介质。
背景技术:
1、随着ipv4地址资源的枯竭,ipv6作为下一代互联网的核心,其相关技术和应用正在全球范围内快速发展和广泛部署。截止到目前,超过40%的谷歌用户通过ipv6获取服务,而这一数据10年前还不足2%。因此,全球互联网范围内的ipv6相关网络测量工作将变得越来越重要,其中就包括本文工作:互联网范围内的ipv6活跃地址探测。
2、互联网范围的活跃地址探测作为网络调查的重要手段,其可以应用于多种研究领域,如网络服务分析,网络安全评估、拓扑发现。对于传统的ipv4网络,得益于近年来计算机性能的提升,人们使用一些最先进的异步高速扫描工具(如zmap)可在分钟级对整个ipv4地址空间进行暴力扫描,实现互联网范围的ipv4活跃地址探测。不幸的是,相比ipv4(32位),ipv6(128位)指数级增长的巨大地址空间导致暴力扫描已经不可能。
3、为了解决这个问题,通过收集活跃的ipv6地址作为种子地址,基于种子地址结构分析或学习种子地址的特征模式,进而生成一些潜在的ipv6候选活跃地址,并主动向候选活跃地址发送数据包(如:icmpv6等),以此判定候选活跃地址逐渐成为一种有效方式。
4、现有技术中,6gen和det认为种子密度高的地址空间更有可能存在未被发现的活动地址,因此它们尽可能在高密度区域进行探测。6tree使用种子结构构建地址空间树,并根据探测结果动态引导地址生成方向。6hit首次提出基于强化学习动态更新预算分配,以优化不同地址空间的探测方向。同样,有种子前缀下(有种子地址的路由前缀)的addrminer也是基于这一思想。此外,在无前缀(无种子地址的路由前缀)下,addrminer通过图社区发现算法构建了一个种子公共模式库,并使用它们执行探测。6gan旨在通过具有强化学习功能的生成式对抗网络来防止别名地址的生成。6forest和6graph都是对基于地址空间划分的探测方法(如6tree、6hit)的改进。6forest提出了最大覆盖分裂指标,并在增强隔离林的基础上剔除离群地址,从而更好地划分地址空间;6graph提出了基于密度的图切割进行地址聚类,挖掘ipv6地址模式。
5、然而,这些方法都无法有效完成全网的ipv6活跃地址探测。其中,大多数方法(包括:6gen、det、6hit、6tree、6gan、6forest、6graph)完全不适用于无种子前缀下的地址空间探测。此外,对于有种子前缀,他们也只能处理有种子前缀下有活跃地址分布的地址空间。尽管addrminer考虑到了其中无种子前缀下的地址空间探测,但它的效率很低(命中率只有大约4%),与随机探测没有太大区别。
6、如上所述,在过去工作中,大多数研究都集中于有种子地址空间下的活跃地址探测,而不适用于无种子地址空间,其包括无种子前缀下的所有地址空间以及有种子前缀下无种子地址分布的地址空间。即使addrminer针对其中的无种子前缀提出了探测方案,但是命中率非常低。总的来说,目前针对互联网范围ipv6活跃地址探测仍然缺乏一个全面有效的探测系统。
技术实现思路
1、本技术旨在至少在一定程度上解决相关技术中的技术问题之一。
2、为此,本技术的第一个目的在于提出一种基于迁移学习的全网ipv6活跃地址探测方法,旨在探测互联网范围内的所有路由前缀,并以高命中率和低开销(即扫描工具的扫描次数)获取更多的主动地址。
3、本技术的第二个目的在于提出一种基于迁移学习的全网ipv6活跃地址探测检测装置。
4、本技术的第三个目的在于提出一种电子设备。
5、本技术的第四个目的在于提出一种计算机可读存储介质。
6、为达上述目的,本技术第一方面实施例提出了一种基于迁移学习的全网ipv6活跃地址探测检测方法,包括:
7、将作为种子地址的ipv6活跃地址按路由前缀划分,将分类结果进行聚类处理并对聚类结果进行聚类信息编码,并基于编码信息生成对应聚类结果的地址模式;
8、探测互联网中的所有路由前缀下的ipv6活跃地址,按照两级迁移策略为不同前缀迁移合适的地址模式并进行探测;
9、识别探测到的ipv6活跃地址所覆盖的前缀是否为别名前缀,删除别名前缀以消除对ipv6活跃地址探测的影响。
10、其中,将作为种子地址的ipv6活跃地址按路由前缀划分,将分类结果进行聚类处理并对聚类结果进行聚类信息编码,并基于编码信息生成对应聚类结果的地址模式,包括:
11、获取ipv6活跃地址作为种子地址,按照种子地址的路由前缀进行划分,得到所有的有种子路由前缀及其所包含的种子地址,同时,获取全网bgp公布的所有路由前缀,除去有种子路由前缀,以得到无种子路由前缀;
12、分别对每个有种子路由前缀包含的种子地址进行向量化并聚类,种子地址被划分为多个地址类别簇,并对每一地址类别簇进行聚类信息编码;
13、将上述聚类后的每一种子地址向量与对应的地址类别簇的聚类信息编码进行组合,将组合结果输入条件变分自动编码器cave中,输出上述有种子路由前缀下对应的地址模式。
14、其中,探测互联网中的所有路由前缀下的ipv6活跃地址,按照两级迁移策略为不同前缀迁移合适的地址模式并进行探测的步骤中,两级迁移策略中第一级迁移策略为:
15、把路由前缀属性相同的地址模式进行迁移,迁移到无种子路由前缀或有种子路由前缀下无种子地址分布的空间;
16、迁移完成后,对所有bgp公布前缀进行探测,并基于探测结果评估潜在活跃地址分布,以为进一步迭代探测提供依据。
17、其中,探测互联网中的所有路由前缀下的ipv6活跃地址,按照两级迁移策略为不同前缀迁移合适的地址模式并进行探测的步骤中,两级迁移策略中第二级迁移策略为:
18、基于初始探测结果,初始化每个探测前缀的迭代预算;
19、按照前缀预算顺序开始启动一个前缀迭代探测,其过程包括模式迁移、微调、生成和扫描;
20、逐步投入并进入动态的探测过程,不断优化探测方向,直至预算消耗完或无法生成ipv6活跃地址。
21、其中,逐步投入并进入动态的探测过程,不断优化探测方向,直至预算消耗完或无法生成ipv6活跃地址,包括:
22、在得到上一轮探测到的ipv6活跃地址后,为了适应新发现的活跃地址模式,对条件变分自动编码器cave训练得到的模型进行微调,以不断优化更新地址模式;
23、当预算被消耗完或者无法生成新的ipv6活跃地址后,对当前路由前缀的探测过程将停止。
24、其中,识别探测到的ipv6活跃地址所覆盖的前缀是否为别名前缀,删除别名前缀以消除对ipv6活跃地址探测的影响,包括:
25、从ipv4活跃地址中相邻位的信息熵出发,找出可能的别名位;其中,别名位为别名前缀的最后一位;
26、对于探测中得到的ipv6活跃地址,分别为ipv6活跃地址的每一位计算信息熵;
27、基于信息熵计算结果,确认是否存在别名前缀以及对应的别名位;
28、基于别名位得到可能的别名前缀,并进行扫描确认。
29、其中,基于信息熵计算结果,确认是否存在别名前缀,包括:
30、对于相邻位信息熵关系大小分析如下:
31、当相邻两位熵都小于第一预设阈值,后一位是别名位且有别名前缀;
32、当相邻位熵都大于第二预设阈值,前一位是别名位且有别名前缀;
33、当相邻位熵为前者大于第二预设阈值,后者小于第一预设阈值,后一位是别名位且有别名前缀;
34、当相邻位熵为前者小于第一预设阈值,后者大于第二预设阈值,两位都是别名前缀;
35、通过分析,确定当前ipv6活跃地址中,别名位是其中相邻位熵差值最大的两位,且熵值为有序的小和大。
36、为达上述目的,本技术第二方面实施例提出了一种基于迁移学习的全网ipv6活跃地址探测检测装置,包括:
37、地址模式挖掘模块,用于将作为种子地址的ipv6活跃地址按路由前缀划分,将分类结果进行聚类处理并对聚类结果进行聚类信息编码,并基于编码信息生成对应聚类结果的地址模式;
38、地址探测模块,用于探测互联网中的所有路由前缀下的ipv6活跃地址,按照两级迁移策略为不同前缀迁移合适的地址模式并进行探测;
39、别名前缀检测模块,用于识别探测到的ipv6活跃地址所覆盖的前缀是否为别名前缀,删除别名前缀以消除对ipv6活跃地址探测的影响。
40、为达上述目的,本技术第三方面实施例提出了一种电子设备,包括:处理器,以及与处理器通信连接的存储器;
41、存储器存储计算机执行指令;
42、处理器执行存储器存储的计算机执行指令,以实现如前述技术方案的方法。
43、为达上述目的,本技术第四方面实施例提出了一种计算机可读存储介质,计算机可读存储介质中存储有计算机执行指令,计算机执行指令被处理器执行时用于实现如前述技术方案的方法。
44、区别于现有技术,本发明提供的一种基于迁移学习的全网ipv6活跃地址探测方法、装置、设备及存储介质,该方法为了准确的提取种子地址模式,提出一种新颖的生成式神经网络模型,能够自动将具有混合模式的种子划分为多个簇,每个簇对应相同的地址模式,以细粒度的方式精确刻画每种模式,充分利用所有种子信息;提出小规模初始探测和大规模迭代探测相结合的方式,并基于两种迁移方法实现了探测过程的持续动态优化,保证了整个探测过程的命中率;本发明设计轻量级的别名检测算法,能够快速高效低开销的完成实时别名前缀检测,大大减轻了由于别名前缀对活跃地址探测造成的影响。通过本发明,能够对任意路由前缀进行ipv6活跃地址探测,并始终保持较高的命中率。
45、本技术附加的方面和优点将在下面的描述中部分给出,部分将从下面的描述中变得明显,或通过本技术的实践了解到。
1.一种基于迁移学习的全网ipv6活跃地址探测方法,其特征在于,包括:
2.根据权利要求1所述的基于迁移学习的全网ipv6活跃地址探测方法,其特征在于,将作为种子地址的ipv6活跃地址按路由前缀划分,将分类结果进行聚类处理并对聚类结果进行聚类信息编码,并基于编码信息生成对应聚类结果的地址模式,包括:
3.根据权利要求1所述的基于迁移学习的全网ipv6活跃地址探测方法,其特征在于,探测互联网中的所有路由前缀下的ipv6活跃地址,按照两级迁移策略为不同前缀迁移合适的地址模式并进行探测的步骤中,两级迁移策略中第一级迁移策略为:
4.根据权利要求3所述的基于迁移学习的全网ipv6活跃地址探测方法,其特征在于,探测互联网中的所有路由前缀下的ipv6活跃地址,按照两级迁移策略为不同前缀迁移合适的地址模式并进行探测的步骤中,两级迁移策略中第二级迁移策略为:
5.根据权利要求4所述的基于迁移学习的全网ipv6活跃地址探测方法,其特征在于,逐步投入并进入动态的探测过程,不断优化探测方向,直至预算消耗完或无法生成ipv6活跃地址,包括:
6.根据权利要求1所述的基于迁移学习的全网ipv6活跃地址探测方法,其特征在于,识别探测到的ipv6活跃地址所覆盖的前缀是否为别名前缀,删除所述别名前缀以消除对ipv6活跃地址探测的影响,包括:
7.根据权利要求6所述的基于迁移学习的全网ipv6活跃地址探测方法,其特征在于,基于信息熵计算结果,确认是否存在别名前缀,包括:
8.一种基于迁移学习的全网ipv6活跃地址探测装置,其特征在于,包括:
9.一种电子设备,其特征在于,包括:处理器,以及与所述处理器通信连接的存储器;
10.一种计算机可读存储介质,其特征在于,所述计算机可读存储介质中存储有计算机执行指令,所述计算机执行指令被处理器执行时用于实现如权利要求1-7中任一项所述的方法。