本发明属于网络安全,特别是一种基于流量多尺度特征的加密代理大语言模型会话属性推断方法及系统。
背景技术:
1、随着大语言模型在国内的广泛使用,用户对大语言模型的需求与日俱增。然而,出于隐私保护的需求,诸多用户通过网络加密代理工具来使用大语言模型,因此,对加密代理的大语言模型会话属性进行推断成为一项迫切的需求,旨在更好地了解用户的行为、使用的具体模型以及交流模式等关键信息。目前,尚未出现对加密代理的大语言模型会话属性进行深入分析的方法。这一空白阻碍了对用户行为的全面理解,限制了对大语言模型在国内使用情况的洞察力。因此,开发一种适用于加密代理的大语言模型会话属性推断方法具有重要的研究价值。
2、在分析加密代理流量时,传统的单一尺度流量表征显露出其在适应网络流量异构性方面的不足。网络流量具有多层次、多维度的复杂特性,单一尺度的表征无法充分捕捉其全貌。这种不足表现为无法准确反映通信模式的多样性、无法处理大规模数据的效率问题,以及在面对加密通信时的信息缺失等。
技术实现思路
1、针对现有技术的缺陷,本发明旨在提供一种基于流量多尺度特征的加密代理大语言模型会话属性推断方法及系统,通过构建流量多尺度特征来实现加密代理大语言模型会话不同具体属性的推断。
2、实现本发明目的的技术解决方案为:一种基于流量多尺度特征的加密代理大语言模型会话属性推断方法,包括以下步骤:
3、步骤1、以经由网络加密代理工具访问web端的大语言模型流量为待测样本,基于包方向游程将待测样本的五元组会话流进行包分簇,形成同向包簇集合,根据会话内连续包簇的簇间时延和会话间头尾包簇的簇间时延将加密代理的连续大语言模型会话流按照会话进行切分;
4、步骤2、针对会话内的单个包簇,提取包簇内所有数据包的多维属性,形成表征单个包簇的多维属性特征,根据包簇传输次序形成包簇特征时序矩阵;
5、步骤3、基于所形成的包簇特征时序矩阵,首先进行相邻包簇特征行向量的相似性度量,此后针对各维属性列向量在不同时刻构成的时间序列,对其进行包括属性依赖嵌入、时间依赖嵌入和嵌入融合的时序相关性分析,将得到的融合特征与包簇特征行向量的相似性度量结果组合成向量,输入随机森林算法模型中进行有监督学习,实现加密代理大语言模型会话模型类型、交互语言类型、会话字数量级的多维属性推断。
6、一种基于流量多尺度特征的加密代理大语言模型会话属性推断系统,包括:
7、第一模块,以经由网络加密代理工具访问web端的大语言模型流量为待测样本,基于包方向游程将待测样本的五元组会话流进行包分簇,形成同向包簇集合,根据会话内连续包簇的簇间时延和会话间头尾包簇的簇间时延将加密代理的连续大语言模型会话流按照会话进行切分;
8、第二模块,用于针对会话内的单个包簇,提取包簇内所有数据包的多维属性,形成表征单个包簇的多维属性特征,并根据包簇传输次序形成包簇特征时序矩阵;
9、第三模块,基于所形成的包簇特征时序矩阵,首先进行相邻包簇特征行向量的相似性度量,此后针对各维属性列向量在不同时刻构成的时间序列,对其进行包括属性依赖嵌入、时间依赖嵌入和嵌入融合的时序相关性分析,将得到的融合特征与包簇特征行向量的相似性度量结果组合成向量,输入随机森林算法模型中进行有监督学习,实现加密代理大语言模型会话模型类型、交互语言类型、会话字数量级的多维属性推断。
10、一种电子设备,包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,所述处理器执行所述程序时实现上述的基于流量多尺度特征的加密代理大语言模型会话属性推断方法。
11、一种计算机可读存储介质,其上存储有计算机程序,该程序被处理器执行时实现上述的基于流量多尺度特征的加密代理大语言模型会话属性推断方法。
12、本发明与现有技术相比,其显著优点为:1)本发明在不解析加密代理大语言模型会话具体内容的前提下,实现对会话属性的推断,有效保护了用户隐私;2)基于包方向游程对数据包进行分簇,并将连续包簇作为研究对象,在降低了数据维度的同时保留了对会话流量时空特征及交互特性的分析精准性和完整性;3)针对包簇特征时序矩阵,从不同角度进行属性序列的时序相关性分析,从而更加全面深入地分析加密代理大语言模型流量。
13、下面结合附图对本发明作进一步详细描述。
1.一种基于流量多尺度特征的加密代理大语言模型会话属性推断方法,其特征在于,包括以下步骤:
2.根据权利要求1所述的基于流量多尺度特征的加密代理大语言模型会话属性推断方法,其特征在于,步骤1所述的以经由网络加密代理工具访问web端的大语言模型流量为待测样本,基于包方向游程将待测五元组会话流进行包分簇,形成同向包簇集合,根据会话内连续包簇的簇间时延和会话间头尾包簇的簇间时延将加密代理的连续大语言模型会话流按照会话进行切分,具体为:
3.根据权利要求2所述的基于流量多尺度特征的加密代理大语言模型会话属性推断方法,其特征在于,步骤2所述的针对会话内的单个包簇,提取包簇内所有数据包的多维属性,形成表征单个包簇的多维属性特征,根据包簇传输次序形成包簇特征时序矩阵,具体为:
4.根据权利要求3所述的基于流量多尺度特征的加密代理大语言模型会话属性推断方法,其特征在于,步骤3所述基于所形成的包簇特征时序矩阵,首先进行相邻包簇特征行向量的相似性度量,此后针对各维属性列向量在不同时刻构成的时间序列,对其进行包括属性依赖嵌入、时间依赖嵌入和嵌入融合的时序相关性分析,具体为:
5.一种基于流量多尺度特征的加密代理大语言模型会话属性推断系统,其特征在于,包括:
6.根据权利要求5所述的基于流量多尺度特征的加密代理大语言模型会话属性推断系统,其特征在于,第一模块,步骤1所述以经由网络加密代理工具访问web端的大语言模型流量为待测样本,基于包方向游程将待测五元组会话流进行包分簇,形成同向包簇集合,根据会话内连续包簇的簇间时延和会话间头尾包簇的簇间时延将加密代理的连续大语言模型会话流按照会话进行切分,具体为:
7.根据权利要求6所述的基于流量多尺度特征的加密代理大语言模型会话属性推断系统,其特征在于,第二模块所述的针对会话内的单个包簇,提取包簇内所有数据包的多维属性,形成表征单个包簇的多维属性特征,并进一步根据包簇传输次序形成包簇特征时序矩阵,具体为:
8.根据权利要求7所述的基于流量多尺度特征的加密代理大语言模型会话属性推断系统,其特征在于,第三模块所述基于所形成的包簇特征时序矩阵,首先进行相邻包簇特征行向量的相似性度量,此后针对各维属性列向量在不同时刻构成的时间序列,对其进行包括属性依赖嵌入、时间依赖嵌入和嵌入融合的时序相关性分析,具体为:
9.一种电子设备,包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,其特征在于,所述处理器执行所述程序时实现如权利要求1-4中任一所述方法的步骤。
10.一种计算机可读存储介质,其上存储有计算机程序,其特征在于,该程序被处理器执行时实现如权利要求1-4中任一所述方法的步骤。