一种网站数据访问控制方法及系统与流程

专利2022-05-10 64

1.本技术涉及计算机网络安全技术领域，尤其涉及一种网站数据访问控制方法及系统。

背景技术：

2.随着网络信息技术的高速发展，网络信息数据时刻都在爆炸性地增长。对于各类网站，其咨询信息实时更新，因此需要定期采集其它网站的数据内容来更新自己的内容。现有数据采集方法在采集数据前，程序员每次都需要根据不同的网站及不同的数据内容，编写与欲采集数据对应的正则规则，增加了数据采集的工作量。并且，现有技术中无法根据用户的身份信息，判断其访问的网站和数据是否与其自身的需求相匹配，导致一些与用户身份不匹配的信息传输给用户，使得数据访问的精准性较低，造成资源的冗余与浪费，甚至使得一些网站上的数据被非法用户获取，进行非法利用。因此，如何提高数据访问的精准性，提高数据访问的效率和安全性，减少资源的浪费是目前需要迫切解决的问题。

技术实现要素：

3.本技术的目的在于提供一种网站数据访问控制方法及系统，提高数据访问的精准性，提高数据访问的效率和安全性，减少资源的浪费。
4.为达到上述目的，本技术提供一种网站数据访问控制方法，该方法包括如下步骤：获取请求端的身份信息和其请求访问的网站类别信息；根据请求端身份信息和请求访问的网站类别信息，计算请求端访问网站数据的第一匹配值；比较第一匹配值和预设第一阈值的大小，若第一匹配值大于预设第一阈值，则采集请求端请求获取数据内容的摘要信息；否则，禁止请求端访问数据。
5.一种网站数据访问控制方法还包括如下步骤：根据采集的请求端请求获取数据内容的摘要信息，以及请求端的身份信息，计算请求端访问网站数据的第二匹配值；比较请求端访问网站数据的第二匹配值与预设第二阈值的大小，若请求端访问网站数据的第二匹配值大于预设第二阈值，则允许请求端访问其请求的数据，否则，禁止请求端访问其请求的数据。
6.如上的，其中，计算请求端访问网站数据的第二匹配值的方法包括：
7.根据请求端请求获取数据内容的摘要信息，提取请求获取数据内容的特征词语；
8.计算提取的特征词语与标准词库中标准特征词语的第一相关值，获取第一相关值最大的标准特征词语作为提取的特征词语的映射词语，并记录对应的第一相关值；
9.根据提取的请求获取数据内容的特征词语、第一相关值和请求端身份，计算请求端访问网站数据的第二匹配值。
10.如上的，其中，第一相关值的计算公式为：
11.12.其中，ω表示提取的特征词语与标准特征词语的第一相关值；o
lt
表示提取的第t个特征词语按照词长为l截取特征词语的字符中与标准特征词语相同的字符数量；l
t
表示提取的第t个特征词语的总长度；τ
l
表示按照词长为l截取特征词语的字符的权重因子；v
lt
表示提取的第t个特征词语按照词长为l截取的字符与标准特征词语不相同的字符数量。
13.如上的，其中，预先设定标准词库，标准词库中包含标准特征词语。
14.如上的，其中，请求端身份信息包括ip地址和请求端所属的企业类别。
15.本技术还提供一种网站数据访问控制系统，该系统包括：
16.信息获取模块，用于获取请求端的身份信息和其请求访问的网站类别信息；
17.第一数据处理器，用于根据请求端身份信息和请求访问的网站类别信息，计算请求端访问网站数据的第一匹配值；
18.第一比较器，用于比较第一匹配值和预设第一阈值的大小，若第一匹配值大于预设第一阈值，则采集请求端请求获取数据内容的摘要信息；否则，禁止请求端访问数据。
19.摘要信息采集模块，用于采集请求端请求获取数据内容的摘要信息。
20.如上的，其中，一种网站数据访问控制系统还包括：
21.第二数据处理器，用于根据采集的请求端请求获取数据内容的摘要信息，以及请求端的身份信息，计算请求端访问网站数据的第二匹配值；
22.第二比较器，用于比较请求端访问网站数据的第二匹配值与预设第二阈值的大小，若请求端访问网站数据的第二匹配值大于预设第二阈值，则允许请求端访问其请求的数据，否则，禁止请求端访问其请求的数据。
23.如上的，其中，第二数据处理器包括：
24.提取模块，用于根据请求端请求获取数据内容的摘要信息，提取请求获取数据内容的特征词语；
25.第一子计算器，用于计算提取的特征词语与标准词库中标准特征词语的第一相关值，
26.第一子获取模块，用于获取第一相关值最大的标准特征词语作为提取的特征词语的映射词语，并记录对应的第一相关值；
27.第二子计算器，用于根据提取的请求获取数据内容的特征词语、第一相关值和请求端身份，计算请求端访问网站数据的第二匹配值。
28.如上的，其中，一种网站数据访问控制系统还包括数据存储模块，用于存储预设的非法范围域，非法范围域包括非法的i p地址。
29.本技术实现的有益效果如下：
30.(1)本技术根据请求端身份信息和请求访问的网站类别信息，计算请求端访问网站数据的第一匹配值；若第一匹配值大于预设第一阈值，则采集请求端请求获取数据内容的摘要信息；否则，禁止请求端访问数据，使得请求端身份信息与请求的网站类别信息高度相关，提高数据访问的精准性和安全性。
31.(2)本技术根据采集的请求端请求获取数据内容的摘要信息，以及请求端的身份信息，计算请求端访问网站数据的第二匹配值，若请求端访问网站数据的第二匹配值大于预设第二阈值，则允许请求端访问其请求的数据，否则，禁止请求端访问其请求的数据，进一步提高了数据访问的精准性和安全性。
附图说明
32.为了更清楚地说明本技术实施例或现有技术中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本技术中记载的一些实施例，对于本领域技术人员来讲，还可以根据这些附图获得其他的附图。
33.图1为本技术实施例的一种网站数据访问控制方法的流程图。
34.图2为本技术实施例的计算请求端访问网站数据的第二匹配值的方法流程图。
35.图3为本技术实施例的一种网站数据访问控制系统结构示意图。
36.图4为本技术实施例的第二数据处理器的结构示意图。
37.附图标记：10
‑
信息获取模块；20
‑
第一数据处理器；30
‑
第一比较器；40
‑
摘要信息采集模块；50
‑
第二数据处理器；51
‑
提取模块；52
‑
第一子计算器；53
‑
第一子获取模块；54
‑
第二子计算器；60
‑
第二比较器；100
‑
网站数据访问控制系统。
具体实施方式
38.下面结合本技术实施例中的附图，对本技术实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例是本技术一部分实施例，而不是全部的实施例。基于本技术中的实施例，本领域技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本技术保护的范围。
39.实施例一
40.如图1所示，本技术提供一种网站数据访问控制方法，该方法包括如下步骤：
41.步骤s1，获取请求端的身份信息和其请求访问的网站类别信息。
42.其中，请求端身份包括ip地址、请求端所属的企业类别和请求端的经营业务类别。
43.其中，预设非法范围域，非法范围域包括非法的ip地址，根据非法范围域判断ip地址是否为非法。
44.其中，网站类别信息包括政府类网站、金融类网站、娱乐类网站、购物类网站、企业类网站、知识类网站、科技类网站和新闻类网站等。
45.步骤s2，根据请求端身份信息和请求访问的网站类别信息，计算请求端访问网站数据的第一匹配值。
46.具体的，请求端访问网站数据的第一匹配值qw的计算公式为：
[0047][0048]
其中，qw表示请求端访问网站数据的第一匹配值；θ
ip
表示请求端ip地址是否为非法范围域；若否，则θ
ip
为1；若是，则θ
ip
为0；sn表示请求端的经营业务类别属于请求获取数据的网站类别的业务范畴总个数；bn表示请求端的经营业务类别不属于请求获取数据的网站类别的业务范畴总个数；s表示请求端第s个经营业务类别；s1表示请求端经营业务类别总个数；w1s表示请求端第s个经营业务类别的核心值；yus表示请求端第s个经营业务类别是否属于请求获取数据的网站类别的业务范畴，若是，则yus为1；否则，yus为0；e＝2.718。
[0049]
作为本发明的具体实施例，请求端的经营业务类别为理财规划，则属于金融类网站的业务范畴；请求端的经营业务类别为科研开发，则属于科技类网站的业务范畴；请求端
的经营业务类别为新闻广播，则属于新闻类网站的业务范畴。
[0050]
步骤s3，比较第一匹配值和预设第一阈值的大小，若第一匹配值大于预设第一阈值，则采集请求端请求获取数据内容的摘要信息；否则，禁止请求端访问数据。
[0051]
其中，采集请求端请求获取数据内容的摘要信息的方法为：系统弹出要求请求端输入获取数据内容的摘要信息的对话框，由请求端将其想要获取数据内容的摘要信息输入到对话框内，系统根据请求端输入的内容采集请求端请求获取数据内容的摘要信息。
[0052]
步骤s4，根据采集的请求端请求获取数据内容的摘要信息，以及请求端的身份信息，计算请求端访问网站数据的第二匹配值。
[0053]
如图2所示，步骤s4包括如下子步骤：
[0054]
步骤s410，根据请求端请求获取数据内容的摘要信息，提取请求获取数据内容的特征词语。
[0055]
作为本发明的具体实施例，预先设定标准词库，标准词库中包含标准特征词语。
[0056]
标准特征词语包括“政府文件”、“视频”、“论文”、“科技”、“金融产品”、“财务”、“人力”、“人资”、“铺售”、“产品”、“汇报”和“总结”等。
[0057]
其中，预先根据请求端身份为请求端匹配相关性特征词语和对应的相关值，预先设定与网站类别相关的特征词语和对应的相关值。
[0058]
步骤s420，计算提取的特征词语与标准特征词语的第一相关值，获取第一相关值最大的标准特征词语作为提取的特征词语的映射词语，并记录对应的第一相关值。
[0059]
具体的，第一相关值的计算公式为：
[0060][0061]
其中，ω表示提取的特征词语与标准特征词语的第一相关值；o
lt
表示提取的第t个特征词语按照词长为l截取特征词语的字符中与标准特征词语相同的字符数量；l
t
表示提取的第t个特征词语的总长度；τ
l
表示按照词长为l截取特征词语的字符的权重因子；v
lt
表示提取的第t个特征词语按照词长为l截取的字符与标准特征词语不相同的字符数量。
[0062]
步骤s430，根据提取的请求获取数据内容的特征词语、第一相关值和请求端身份，计算请求端访问网站数据的第二匹配值。
[0063]
具体的，请求端访问网站数据的第二匹配值的计算公式为：
[0064][0065]
其中，p表示请求端访问网站数据的第二匹配值；δ表示网站类别的开放值；qw表示请求端访问网站数据的第一匹配值；t表示提取的第t个特征词语；t表示提取的特征词语总个数；ω
tmax
表示提取的第t个特征词语与标准特征词语的最大第一相关值；e＝2.718；nxt表示提取的第t个特征词语映射的标准特征词语属于根据请求端身份为请求端匹配的相关性特征词语中的个数；nbt表示提取的第t个特征词语映射的标准特征词语不属于根据请求端身份为请求端匹配的相关性特征词语中的个数；μ表示提取的特征词语映射的第μ个与请求端相关的标准特征词语；be表示提取的特征词语映射的标准特征词语中与请求端相关的特征词语总个数；q1
μ
表示第μ个与请求端相关的标准特征词语的相关值。
[0066]
其中，为请求端设定相关的标准特征词语表格，该表格包含不同请求端相关的标准特征词语和对应的相关值。
[0067]
其中，开放范围越广的网站类别开放值越大，网站类别的开放值为根据其开放范围预先设定的，政府类网站、企业类网站、知识类网站、科技类网站、金融类网站、新闻类网站、娱乐类网站和购物类网站的开放范围依次增大，开放值也依次增大。
[0068]
步骤s5，比较请求端访问网站数据的第二匹配值与预设第二阈值的大小，若请求端访问网站数据的第二匹配值大于预设第二阈值，则允许请求端访问其请求的数据，否则，禁止请求端访问其请求的数据。
[0069]
作为本发明的具体实施例，请求端通过空闲的网站接入端口访问其请求获取的数据。
[0070]
实施例二
[0071]
如图3所示，本技术提供一种网站数据访问控制系统，该系统包括：
[0072]
信息获取模块10，用于获取请求端的身份信息和其请求访问的网站类别信息；
[0073]
第一数据处理器20，用于根据请求端身份信息和请求访问的网站类别信息，计算请求端访问网站数据的第一匹配值；
[0074]
第一比较器30，用于比较第一匹配值和预设第一阈值的大小，若第一匹配值大于预设第一阈值，则采集请求端请求获取数据内容的摘要信息；否则，禁止请求端访问数据。
[0075]
摘要信息采集模块40，用于采集请求端请求获取数据内容的摘要信息。
[0076]
一种网站数据访问控制系统还包括：
[0077]
第二数据处理器50，用于根据采集的请求端请求获取数据内容的摘要信息，以及请求端的身份信息，计算请求端访问网站数据的第二匹配值；
[0078]
第二比较器60，用于比较请求端访问网站数据的第二匹配值与预设第二阈值的大小，若请求端访问网站数据的第二匹配值大于预设第二阈值，则允许请求端访问其请求的数据，否则，禁止请求端访问其请求的数据。
[0079]
如图4所示，第二数据处理器50包括：
[0080]
提取模块51，用于根据请求端请求获取数据内容的摘要信息，提取请求获取数据内容的特征词语；
[0081]
第一子计算器52，用于计算提取的特征词语与标准词库中标准特征词语的第一相关值，
[0082]
第一子获取模块53，用于获取第一相关值最大的标准特征词语作为提取的特征词语的映射词语，并记录对应的第一相关值；
[0083]
第二子计算器54，用于根据提取的请求获取数据内容的特征词语、第一相关值和请求端身份，计算请求端访问网站数据的第二匹配值。
[0084]
一种网站数据访问控制系统系统还包括数据存储模块，用于存储预设的非法范围域，非法范围域包括非法的ip地址。
[0085]
具体的，请求端访问网站数据的第一匹配值qw的计算公式为：
[0086][0087]
其中，qw表示请求端访问网站数据的第一匹配值；θ
ip
表示请求端ip地址是否为非
法范围域；若否，则θ
ip
为1；若是，则θ
ip
为0；sn表示请求端所属的企业类别的经营业务类别属于请求获取数据的网站类别的业务范畴总个数；bn表示请求端所属的企业类别的经营业务类别不属于请求获取数据的网站类别的业务范畴总个数；s表示请求端所属的企业类别的第s个经营业务类别；s1表示请求端所属的企业类别的经营业务类别总个数；w1s表示请求端第s个经营业务类别的核心值；yus表示请求端第s个经营业务类别是否属于请求获取数据的网站类别的业务范畴，若是，则yus为1；否则，yus为0；e＝2.718。
[0088]
作为本发明的具体实施例，请求端的经营业务类别为理财规划，则属于金融类网站的业务范畴；请求端的经营业务类别为科研开发，则属于科技类网站的业务范畴；请求端的经营业务类别为新闻广播，则属于新闻类网站的业务范畴。
[0089]
具体的，第一相关值的计算公式为：
[0090][0091]
其中，ω表示提取的特征词语与标准特征词语的第一相关值；o
lt
表示提取的第t个特征词语按照词长为l截取特征词语的字符中与标准特征词语相同的字符数量；l
t
表示提取的第t个特征词语的总长度；τ
l
表示按照词长为l截取特征词语的字符的权重因子；v
lt
表示提取的第t个特征词语按照词长为l截取的字符与标准特征词语不相同的字符数量。
[0092]
具体的，请求端访问网站数据的第二匹配值的计算公式为：
[0093][0094]
其中，p表示请求端访问网站数据的第二匹配值；δ表示网站类别的开放值；qw表示请求端访问网站数据的第一匹配值；t表示提取的第t个特征词语；t表示提取的特征词语总个数；ω
tmax
表示提取的第t个特征词语与标准特征词语的最大第一相关值；e＝2.718；nxt表示提取的第t个特征词语映射的标准特征词语属于根据请求端身份为请求端匹配的相关性特征词语中的个数；nbt表示提取的第t个特征词语映射的标准特征词语不属于根据请求端身份为请求端匹配的相关性特征词语中的个数；μ表示提取的特征词语映射的第μ个与请求端相关的标准特征词语；be表示提取的特征词语映射的标准特征词语中与请求端相关的特征词语总个数；q1
μ
表示第μ个与请求端相关的标准特征词语的相关值。
[0095]
其中，开放范围越广的网站类别开放值越大，网站类别的开放值为根据其开放范围预先设定的，政府类网站、企业类网站、知识类网站、科技类网站、金融类网站、新闻类网站、娱乐类网站和购物类网站的开放范围依次增大，开放值也依次增大。
[0096]
本技术实现的有益效果如下：
[0097]
(1)本技术根据请求端身份信息和请求访问的网站类别信息，计算请求端访问网站数据的第一匹配值；若第一匹配值大于预设第一阈值，则采集请求端请求获取数据内容的摘要信息；否则，禁止请求端访问数据，使得请求端身份信息与请求的网站类别信息高度相关，提高数据访问的精准性和安全性。
[0098]
(2)本技术根据采集的请求端请求获取数据内容的摘要信息，以及请求端的身份信息，计算请求端访问网站数据的第二匹配值，若请求端访问网站数据的第二匹配值大于预设第二阈值，则允许请求端访问其请求的数据，否则，禁止请求端访问其请求的数据，进一步提高了数据访问的精准性和安全性。
[0099]
上所述仅为本发明的实施方式而已，并不用于限制本发明。对于本领域技术人员来说，本发明可以有各种更改和变化。凡在本发明的精神和原理的内所做的任何修改、等同替换、改进等，均应包括在本发明的权利要求范围之内。

转载请注明原文地址:https://doc.8miu.com/read-1350369.html

专利

最新回复(0)