本发明属于软件开发领域,特别涉及一种快速开发国标终端协议的方法及装置。
背景技术:
随着国家对各种行业的管控越来越正规化,相对应的各种行业标准协议的更新迭代在不断的加快速度,jt/t808-2011jt/t808-2019jt/t1078-2016等标准通讯协议的开发、平台搭建成了从事相关行业的硬性标准。而协议的解析工作,繁琐而且重复性高,涉及面很广,但是有一定的规则可循。
现有技术是需要研发人员重复人工解析各种协议功能,开发成本比较高,且出错和调试难度大。
随着各种合规化的建设,协议解析和合规化平台的搭建越来越频繁,而且更新迭代速度也在不断加快;研发人员需要不断地耗费大量的时间开发,往往导致开发成本的大幅提高。
技术实现要素:
针对相关技术中的上述技术问题,本发明提出一种快速开发国标终端协议的方法及装置,能够克服现有技术的上述不足。
为实现上述技术目的,本发明的技术方案是这样实现的:
一种快速开发国标终端协议的方法,该方法包括:
构建协议语料库;
对协议语料预处理,其中,所述预处理包括:分词;
将分词后的字和词语表示成应用于计算机计算的表示模型,其中,所述表示模型包括:特征向量;
对所述特征向量进行特征选择,选出特征子集;
依据所述特征子集,构建训练模型;
提交解析训练模型的协议;
根据协议,解析训练模型,生成骨架代码,对所述骨架代码进行改进,测试所述骨架代码;
根据所述骨架代码测试结果,修改训练模型。
进一步的,所述构建协议语料库的方式,包括:
从网络上下载国际协议和/或抓取语料。
进一步的,所述对协议语料预处理,还包括:
数据清洗;
词性标注;
去停用词。
进一步的,所述表示模型,还包括:词袋模型。
进一步的,所述构建模型,包括:模型与语料库中的连接代码相对应。
另一方面,本发明提出了一种快速开发国标终端协议的装置,该装置包括:
第一构建单元,用于构建协议语料库;
预处理单元,用于对协议语料预处理,其中,所述预处理包括:分词;
表示单元,用于将分词后的字和词语表示成应用于计算机计算的表示模型,其中,所述表示模型包括:特征向量;
特征选择单元,用于对所述特征向量进行特征选择,选出特征子集;
第二构建单元,用于依据所述特征子集,构建训练模型;
提交单元,用于提交解析训练模型的协议;
测试单元,用于根据协议,解析训练模型,生成骨架代码,对所述骨架代码进行改进,测试所述骨架代码;
修改单元,用于根据所述骨架代码测试结果,修改训练模型。
进一步的,所述构建协议语料库的方式,包括:
从网络上下载国际协议和/或抓取语料。
进一步的,所述对协议语料预处理,还包括:
数据清洗;
词性标注;
去停用词。
进一步的,所述表示模型,还包括:词袋模型。
进一步的,所述构建模型,包括:模型与语料库中的连接代码相对应。
本发明的有益效果:通过该方法及装置,构建了一个协议解析的语料库和训练模型,快速地解析各种协议;快速开发,灵活配置,减少了研发人员的开发成本;开发解析相对简单的协议时,无需研发人员参与,一键生成,减少了研发人员的负担。
附图说明
为了更清楚地说明本发明实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作一简单地介绍,显而易见地,下面描述中的附图是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1示出了根据本发明实施例的一种快速开发国标终端协议的方法的流程框图。
具体实施方式
为使本发明实施例的目的、技术方案和优点更加清楚,下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地说明,显然,所描述的实施例是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
如图1所示,一种快速开发国标终端协议的方法,该方法包括:
构建协议语料库;
对协议语料预处理,其中,所述预处理包括:分词;
将分词后的字和词语表示成应用于计算机计算的表示模型,其中,所述表示模型包括:特征向量;
对所述特征向量进行特征选择,选出特征子集;
依据所述特征子集,构建训练模型;
提交解析训练模型的协议;
根据协议,解析训练模型,生成骨架代码,对所述骨架代码进行改进,测试所述骨架代码;
根据所述骨架代码测试结果,修改训练模型。
在本发明的一些实施例中,所述构建协议语料库的方式,包括:
从网络上下载国际协议和/或抓取语料。
在本发明的一些实施例中,所述对协议语料预处理,还包括:
数据清洗;
词性标注;
去停用词。
在本发明的一些实施例中,所述表示模型,还包括:词袋模型。
在本发明的一些实施例中,所述构建模型,包括:模型与语料库中的连接代码相对应。
另一方面,本发明提出了一种快速开发国标终端协议的装置,该装置包括:
第一构建单元,用于构建协议语料库;
预处理单元,用于对协议语料预处理,其中,所述预处理包括:分词;
表示单元,用于将分词后的字和词语表示成应用于计算机计算的表示模型,其中,所述表示模型包括:特征向量;
特征选择单元,用于对所述特征向量进行特征选择,选出特征子集;
第二构建单元,用于依据所述特征子集,构建训练模型;
提交单元,用于提交解析训练模型的协议;
测试单元,用于根据协议,解析训练模型,生成骨架代码,对所述骨架代码进行改进,测试所述骨架代码;
修改单元,用于根据所述骨架代码测试结果,修改训练模型。
在本发明的一些实施例中,所述构建协议语料库的方式,包括:
从网络上下载国际协议和/或抓取语料。
在本发明的一些实施例中,所述对协议语料预处理,还包括:
数据清洗;
词性标注;
去停用词。
在本发明的一些实施例中,所述表示模型,还包括:词袋模型。
在本发明的一些实施例中,所述构建模型,包括:模型与语料库中的连接代码相对应。
语料库:指经科学取样和加工的大规模电子文本库。借助计算机分析工具,研究者可开展相关的语言理论及应用研究。
对于协议解析的开发成本问题,搭建一套可通过配置自动生成相应代码的系统,通过快速编写少量页面规则代码和协议规则配置解析的后台功能配置,实现标准协议开发的方案,这样既减少了开发人员的开发成本,也避免了不必要的重复造车轮的代码编写,也减少了出错的几率。
通过该方法及装置,构建了一个协议解析的语料库和训练模型,快速地解析各种协议;快速开发,灵活配置,减少了研发人员的开发成本;开发解析相对简单的协议时,无需研发人员参与,一键生成,减少了研发人员的负担。
尽管参照前述实施例对本发明进行了详细的说明,本领域的普通技术人员应当理解:其依然可以对前述各实施例所记载的技术方案进行修改,或者对其中部分技术特征进行等同替换;而这些修改或者替换,并不使相应技术方案的本质脱离本发明各实施例技术方案的精神和范围。
1.一种快速开发国标终端协议的方法,其特征在于,包括:
构建协议语料库;
对协议语料预处理,其中,所述预处理包括:分词;
将分词后的字和词语表示成应用于计算机计算的表示模型,其中,所述表示模型包括:特征向量;
对所述特征向量进行特征选择,选出特征子集;
依据所述特征子集,构建训练模型;
提交解析训练模型的协议;
根据协议,解析训练模型,生成骨架代码,对所述骨架代码进行改进,测试所述骨架代码;
根据所述骨架代码测试结果,修改训练模型。
2.根据权利要求1所述的一种快速开发国标终端协议的方法,其特征在于,所述构建协议语料库的方式,包括:
从网络上下载国际协议和/或抓取语料。
3.根据权利要求1所述的一种快速开发国标终端协议的方法,其特征在于,所述对协议语料预处理,还包括:
数据清洗;
词性标注;
去停用词。
4.根据权利要求1所述的一种快速开发国标终端协议的方法,其特征在于,所述表示模型,还包括:词袋模型。
5.根据权利要求1所述的一种快速开发国标终端协议的方法,其特征在于,所述构建模型,包括:模型与语料库中的连接代码相对应。
6.一种快速开发国标终端协议的装置,其特征在于,包括:
第一构建单元,用于构建协议语料库;
预处理单元,用于对协议语料预处理,其中,所述预处理包括:分词;
表示单元,用于将分词后的字和词语表示成应用于计算机计算的表示模型,其中,所述表示模型包括:特征向量;
特征选择单元,用于对所述特征向量进行特征选择,选出特征子集;
第二构建单元,用于依据所述特征子集,构建训练模型;
提交单元,用于提交解析训练模型的协议;
测试单元,用于根据协议,解析训练模型,生成骨架代码,对所述骨架代码进行改进,测试所述骨架代码;
修改单元,用于根据所述骨架代码测试结果,修改训练模型。
7.根据权利要求6所述的一种快速开发国标终端协议的装置,其特征在于,所述构建协议语料库的方式,包括:
从网络上下载国际协议和/或抓取语料。
8.根据权利要求6所述的一种快速开发国标终端协议的装置,其特征在于,所述对协议语料预处理,还包括:
数据清洗;
词性标注;
去停用词。
9.根据权利要求6所述的一种快速开发国标终端协议的装置,其特征在于,所述表示模型,还包括:词袋模型。
10.根据权利要求6所述的一种快速开发国标终端协议的装置,其特征在于,所述构建模型,包括:模型与语料库中的连接代码相对应。
技术总结