本发明属于信息管理的技术领域,特别是涉及一种知识驱动的企业信息管理方法、系统及存储介质。
背景技术:
随着人工智能技术和机器认知智能的飞速发展,高新技术产业园区对企业数据的管理需求由传统的存储需求上升为智能分析需求,对企业信息数据的查询速度、数据信息关联度、企业数据信息解读有了更高层次的要求。
在传统的数据管理方法中,使用计算机解决问题主要采用数据驱动的方法,也就是从样本数据中建立统计模型,挖掘统计规律来解决问题。为了提高效果,数据驱动的方法通常需要较多样本数据。但是,即使样本数据量再大,单纯的数据驱动方法的效果也会受到限制,数据质量同样深刻的影响着数据驱动方法的应用,需要通过知识引导的方法突破数据驱动的“天花板”。
技术实现要素:
本发明为解决上述背景技术中存在的技术问题,通过本体建模的方式高新技术园区提供一种知识驱动的企业信息管理方法、系统及介质,有效提高园区内企业信息的快速查询、企业信息纠错、园区内企业关系计算出,并对园区内企业的发展前景进行预测,提高高新技术园区内企业管理效率。
本发明采用以下技术方案:一种知识驱动的企业信息处理方法,包括:
从数据库的原始数据(企业信息数据库、报表等)中提取待分析数据;
构建数据字典,规范待分析数据中的数据本体的概念和语义;
基于数据字典,从待分析数据中抽取层次关系和非层次关系;
对数据本体的属性增加约束函数;导入数据库中的其他原始数据,经转换创建数据本体的个体实例;
构建模型实现原始数据之间潜在关系的挖掘与补全。
根据本发明的一个方面,所述构建数据字典是根据本体的范围和领域,罗列出本体中重要的概念,并将概念梳理成数据字典,确定概念的数据类型和取值范围。
在进一步的实施例中,所述构建数据字典具体包括以下步骤:
对待分析数据进行术语抽取;
对抽取的数据进行语义分析;
在语义分析后的数据中进行概念抽取,形成数据字典。
根据本发明的一个方面,所述术语抽取的步骤具体包括:要对数据进行预处理,包括格式转换、去噪、分词、词性标注;采用统计或规则的方法从数据中提取候选术语,通过统计参数或规则过滤候选术语以获取领域术语列表。
根据本发明的一个方面,所述语义分析采用lpir-parser大数据语义智能分析平台,实现精准采集,文档格式转换、新词发现、批量分词、语言统计、文本聚类、文本分类、摘要实体、智能过滤、情感分析、文档去重。
根据本发明的一个方面,所述概念抽取,将领域文档集通过分词工具进行分词、词性标注,通过单字合并法得到一部分含有单字的概念集合,经领域专家审核后形成概念集合。
在进一步的实施例中,所述层次关系表示:概念间的结构性上下层关系;
所述非层次关系表示:除上下层关系外所有的其他关系。具体包括:因果关系、整体部分关系、序列关系、领域专有关系。
在进一步的实施例中,对数据属性增加约束函数,增加约束函数是对概念的范围进行限制,使用手动的方式实现对数据属性约束函数的编辑。
在进一步的实施例中,创建数据本体的个体实例具体包括:
建议原始数据与数据本体之间的映射,导入个体实例。具体包括:将存储在数据库中的数据转换为rdf数据,建立数据库文件到定义好的本体之间的映射。
在进一步的实施例中,构建模型具体包括:在已经建立的数据本体基础上,从数据库中显式包含的知识推导出隐含表示的知识,对有空缺值的数据进行补全,或者根据客户需求对指定项目进行知识挖掘。具体包括:根据企业的财务,人力等显式包含的知识,计算出出企业的经营状况、企业规模、企业发展态势。
一种知识驱动的企业信息处理系统,包括:
第一模块,所述第一模块被设置为从数据库的原始数据中提取待分析数据;
第二模块,所述第二模块被设置为构建数据字典,规范待分析数据中的数据本体的概念和语义;
第三模块,被设置为基于数据字典,从待分析数据中抽取层次关系和非层次关系;
第四模块,被设置为对数据本体的属性增加约束函数;导入数据库中的其他原始数据,经转换创建数据本体的个体实例;
第五模块,被设置为构建模型实现原始数据之间潜在关系的挖掘与补全。
有益效果:大幅提高园区内企业信息的管理效率、管理质量,有效实现园区内企业信息纠错、企业发展前景预测,有利于推动园区内企业内循环合作,改善园区内合作环境;通过对园区内企业信息的建模已经知识计算出,解决了园区对企业真实运作情况进行监控把握的问题,为如何调整园区内企业扶持政策提供了依据与决策建议。
附图说明
图1是根据本发明实施例的本体建模流程图。
图2是根据本发明实施例的本体建模流程中数据字典构建流程图。
图3是根据本发明实施例的本体可视化图。
具体实施方式
为使本发明实施例的目的、技术方案和优点更加清楚,下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
本发明实施例提供一种知识驱动的企业信息处理方法,包括:
从数据库的原始数据(企业信息数据库、报表等)中提取待分析数据;
构建数据字典,规范待分析数据中的数据本体的概念和语义;
基于数据字典,从待分析数据中抽取层次关系和非层次关系;
对数据本体的属性增加约束函数;导入数据库中的其他原始数据,经转换创建数据本体的个体实例;
构建模型实现原始数据之间潜在关系的挖掘与补全。
在一个实施例中,从数据源中抽取待分析数据,使用数据仓储技术etl(extractiontransformationloading)技术从分散在不同地区、种类繁多的异构数据源中进行数据整合,获取待治理数据。
在一个实施例中,确定本体的领域和范围,构建数据字典;构建数据字典是用于存储有关数据的来源、说明、与其他数据的关系、用途和格式等信息,目的是为了提高开发效率,促进数据共享,控制数据的使用。
在一个实施例中,抽取层次关系与非层次关系;关系抽取是将非结构化或半结构化描述的自然语言文本转化成结构化数据,关系抽取主要负责从文本中识别出实体,抽取实体间的语义关系。
在另一个实施例中,层次关系表示概念间的结构性上下层关系,非层次关系是除上下层关系外所有的其他关系,具体包括:因果关系、整体部分关系、序列关系、领域专有关系。
在一个实施例中,对数据属性增加约束函数;设置约束函数的目的是描述个体之间的关系,基本关系包括:函数关系、逆函数关系、传递关系、逆传递关系、对称关系、反对称关系、自反性关系、非自反性关系、否定关系。
在一个实施例中,从数据库中导入数据,创建个体;创建个体是建立数据库数据与本体之间的映射,导入实例,具体包括:将存储在数据库中的数据转换为rdf数据,建立数据库文件到本发明中已经建立好的本体之间的映射。
创建个体的工具为protégé软件的cellfie模块,遵循mappingmasterdsl语法规则,使用领域特定语言(dsl)定义从电子表格内容到owl本体的映射。
建立模型,模型使用swrl语言,采用rdf方式以owl rdf进行描述,将模型和本体相结合。
如图1所示,一种面向高新技术园区的领域本体构建及园区管理方法具体步骤如下:
步骤1、使用etl技术从分散在不同地区、种类繁多的异构数据源中进行数据整合,获取待治理数据;
步骤2、确定本体的领域和范围,构建数据字典,存储有关数据的来源、说明、与其他数据的关系、用途和格式等信息;
步骤3、根据数据字典,从待分析数据中抽取层次关系与非层次关系,将非结构化或半结构化描述的自然语言文本转化成结构化数据,从文本中识别出实体,抽取实体间的语义关系;
步骤4、对数据属性增加约束函数,对数据属性的范围进行限制,使用手动的方式实现对数据属性约束函数的编辑;
步骤5、通过protégé软件的内置模块,从数据库中导入数据,创建个体;
步骤6、使用swrl语言建立模型,将模型和本体相结合,。
在一个实施例中,步骤2的流程图如图2所示,具体步骤如下:
步骤2.1、对待分析数据进行术语抽取;
步骤2.2、对抽取的数据进行语义分析;
步骤2.3、在语义分析后的数据中进行概念抽取,形成数据字典。
在进一步的实施例中,步骤2.1中术语抽取采用规则与统计相结合的方法,使用参数f-mi抽取简单质词,质子串分解方法抽取复杂结构合词,有效提高术语抽取的准确率。
在更进一步的实施例中,步骤2.2中语义分析采用的技术工具为lpir-parser大数据语义智能分析平台,实现精准采集,文档格式转换、新词发现、批量分词、语言统计、文本聚类、文本分类、摘要实体、智能过滤、情感分析、文档去重。
在更进一步的实施例中,步骤2.3中概念抽取,采用点互信息(pointwisemutualinformation,pmi)的方法检测两个子串间的结合强度,将领域文档集通过分词工具进行分词、词性标注,通过单字合并法得到一部分含有单字的概念集合,经领域专家审核后形成概念集合。
在更进一步的实施例中,点互信息方法定义为
其中,p(x),p(y)分别表示字符串x、y单独出现的频率,p(z)表示子串x、y共现的概率;p(x)与p(z)或p(y)与p(z)的值越接近,子串x的互信息值越高,x或y越有可能是构造出来的缺陷术语;反之则说明子串间关联度不大。
在一个实施例中,步骤3中抽取层次关系采用基于形式概念分析(formalconceptanalysis,fca)的方法,根据二元关系表示的形式背景,从中提取概念层次的结构,即概念格;将fca与规则语言相结合进行半自动层次关系抽取,具体步骤如下:
步骤3.1、从特定领域的文本或数据中提取形式背景,其三元组中对象为具体的文本实体,属性为名词短语;
步骤3.2、采用fca概念格约减的方法,由形式背景生成概念格;
步骤3.3、通过fca与规则语言的映射关系,将概念格转换成hom逻辑;
步骤3.4、通过增加的规则和事实来扩展初始概念格,概念层次通过概念格直接获得。
在更进一步的实施例中,步骤3中抽取非层次关系采用基于监督学习的方法,训练两个分类器,第一个分类器是1/0分类,判断命名实体间是否有关系;第二个分类器是多分类器,第一个分类器判断有关系再输入到这个分类器,预测关系的类别,先排除大多数的实体对,进而加快分类器的训练过程。
在一个实施例中,对数据属性增加约束函数,通过在protégé软件添加完成,目的是描述个体之间的关系,基本关系包括:函数关系、逆函数关系、传递关系、逆传递关系、对称关系、反对称关系、自反性关系、非自反性关系、否定关系。
在一个实施例中,从数据库中导入数据,创建个体,使用protégé内置模块cellfie实现这一过程,期间需要用到transformationrules,其语法规则需要遵循mappingmasterdsl;mappingmaster使用领域特定语言(dsl)定义从电子表格内容到owl本体的映射;该语言基于曼彻斯特owl语法,改语法的本身就是用来描述owl本体的领域特定语言。
在一个实施例中,使用swrl语言建立模型,将模型和本体相结合,。
在更进一步的实施例中,swrl由imp、atom、variable和building四个部分组成;atom用于定义条件判断和限制式;imp用于定义规则,其限制式有atom提供;building用于定义各种逻辑比较关系,包括数值比较、布尔运算、字符串操作。
在更进一步的实施例中,swrl规则主要使用的限制式包括:
c(x):x可以是变量或本体的实例,c是类,说明x是c的一个实例,如parent(?x),说明parent是一个类;
p(x,y):x,y可以是变量或本体的实例,p是对象属性,如hasbrother(?x,?y),说明y是x的兄弟。
通过上述的一种面向高新技术园区的领域本体构建及园区管理方法,本发明通过对待分析数据进行术语抽取、语义分析、概念抽取,创建了数据字典,确定本体的领域和范围;通过基于形式概念分析的方法和监督学习的方法抽取各概念间的层次关系与非层次关系;在protégé软件对各概念增加函数约束关系;通过cellfie模块实现本体与数据库数据的映射;通过swrl语言建立模型,实现对园区内企业的管理。面向高新技术园区的信息管理需求,本发明通过构建的领域本体,实现园区内信息的快速查询、企业信息纠错、园区内企业关系计算出,并对园区内企业的发展前景进行预测;本发明可有效提高高新技术园区内企业管理效率,同时对园区内部分企业进行过滤。
在进一步的实施例中,一种知识驱动的企业信息处理系统,包括:
第一模块,所述第一模块被设置为从数据库的原始数据中提取待分析数据;
第二模块,所述第二模块被设置为构建数据字典,规范待分析数据中的数据本体的概念和语义;
第三模块,被设置为基于数据字典,从待分析数据中抽取层次关系和非层次关系;
第四模块,被设置为对数据本体的属性增加约束函数;导入数据库中的其他原始数据,经转换创建数据本体的个体实例;
第五模块,被设置为构建模型实现原始数据之间潜在关系的挖掘与补全。
所述构建数据字典具体包括以下步骤:
对待分析数据进行术语抽取;
对抽取的数据进行语义分析;
在语义分析后的数据中进行概念抽取,形成数据字典。
根据本发明的一个方面,所述术语抽取的步骤具体包括:要对数据进行预处理,包括格式转换、去噪、分词、词性标注;采用统计或规则的方法从数据中提取候选术语,通过统计参数或规则过滤候选术语以获取领域术语列表。
根据本发明的一个方面,所述语义分析采用lpir-parser大数据语义智能分析平台,实现精准采集,文档格式转换、新词发现、批量分词、语言统计、文本聚类、文本分类、摘要实体、智能过滤、情感分析、文档去重。
根据本发明的一个方面,所述概念抽取,将领域文档集通过分词工具进行分词、词性标注,通过单字合并法得到一部分含有单字的概念集合,经领域专家审核后形成概念集合。
在进一步的实施例中,所述层次关系表示:概念间的结构性上下层关系;
所述非层次关系表示:除上下层关系外所有的其他关系。具体包括:因果关系、整体部分关系、序列关系、领域专有关系。
在进一步的实施例中,对数据属性增加约束函数,增加约束函数是对概念的范围进行限制,使用手动的方式实现对数据属性约束函数的编辑。
在进一步的实施例中,创建数据本体的个体实例具体包括:
建议原始数据与数据本体之间的映射,导入个体实例。具体包括:将存储在数据库中的数据转换为rdf数据,建立数据库文件到定义好的本体之间的映射。
在进一步的实施例中,构建模型具体包括:在已经建立的数据本体基础上,从数据库中显式包含的知识推导出隐含表示的知识,对有空缺值的数据进行补全,或者根据客户需求对指定项目进行知识挖掘。具体包括:根据企业的财务,人力等显式包含的知识,计算出出企业的经营状况、企业规模、企业发展态势。
另外需要说明的是,在上述具体实施方式中所描述的各个具体技术特征,在不矛盾的情况下,可以通过任何合适的方式进行组合。为了避免不必要的重复,本发明对各种可能的组合方式不再另行说明。
1.一种知识驱动的企业信息处理方法,其特征在于,包括:
从数据库的原始数据中提取待分析数据;
构建数据字典,规范待分析数据中的数据本体的概念和语义;
基于数据字典,从待分析数据中抽取层次关系和非层次关系;
对数据本体的属性增加约束函数;导入数据库中的其他原始数据,经转换创建数据本体的个体实例;
构建模型实现原始数据之间潜在关系的挖掘与补全。
2.根据权利要求1所述的一种知识驱动的企业信息处理方法,其特征在于,
构建数据字典是依据数据本体的范围和领域构建而成。
3.根据权利要求2述的一种知识驱动的企业信息处理方法,其特征在于,
所述构建数据字典具体包括以下步骤:
对待分析数据进行术语抽取;
对抽取的数据进行语义分析;
在语义分析后的数据中进行概念抽取,形成数据字典。
4.根据权利要求1所述的一种知识驱动的企业信息处理方法,其特征在于,
所述层次关系表示:概念间的结构性上下层关系;
所述非层次关系表示:除上下层关系外所有的其他关系。
5.根据权利要求1所述的一种知识驱动的企业信息处理方法,其特征在于,
增加约束函数是对概念的范围进行限制,使用手动的方式实现对数据属性约束函数的定义。
6.根据权利要求1所述的一种知识驱动的企业信息处理方法,其特征在于,
创建数据本体的个体实例具体包括:
建议原始数据与数据本体之间的映射,导入个体实例。
7.根据权利要求1所述的一种知识驱动的企业信息处理方法,其特征在于,
构建模型具体包括:在已经建立的数据本体基础上,从数据库中显式包含的知识推导出隐含表示的知识,对有空缺值的数据进行补全,或者根据客户需求对指定项目进行知识挖掘。
8.一种知识驱动的企业信息处理系统,其特征在于,包括
第一模块,所述第一模块被设置为从数据库的原始数据中提取待分析数据;
第二模块,所述第二模块被设置为构建数据字典,规范待分析数据中的数据本体的概念和语义;
第三模块,被设置为基于数据字典,从待分析数据中抽取层次关系和非层次关系;
第四模块,被设置为对数据本体的属性增加约束函数;导入数据库中的其他原始数据,经转换创建数据本体的个体实例;
第五模块,被设置为构建模型实现原始数据之间潜在关系的挖掘与补全。
9.一种存储介质,其特征在于,
所述存储介质计算机程序,所述计算机程序被处理器执行时实现如权利要求1-7任意一项所述的知识驱动的企业信息处理方法。
技术总结