一种信息处理方法、系统及存储介质与流程

专利2022-05-09  13



1.本发明涉及信息处理技术领域,特别是涉及一种信息处理方法、系统及存储介质。


背景技术:

2.信息既不是物质也不是能量,是人类在适应外部环境时以及在感知外部环境时而作出协调时与外部环境交换内容的总称。因此,可以认为,信息是人与外界的一种交互通信的信号量。信息就是能够用来消除不确定性的东西,是一个事件发生概率的对数的负值。信息处理就是对信息的接收、存储、转化、传送和发布等。信息与我们的日常工作密不可分。
3.信息加工是对收集来的信息进行去伪存真、去粗取精、由表及里、由此及彼的加工过程。它是在原始信息的基础上,生产出价值含量高、方便用户利用的二次信息的活动过程。这一过程将使信息增值。只有在对信息进行适当处理的基础上,才能产生新的、用以指导决策的有效信息或知识。
4.信息处理就是对信息的接收、存储、转化、传送和发布等。随着计算机科学的不断发展,计算机已经从初期的以“计算”为主的一种计算工具,发展成为以信息处理为主的、集计算和信息处理于一体的、与人们的工作、学习和生活密不可分的一个工具。
5.现有技术信息处理缺乏对信息的分类,单纯对采集到的信息处理,处理效率低,且需要人工进行甄别,智能化程度低。


技术实现要素:

6.鉴于此,本发明的目的是提供一种信息处理方法、系统及存储介质,具有智能化程度高和信息处理效率高。
7.为了实现上述目的,本发明采用如下技术方案:
8.一种信息处理方法,所述方法执行以下步骤:步骤1:采集信息,获得源信息;步骤2:对采集到的信息进行分类;步骤3:对分类后的信息进行信息处理;所述步骤2中,对采集到的信息进行分类的方法包括:将一组源信息分类到至少三个组之一;确定在源信息中是否存在所述至少一个语言相关标识符;如果在所述源信息中不存在所述至少一个标识符,则将所述源信息分类到所述第二组中;如果在所述源信息中存在所述至少一个标识符,则从所述源信息中提取一片断并且判定在所述片断中是否存在至少一个关键词;如果在所述片断中存在至少一个关键词,则将所述源信息分类到所述第一组中,否则将所述源信息分类到所述第三组中;从被分类到所述第三组中的信息中提取特征并形成至少一个特征向量;以及次级分类器,它适用于接收包括所述至少一个特征向量和语言相关模型信息的输入,并且还适用于基于所述至少一个特征向量和所述语言相关模型信息,将与所述至少一个特征向量相关联的源信息分类到所述第一组或所述第二组中。
9.进一步的,所述采集信息,获得源信息的方法执行以下步骤:根据预设的采集任务模板从互联网上获取符合采集要求的一个或多个网页链接地址;对所述一个或多个网页链接地址执行去重操作,并将去重后得到的结果存入地址列表数据文件;修补所述地址列表
数据文件所对应的内容信息的超文本标记语言标签,并对修补后的网页内容进行信息提取;对提取的信息进行自动分类,然后对分类后的信息进行分词处理,并提取所述信息的摘要;将所述信息的分类结果、分词操作得到的词条以及摘要作为源信息。
10.一种信息采集系统,所述系统包括:信息采集装置、信息分类装置和信息处理装置;所述信息采集装置,用于采集信息;所述信息分类装置,用于对采集到的信息进行分类;所述信息处理装置,用于对分类后的信息进行信息处理。
11.进一步的,所述信息分类装置包括:第一分类器,用于将一组源信息分类到至少三个组之一,所述三个组是:包含感兴趣的信息的第一组、包含不感兴趣的信息的第二组、和包含兴趣级别不确定的信息的第三组,所述第一分类器具有包括用于作出其分类决定的至少一个语言相关标识符的输入,其中所述第一分类器执行以下方法:确定在源信息中是否存在所述至少一个语言相关标识符;如果在所述源信息中不存在所述至少一个标识符,则将所述源信息分类到所述第二组中;如果在所述源信息中存在所述至少一个标识符,则从所述源信息中提取一片断并且判定在所述片断中是否存在至少一个关键词;如果在所述片断中存在至少一个关键词,则将所述源信息分类到所述第一组中,否则将所述源信息分类到所述第三组中;特征提取器,用于从被分类到所述第三组中的信息中提取特征并形成至少一个特征向量;以及次级分类器,它适用于接收包括所述至少一个特征向量和语言相关模型信息的输入,并且还适用于基于所述至少一个特征向量和所述语言相关模型信息,将与所述至少一个特征向量相关联的源信息分类到所述第一组或所述第二组中。
12.进一步的,所述信息采集装置包括:址获取模块,用于根据预设的采集任务模板从互联网上获取符合采集要求的一个或多个网页链接地址;地址去重模块,用于对所述一个或多个网页链接地址执行去重操作,并将去重后得到的结果存入地址列表数据文件;标签修补模块,用于修补所述地址列表数据文件所对应的内容信息的超文本标记语言标签;文本信息提取模块,用于对修补后的网页内容进行文本信息提取;自动分类模块,用于对提取的文本信息进行自动分类;分词处理模块,用于对分类后的文本信息进行分词处理;摘要提取模块,用于提取所述文本信息的摘要;结果输出模块,用于将所述文本信息的分类结果、分词操作得到的词条以及摘要输出为源信息。
13.一种信息处理的存储介质,所述存储介质上存储有计算机程序;存储了计算指令,其包括:采集信息,获得源信息的代码段;对采集到的信息进行分类的代码段;对分类后的信息进行信息处理的代码段。
14.进一步的,所述对采集到的信息进行分类的代码段包括:将一组源信息分类到至少三个组之一;确定在源信息中是否存在所述至少一个语言相关标识符;如果在所述源信息中不存在所述至少一个标识符,则将所述源信息分类到所述第二组中;如果在所述源信息中存在所述至少一个标识符,则从所述源信息中提取一片断并且判定在所述片断中是否存在至少一个关键词;如果在所述片断中存在至少一个关键词,则将所述源信息分类到所述第一组中,否则将所述源信息分类到所述第三组中;从被分类到所述第三组中的信息中提取特征并形成至少一个特征向量;以及次级分类器,它适用于接收包括所述至少一个特征向量和语言相关模型信息的输入,并且还适用于基于所述至少一个特征向量和所述语言相关模型信息,将与所述至少一个特征向量相关联的源信息分类到所述第一组或所述第二组中。
15.与现有技术相比,本发明实现的有益效果:通过对信息分类后再对信息进行处理,信息处理的效率高,智能化程度高。
附图说明
16.以下结合附图和具体实施方式来进一步详细说明本发明:
17.图1为本发明实施例公开的信息处理方法的方法流程示意图。
18.图2为本发明实施例公开的信息处理系统的系统结构示意图。
具体实施方式
19.以下由特定的具体实施例说明本发明的实施方式,熟悉此技术的人士可由本说明书所揭露的内容轻易地了解本发明的其他优点及功效。
20.请参阅图1。须知,本说明书所附图式所绘示的结构、比例、大小等,均仅用于配合说明书所揭示的内容,以供熟悉此技术的人士了解与阅读,并非用于限定本发明可实施的限定条件,故不具技术上的实质意义,任何结构的修饰、比例关系的改变或大小的调整,在不影响本发明所能产生的功效及所能达成的目的下,均应仍落在本发明所揭示的技术内容得能涵盖的范围内。同时,本说明书中所引用的如“上”、“下”、“左”、“右”、“中间”及“一”等的用语,亦仅为便于叙述的明了,而非用于限定本发明可实施的范围,其相对关系的改变或调整,在无实质变更技术内容下,当亦视为本发明可实施的范畴。
21.实施例1
22.一种信息处理方法,所述方法执行以下步骤:步骤1:采集信息,获得源信息;步骤2:对采集到的信息进行分类;步骤3:对分类后的信息进行信息处理;所述步骤2中,对采集到的信息进行分类的方法包括:将一组源信息分类到至少三个组之一;确定在源信息中是否存在所述至少一个语言相关标识符;如果在所述源信息中不存在所述至少一个标识符,则将所述源信息分类到所述第二组中;如果在所述源信息中存在所述至少一个标识符,则从所述源信息中提取一片断并且判定在所述片断中是否存在至少一个关键词;如果在所述片断中存在至少一个关键词,则将所述源信息分类到所述第一组中,否则将所述源信息分类到所述第三组中;从被分类到所述第三组中的信息中提取特征并形成至少一个特征向量;以及次级分类器,它适用于接收包括所述至少一个特征向量和语言相关模型信息的输入,并且还适用于基于所述至少一个特征向量和所述语言相关模型信息,将与所述至少一个特征向量相关联的源信息分类到所述第一组或所述第二组中。
23.具体的,进一步分析计算机信息处理的过程,可以看到,信息的接收包括信息的感知、信息的测量、信息的识别、信息的获取以及信息的输入等;信息的存储就是把接收到的信息或转换、传送或发布中间的信息通过存储设备进行缓冲、保存、备份等处理;信息转化就是把信息根据人们的特定需要进行分类、计算、分析、检索、管理和综合等处理;信息的传送把信息通过计算机内部的指令或计算机之间构成的网络从一地传送到另外一地;信息的发布就是把信息通过各种表示形式展示出来。
24.实施例2
25.在上一实施例的基础上,所述采集信息,获得源信息的方法执行以下步骤:根据预设的采集任务模板从互联网上获取符合采集要求的一个或多个网页链接地址;对所述一个
或多个网页链接地址执行去重操作,并将去重后得到的结果存入地址列表数据文件;修补所述地址列表数据文件所对应的内容信息的超文本标记语言标签,并对修补后的网页内容进行信息提取;对提取的信息进行自动分类,然后对分类后的信息进行分词处理,并提取所述信息的摘要;将所述信息的分类结果、分词操作得到的词条以及摘要作为源信息。
26.实施例3
27.一种信息采集系统,所述系统包括:信息采集装置、信息分类装置和信息处理装置;所述信息采集装置,用于采集信息;所述信息分类装置,用于对采集到的信息进行分类;所述信息处理装置,用于对分类后的信息进行信息处理。
28.实施例4
29.在上一实施例的基础上,所述信息分类装置包括:第一分类器,用于将一组源信息分类到至少三个组之一,所述三个组是:包含感兴趣的信息的第一组、包含不感兴趣的信息的第二组、和包含兴趣级别不确定的信息的第三组,所述第一分类器具有包括用于作出其分类决定的至少一个语言相关标识符的输入,其中所述第一分类器执行以下方法:确定在源信息中是否存在所述至少一个语言相关标识符;如果在所述源信息中不存在所述至少一个标识符,则将所述源信息分类到所述第二组中;如果在所述源信息中存在所述至少一个标识符,则从所述源信息中提取一片断并且判定在所述片断中是否存在至少一个关键词;如果在所述片断中存在至少一个关键词,则将所述源信息分类到所述第一组中,否则将所述源信息分类到所述第三组中;特征提取器,用于从被分类到所述第三组中的信息中提取特征并形成至少一个特征向量;以及次级分类器,它适用于接收包括所述至少一个特征向量和语言相关模型信息的输入,并且还适用于基于所述至少一个特征向量和所述语言相关模型信息,将与所述至少一个特征向量相关联的源信息分类到所述第一组或所述第二组中。
30.具体的,信息分类是指遵循约定的分类原则和方法,按照信息的内涵、性质及管理的要求,将所有信息,按一定的结构体系,分门别类加以集合,从而使得每个信息在相应的分类体系中都有一个对应位置。信息分类的基本原则可归纳为:科学性、系统性、可延性和兼容性。分类信息网站的崛起,很好的弥补了传统分类广告的不足。分类信息不仅信息量大,而且信息随时在线,永不丢失。
31.信息分类产生于传统媒介报媒的鼎盛期,又称分类广告或主动式广告,通常在媒介窗口发布的广告,如户内外牌式广告、网站动静态标志广告、报纸分类广告等都属被动广告,这类信息都是传播者强加给信息受众,使受众视、听、触等感觉被动接收。现今人们生活在一个信息冗余的社会环境下,被动式信息传播形式越加让大众反感,而人们更愿意采用主动方式,根据需要,定点、定量去查找目标信息,按信息内容的行业和信息类型、信息范围归类的信息表现形式
------
分类信息媒介应运而生。传统媒体分类信息其主要体现方式为文字、图像。
32.实施例5
33.在上一实施例的基础上,所述信息采集装置包括:址获取模块,用于根据预设的采集任务模板从互联网上获取符合采集要求的一个或多个网页链接地址;地址去重模块,用于对所述一个或多个网页链接地址执行去重操作,并将去重后得到的结果存入地址列表数据文件;标签修补模块,用于修补所述地址列表数据文件所对应的内容信息的超文本标记
语言标签;文本信息提取模块,用于对修补后的网页内容进行文本信息提取;自动分类模块,用于对提取的文本信息进行自动分类;分词处理模块,用于对分类后的文本信息进行分词处理;摘要提取模块,用于提取所述文本信息的摘要;结果输出模块,用于将所述文本信息的分类结果、分词操作得到的词条以及摘要输出为源信息。
34.具体的,网络信息采集:网络信息采集是将非结构化信息从大量的网页中抽取出来保存到结构化的数据库中的过程。
35.信息采集系统:信息采集系统以网络信息挖掘引擎为基础构建而成,它可以在最短的时间内,帮您把最新的信息从不同的internet站点上采集下来,并在进行分类和统一格式后,第一时间之内把信息及时发布到自己的站点上去。从而提高信息及时性和节省或减少工作量。
36.网络信息采集员:主要从事网络信息采集工作,工作职责:
37.1)到网上采集一些有价值的信息。
38.2)及时更新网站内容。维护网站论坛。维护网站内容更新。
39.网络信息采集软件:适用于网站定向数据采集、分析、发布的实用软件。它可以对指定网站中的任意网页进行目标分析,归纳采集方案,提取数据并保存在文件和数据库中。
40.这样的软件特别适用于网站信息的分类查询,用户可以针对不同的分类设置不同的查询条件,而不是一次性的将网站中所有信息都采集到本地,这无疑将提高信息的使用效率,避免无意义的资源消耗。
41.实施例6
42.一种信息处理的存储介质,所述存储介质上存储有计算机程序;存储了计算指令,其包括:采集信息,获得源信息的代码段;对采集到的信息进行分类的代码段;对分类后的信息进行信息处理的代码段。
43.实施例7
44.在上一实施例的基础上,所述对采集到的信息进行分类的代码段包括:将一组源信息分类到至少三个组之一;确定在源信息中是否存在所述至少一个语言相关标识符;如果在所述源信息中不存在所述至少一个标识符,则将所述源信息分类到所述第二组中;如果在所述源信息中存在所述至少一个标识符,则从所述源信息中提取一片断并且判定在所述片断中是否存在至少一个关键词;如果在所述片断中存在至少一个关键词,则将所述源信息分类到所述第一组中,否则将所述源信息分类到所述第三组中;从被分类到所述第三组中的信息中提取特征并形成至少一个特征向量;以及次级分类器,它适用于接收包括所述至少一个特征向量和语言相关模型信息的输入,并且还适用于基于所述至少一个特征向量和所述语言相关模型信息,将与所述至少一个特征向量相关联的源信息分类到所述第一组或所述第二组中。
45.需要说明的是,上述实施例提供的系统,仅以上述各功能单元的划分进行举例说明,在实际应用中,可以根据需要而将上述功能分配由不同的功能单元来完成,即将本发明实施例中的单元或者步骤再分解或者组合,例如,上述实施例的单元可以合并为一个单元,也可以进一步拆分成多个子单元,以完成以上描述的全部或者部分功能。对于本发明实施例中涉及的单元、步骤的名称,仅仅是为了区分各个单元或者步骤,不视为对本发明的不当限定。
46.所属技术领域的技术人员可以清楚地了解到,为描述的方便和简洁,上述描述的存储单元、处理单元的具体工作过程及有关说明,可以参考前述方法实施例中的对应过程,在此不再赘述。
47.本领域技术人员应该能够意识到,结合本文中所公开的实施例描述的各示例的单元、方法步骤,能够以电子硬件、计算机软件或者二者的结合来实现,软件单元、方法步骤对应的程序可以置于随机存储器(ram)、内存、只读存储器(rom)、电可编程rom、电可擦除可编程rom、寄存器、硬盘、可移动磁盘、cd~rom、或技术领域内所公知的任意其它形式的存储介质中。为了清楚地说明电子硬件和软件的可互换性,在上述说明中已经按照功能一般性地描述了各示例的组成及步骤。这些功能究竟以电子硬件还是软件方式来执行,取决于技术方案的特定应用和设计约束条件。本领域技术人员可以对每个特定的应用来使用不同方法来实现所描述的功能,但是这种实现不应认为超出本发明的范围。
48.术语“第一”、“第二”等是用于区别类似的对象,而不是用于描述或表示特定的顺序或先后次序。
49.术语“包括”或者任何其它类似用语旨在涵盖非排他性的包含,从而使得包括一系列要素的过程、方法、物品或者设备/单元不仅包括那些要素,而且还包括没有明确列出的其它要素,或者还包括这些过程、方法、物品或者设备/单元所固有的要素。
50.至此,已经结合附图所示的优选实施方式描述了本发明的技术方案,但是,本领域技术人员容易理解的是,本发明的保护范围显然不局限于这些具体实施方式。在不偏离本发明的原理的前提下,本领域技术人员可以对相关技术特征作出等同的更改或替换,这些更改或替换之后的技术方案都将落入本发明的保护范围之内。
51.以上所述,仅为本发明的较佳实施例而已,并非用于限定本发明的保护范围。
52.上述实施例仅例示性说明本发明的原理及其功效,而非用于限制本发明。任何熟悉此技术的人士皆可在不违背本发明的精神及范畴下,对上述实施例进行修饰或改变。因此,举凡所属技术领域中具有通常知识者在未脱离本发明所揭示的精神与技术思想下所完成的一切等效修饰或改变,仍应由本发明的权利要求所涵盖。

技术特征:
1.一种信息处理方法,其特征在于,所述方法执行以下步骤:步骤1:采集信息,获得源信息;步骤2:对采集到的信息进行分类;步骤3:对分类后的信息进行信息处理;所述步骤2中,对采集到的信息进行分类的方法包括:将一组源信息分类到至少三个组之一;确定在源信息中是否存在所述至少一个语言相关标识符;如果在所述源信息中不存在所述至少一个标识符,则将所述源信息分类到所述第二组中;如果在所述源信息中存在所述至少一个标识符,则从所述源信息中提取一片断并且判定在所述片断中是否存在至少一个关键词;如果在所述片断中存在至少一个关键词,则将所述源信息分类到所述第一组中,否则将所述源信息分类到所述第三组中;从被分类到所述第三组中的信息中提取特征并形成至少一个特征向量;以及次级分类器,它适用于接收包括所述至少一个特征向量和语言相关模型信息的输入,并且还适用于基于所述至少一个特征向量和所述语言相关模型信息,将与所述至少一个特征向量相关联的源信息分类到所述第一组或所述第二组中。2.如权利要求1所述的方法,其特征在于,所述采集信息,获得源信息的方法执行以下步骤:根据预设的采集任务模板从互联网上获取符合采集要求的一个或多个网页链接地址;对所述一个或多个网页链接地址执行去重操作,并将去重后得到的结果存入地址列表数据文件;修补所述地址列表数据文件所对应的内容信息的超文本标记语言标签,并对修补后的网页内容进行信息提取;对提取的信息进行自动分类,然后对分类后的信息进行分词处理,并提取所述信息的摘要;将所述信息的分类结果、分词操作得到的词条以及摘要作为源信息。3.一种基于权利要求1至2之一所述方法的信息采集系统,其特征在于,所述系统包括:信息采集装置、信息分类装置和信息处理装置;所述信息采集装置,用于采集信息;所述信息分类装置,用于对采集到的信息进行分类;所述信息处理装置,用于对分类后的信息进行信息处理。4.如权利要求3所述的系统,其特征在于,所述信息分类装置包括:第一分类器,用于将一组源信息分类到至少三个组之一,所述三个组是:包含感兴趣的信息的第一组、包含不感兴趣的信息的第二组、和包含兴趣级别不确定的信息的第三组,所述第一分类器具有包括用于作出其分类决定的至少一个语言相关标识符的输入,其中所述第一分类器执行以下方法:确定在源信息中是否存在所述至少一个语言相关标识符;如果在所述源信息中不存在所述至少一个标识符,则将所述源信息分类到所述第二组中;如果在所述源信息中存在所述至少一个标识符,则从所述源信息中提取一片断并且判定在所述片断中是否存在至少一个关键词;如果在所述片断中存在至少一个关键词,则将所述源信息分类到所述第一组中,否则将所述源信息分类到所述第三组中;特征提取器,用于从被分类到所述第三组中的信息中提取特征并形成至少一个特征向量;以及次级分类器,它适用于接收包括所述至少一个特征向量和语言相关模型信息的输入,并且还适用于基于所述至少一个特征向量和所述语言相关模型信息,将与所述至少一个特征向量相关联的源信息分类到所述第一组或所述第二组中。5.如权利要求4所述的系统,其特征在于,所述信息采集装置包括:址获取模块,用于根据预设的采集任务模板从互联网上获取符合采集要求的一个或多个网页链接地址;地址去重模块,用于对所述一个或多个网页链接地址执行去重操作,并将去重后得到的结果存入地址列表数据文件;标签修补模块,用于修补所述地址列表数据文件所对应的内容信息的
超文本标记语言标签;文本信息提取模块,用于对修补后的网页内容进行文本信息提取;自动分类模块,用于对提取的文本信息进行自动分类;分词处理模块,用于对分类后的文本信息进行分词处理;摘要提取模块,用于提取所述文本信息的摘要;结果输出模块,用于将所述文本信息的分类结果、分词操作得到的词条以及摘要输出为源信息。6.一种基于权利要求3至5之一所述系统的信息处理的存储介质,其特征在于,所述存储介质上存储有计算机程序;存储了计算指令,其包括:采集信息,获得源信息的代码段;对采集到的信息进行分类的代码段;对分类后的信息进行信息处理的代码段。7.如权利要求6所述的存储介质,其特征在于,所述对采集到的信息进行分类的代码段包括:将一组源信息分类到至少三个组之一;确定在源信息中是否存在所述至少一个语言相关标识符;如果在所述源信息中不存在所述至少一个标识符,则将所述源信息分类到所述第二组中;如果在所述源信息中存在所述至少一个标识符,则从所述源信息中提取一片断并且判定在所述片断中是否存在至少一个关键词;如果在所述片断中存在至少一个关键词,则将所述源信息分类到所述第一组中,否则将所述源信息分类到所述第三组中;从被分类到所述第三组中的信息中提取特征并形成至少一个特征向量;以及次级分类器,它适用于接收包括所述至少一个特征向量和语言相关模型信息的输入,并且还适用于基于所述至少一个特征向量和所述语言相关模型信息,将与所述至少一个特征向量相关联的源信息分类到所述第一组或所述第二组中。
技术总结
本发明公开了一种信息处理方法、系统及存储介质,涉及信息处理技术领域,所述方法执行以下步骤:步骤1:采集信息,获得源信息;步骤2:对采集到的信息进行分类;步骤3:对分类后的信息进行信息处理;本发明具有智能化程度高和信息处理效率高的优点。息处理效率高的优点。息处理效率高的优点。


技术研发人员:李清松
受保护的技术使用者:苏州优爱妈妈信息科技有限公司
技术研发日:2019.12.30
技术公布日:2021/7/15

转载请注明原文地址:https://doc.8miu.com/read-650095.html

最新回复(0)