本申请属于数据分析技术领域,尤其涉及一种舆情分析方法、装置、终端设备及存储介质。
背景技术:
舆情,是在一定的时间段内,围绕某个事件的发生、发展和变化,作为主体的大众对其持有的看法或态度。它是绝大多数大众对于社会中的各种现象、问题所表达的信念、态度、意见以及情绪等等表现的总和。对舆情的分析对企业或单位的发展起到重要作用。
目前,对舆情的分析多通过人为提取关键词,通过人为分析关键词的情况达到对舆情分析的目的。在对舆情分析时,可能同一时间存在大量的舆情信息,大量的舆情信息提取出的关键词也是各式各样,对大量的、不同的关键词进行分析时往往需要耗费大量人力和时间,对舆情分析的效率低。
技术实现要素:
本申请实施例提供了一种舆情分析方法、装置、终端设备及存储介质,可以解决舆情分析效率低的问题。
第一方面,本申请实施例提供了一种舆情分析方法,包括:
获取舆情信息的竞争力指标;
若预存的多个标准指标中不包括所述竞争力指标,计算所述竞争力指标与每个标准指标的语义相似度;
在所述语义相似度均小于第一预设阈值时,基于所述语义相似度,从所述标准指标中筛选出候选指标;
计算所述候选指标和所述竞争力指标的字面相似度;
若所述字面相似度中存在大于第二预设阈值的字面相似度,则将大于所述第二预设阈值的字面相似度中的最大值对应的候选指标作为与所述竞争力指标相匹配的标准指标。
第二方面,本申请实施例提供了一种舆情分析装置,包括:
指标获取模块,用于获取舆情信息的竞争力指标;
语义相似度计算模块,用于若预存的多个标准指标中不包括所述竞争力指标,计算所述竞争力指标与每个标准指标的语义相似度;
筛选模块,用于在所述语义相似度均小于第一预设阈值时,基于所述语义相似度,从所述标准指标中筛选出候选指标;
字面相似度计算模块,用于计算所述候选指标和所述竞争力指标的字面相似度;
判断模块,用于若所述字面相似度中存在大于第二预设阈值的字面相似度,则将大于所述第二预设阈值的字面相似度中的最大值对应的候选指标作为与所述竞争力指标相匹配的标准指标。
第三方面,本申请实施例提供了一种终端设备,包括:存储器、处理器以及存储在所述存储器中并可在所述处理器上运行的计算机程序,其特征在于,所述处理器执行所述计算机程序时实现上述第一方面中任一项所述的舆情分析方法。
第四方面,本申请实施例提供了一种计算机可读存储介质,所述计算机可读存储介质存储有计算机程序,其特征在于,所述计算机程序被处理器执行时实现上述第一方面中任一项所述的舆情分析方法。
第五方面,本申请实施例提供了一种计算机程序产品,当计算机程序产品在终端设备上运行时,使得终端设备执行上述第一方面中任一项所述的舆情分析方法。
可以理解的是,上述第二方面至第五方面的有益效果可以参见上述第一方面中的相关描述,在此不再赘述。
本申请实施例与现有技术相比存在的有益效果是:本申请首先获取舆情信息的竞争力指标,若预存的多个标准指标中不包括所述竞争力指标,计算竞争力指标与每个标准指标的语义相似度;在语义相似度均小于第一预设阈值时,基于语义相似度,从标准指标中筛选出候选指标;计算候选指标和竞争力指标的字面相似度;若字面相似度中存在大于第二预设阈值的字面相似度,则将大于第二预设阈值的字面相似度中的最大值对应的候选指标作为与竞争力指标相匹配的标准指标;本申请中通过语义相似度和字面相似度可以将竞争力指标进行标准化,减少了舆情分析时的信息数量,为舆情信息的分析带来了便利,提高了舆情分析的效率。
附图说明
为了更清楚地说明本申请实施例中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本申请的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动性的前提下,还可以根据这些附图获得其他的附图。
图1是本申请一实施例提供的舆情分析方法的应用场景示意图;
图2是本申请一实施例提供的舆情分析方法的流程示意图;
图3是本申请一实施例提供的语义相似度计算方法的流程示意图;
图4是本申请一实施例提供的候选指标的筛选方法的流程示意图;
图5是本申请一实施例提供的观点词与标准指标处理方法的流程示意图;
图6是本申请一实施例提供的舆情分析模型的展示页面的结构示意图;
图7是本申请一实施例提供的舆情分析装置的结构示意图;
图8是本申请一实施例提供的终端设备的结构示意图。
具体实施方式
以下描述中,为了说明而不是为了限定,提出了诸如特定系统结构、技术之类的具体细节,以便透彻理解本申请实施例。然而,本领域的技术人员应当清楚,在没有这些具体细节的其它实施例中也可以实现本申请。在其它情况中,省略对众所周知的系统、装置、电路以及方法的详细说明,以免不必要的细节妨碍本申请的描述。
应当理解,当在本申请说明书和所附权利要求书中使用时,术语“包括”指示所描述特征、整体、步骤、操作、元素和/或组件的存在,但并不排除一个或多个其它特征、整体、步骤、操作、元素、组件和/或其集合的存在或添加。
还应当理解,在本申请说明书和所附权利要求书中使用的术语“和/或”是指相关联列出的项中的一个或多个的任何组合以及所有可能组合,并且包括这些组合。
如在本申请说明书和所附权利要求书中所使用的那样,术语“如果”可以依据上下文被解释为“当……时”或“一旦”或“响应于确定”或“响应于检测到”。类似地,短语“如果确定”或“如果检测到[所描述条件或事件]”可以依据上下文被解释为意指“一旦确定”或“响应于确定”或“一旦检测到[所描述条件或事件]”或“响应于检测到[所描述条件或事件]”。
另外,在本申请说明书和所附权利要求书的描述中,术语“第一”、“第二”、“第三”等仅用于区分描述,而不能理解为指示或暗示相对重要性。
在本申请说明书中描述的参考“一个实施例”或“一些实施例”等意味着在本申请的一个或多个实施例中包括结合该实施例描述的特定特征、结构或特点。由此,在本说明书中的不同之处出现的语句“在一个实施例中”、“在一些实施例中”、“在其他一些实施例中”、“在另外一些实施例中”等不是必然都参考相同的实施例,而是意味着“一个或多个但不是所有的实施例”,除非是以其他方式另外特别强调。术语“包括”、“包含”、“具有”及它们的变形都意味着“包括但不限于”,除非是以其他方式另外特别强调。
图1为本申请实施例提供的舆情分析方法的应用场景示意图,上述舆情分析方法可以用于对舆情信息进行分析。其中,存储设备10用于存储舆情信息及舆情信息对应的竞争力指标,处理器20用于从存储设备10中获取舆情信息及舆情信息对应的竞争力指标,并通过对竞争力指标和预设的多个标准指标的分析,将竞争力指标标准化,进而达到对舆情信息进行分析的目的。
以下结合图1对本申请实施例的舆情分析方法进行详细说明。
图2示出了本申请提供的舆情分析方法的示意性流程图,参照图2,对该方法的详述如下:
s101,获取舆情信息的竞争力指标。
在本实施例中,舆情信息的竞争力指标可以从存储设备中获得。
可选的,可以先获取舆情信息,然后基于舆情信息获得竞争力指标。
具体的,舆情信息可以从网上下载获得。舆情信息还可以从存储设备或数据库中获得。在获得舆情信息后,可以将舆情信息输入指标抽取模型中得到舆情信息的竞争力指标。指标抽取模型可以是神经网络模型等。
在本实施例中,竞争力指标为可以反应竞争力的指标,竞争力是对象在竞争中显示的能力。
在本实施例中,竞争力指标可以是舆情信息中提取的可以反应竞争力的关键词。
作为举例,如果舆情信息为:a品牌的品牌价值增长强劲,在全球品牌价值500强榜单排名实现三年三连跳,则可以将“品牌价值”这一关键词作为竞争力指标。
在本实施例中,一个舆情信息可以包括一个或多个竞争力指标。
s102,若预存的多个标准指标中不包括所述竞争力指标,计算所述竞争力指标与每个标准指标的语义相似度。
在本实施例中,标准指标可以是预先存储在舆情分析模型或数据库中的指标。例如,标准指标可以是客户数量、业务表现、估值溢价、研发能力、业务表现、市场风险及销售利润率等。
在本实施例中,在获得竞争力指标后,可以先查找竞争力指标是否存在于标准指标中,如果竞争力指标是标准指标,则竞争力指标可以不做处理。如果竞争力指标不在标准指标中,则需要将竞争力指标进行标准化,也就是找到与竞争力指标相匹配的标准指标,将竞争力指标映射到与之匹配的标准指标上。
具体的,如果多个标准指标中不包括竞争力指标,可以计算竞争力指标与每个标准指标的语义相似度。语义相似度表征竞争力指标和标准指标在语言意思上的相似程度,如果两个指标在语义上相似,则可以确定标准指标和竞争力指标相互匹配。
具体的,可以计算竞争力指标与标准指标的余弦相似度,将计算得到的余弦相似度作为竞争力指标与标准指标的语义相似度。
s103,在所述语义相似度均小于第一预设阈值时,基于所述语义相似度,从所述标准指标中筛选出候选指标。
在本实施例中,在获得竞争力指标与标准指标的语义相似度后,可以比较语义相似短语与第一预设阈值的大小,进而确定该标准指标是否可以作为与竞争力指标相匹配的标准指标。
在本实施例中,第一预设阈值可以根据需要设置,例如,0.8、0.7或0.75等。
具体的,若所述语义相似度中存在大于或等于所述第一预设阈值的语义相似度,可以查找大于或等于所述第一预设阈值的语义相似度中的最大值;将所述大于或等于所述第一预设阈值的语义相似度中的最大值对应的标准指标作为与所述竞争力指标相匹配的标准指标,也就是将相似度最高的标准指标作为与竞争力指标相匹配的标准指标,将竞争力指标映射到相似度最高的标准指标上。
作为举例,如果存在3个标准指标与竞争力指标的语义相似度均大于第一预设阈值,3个标准指标与竞争力指标的语义相似度分别为:标准指标a与竞争力指标的语义相似度为0.81;标准指标b与竞争力指标的语义相似度为0.88;标准指标c与竞争力指标的语义相似度为0.91。标准指标c与竞争力指标的语义相似度最高,则将标准指标c作为与竞争力指标相匹配的标准指标。
在本实施例中,如果语义相似度均小于第一预设阈值,则说明仅从语义相似度上不可以确定标准指标中是否存在与竞争力指标相匹配的标准指标,也就是标准指标中不存在与竞争力指标在语义上相似的指标。因此,需要进一步判断。
具体的,可以根据语义相似度的大小,先从标准指标中筛选出可能会与竞争力指标相匹配的标准指标,在本申请中将筛选出的标准指标记为候选指标。
可选的,可以将语义相似度从大到小进行排列,从第一个开始选择出预设个数的语义相似度,将选出的语义相似度对应的标准指标作为候选指标。预设个数可以根据需要进行设置,预设个数还可以为标准指标的总个数与预设百分比的乘积。
s104,计算所述候选指标和所述竞争力指标的字面相似度。
在本实施例中,字面相似度表征候选指标与竞争力指标在字面上的相似度。
可选的,将候选指标和竞争力指标输入深度学习模型中得到候选指标和竞争力指标的字面相似度。
s105,若所述字面相似度中存在大于第二预设阈值的字面相似度,则将大于所述第二预设阈值的字面相似度中的最大值对应的候选指标作为与所述竞争力指标相匹配的标准指标。
在本实施例中,在得到候选指标和竞争力指标的字面相似度后,可以根据字面相似度的大小确定与竞争力指标相匹配的候选指标,也就是确定与竞争力相匹配的标准指标。
具体的,可以根据需要设置第二预设阈值,判断字面相似度中是否存在大于第二预设阈值的字面相似度,若字面相似度中存在大于第二预设阈值的字面相似度,则确定候选指标中存在与竞争力指标相匹配的候选指标。如果字面相似度中仅存在一个大于第二预设阈值的字面相似度,则将该字面相似度对应的候选指标作为与竞争力指标相匹配的候选指标,候选指标即为标准指标。
如果字面相似度中存在多个大于第二预设阈值的字面相似度,则可以找到其中最大的字面相似度,将最大的字面相似度对应的候选指标作为与竞争力指标向匹配的标准指标。得到与竞争力指标相匹配的标准指标后可以将该竞争力指标映射到该标准指标中。
在本实施例中,若字面相似度中不存在大于第二预设阈值的字面相似度,则确定候选指标中不存在与竞争力指标相匹配的候选指标。
在本实施例中,如果字面相似度均小于或等于第二预设阈值,则在标准指标中找不到与竞争力指标相匹配的标准指标,则竞争力指标无法映射到标准指标上,则将该竞争力指标及舆情信息展示给用户,或者将该竞争力指标作为一个新的标准指标进行存储。
本申请实施例中,首先获取舆情信息的竞争力指标,若预存的多个标准指标中不包括所述竞争力指标,计算竞争力指标与每个标准指标的语义相似度;在语义相似度均小于第一预设阈值时,基于语义相似度,从标准指标中筛选出候选指标;计算候选指标和竞争力指标的字面相似度;若字面相似度中存在大于第二预设阈值的字面相似度,则将大于第二预设阈值的字面相似度中的最大值对应的候选指标作为与竞争力指标相匹配的标准指标;本申请中通过语义相似度和字面相似度可以将竞争力指标进行标准化,减少了舆情分析时的信息数量,为舆情信息的分析带来了便利,提高了舆情分析的效率。如果仅根据字面相似度只能在字面上判断竞争力指标与标准指标是否相似。或仅利用语义相似度只能在语义上判断竞争力指标和标准指标是否相似,是不够全面且不够准确的,容易造成判断错误。因此,本申请中使用语义相似度和字面相似度的结合判断竞争力指标和标准指标是否相匹配,判断的结构更全面且更准确。
如图3所示,在一种可能的实现方式中,步骤s102的实现过程可以包括:
s1021,获取所述竞争力指标的第一词向量。
在本实施例中,词向量(wordembedding),词向量就是用来将语言中的词进行数学化的一种方式,就是用一个很长的向量来表示一个词。
在本实施例中,竞争力指标的词向量,本申请中记为第一词向量,可以从存储设备中获取。
可选的,竞争力指标的词向量还可以从词向量计算模型中获得。具体的,将竞争力指标输入词向量计算模型中得到竞争力指标的词向量。词向量计算模型可以是神经网络模型、概率模型等。
s1022,获取所述每个标准指标的第二词向量。
在本实施例中,标准指标的词向量的获得方法与竞争力指标的词向量的获得方法相似,可参照上述竞争力指标的词向量的获取方法的描述,在此不再赘述。
s1023,计算所述第一词向量和所述第二词向量之间的余弦距离,并将所述余弦距离作为所述语义相似度。
在本实施例中,余弦距离也叫做余弦相似度,余弦距离就是计算两个词向量之间的夹角的余弦值。
在本实施例中,余弦距离可以根据余弦距离计算模型得到。
具体的,余弦距离计算模型包括:y=1-cos(a,b),
本申请实施例中,本申请使用标准指标的词向量和竞争力指标的词向量之间的余弦距离作为语义相似度,而不是使用现有技术中的两个词向量之间的欧式距离作为语义相似度。本申请中使用余弦距离作为语义相似度的原因为当一对文本相似度的长度差距很大、但内容相近时,如果使用词向量作为特征,它们在特征空间中的欧氏距离通常很大;而如果使用余弦相似度的话,它们之间的夹角可能很小,因而相似度高。因此,本申请使用余弦距离作为语义相似度可以使计算的语义相似度更准确。
如图4所示,在一种可能的实现方式中,步骤s103的实现过程可以包括:
s1031,确定所述语义相似度中是否存在在预设范围内的语义相似度。
在本实施例中,预设范围可以根据需要进行设置,例如,预设范围可以设置为0.4-0.8。
s1032,若所述语义相似度中存在在预设范围的语义相似度,将在预设范围内的语义相似度对应的标准指标作为所述候选指标。
在本实施例中,如果语义相似度中存在在预设范围内的语义相似度,则表示标准指标中可能存在与竞争力指标相匹配的标准指标,因此,可以将可能与竞争力指标相匹配的标准指标筛选出来作为候选指标。
在本实施例中,如果语义相似度中不存在在预设范围内的语义相似度,则确定标准指标中不存在与竞争力指标相匹配的标准指标。
本申请实施例中,通过预设范围将标准指标进行筛选,可以初步筛选出可能与竞争力指标相匹配的标注指标,减少后续计算的数据量,提高判断效率。
在一种可能的实现方式中,步骤s104的实现过程可以包括:
计算所述候选指标和所述竞争力指标之间的编辑距离。将所述编辑距离作为所述候选指标和所述竞争力指标的字面相似度。
在本实施例中,编辑距离是针对二个字符串(例如英文字)的差异程度的量化量测,量测方式是看至少需要多少次的处理才能将一个字符串变成另一个字符串。编辑距离可以用在自然语言处理中,例如拼写检查可以根据一个拼错的字和其他正确的字的编辑距离,判断哪一个(或哪几个)是比较可能的字。
在本实施例中,候选指标和竞争力指标之间的编辑距离可以从存储设备中获得。另外,候选指标和竞争力指标之间的编辑距离可以从编辑距离算法模型中获得。具体的,将候选指标和竞争力指标输入编辑距离算法模型可以得到编辑距离。
本申请实施例中,将编辑距离作为字面相似度,可以更好的反应候选指标和竞争力指标之间在字面上的相似程度,使判断的标准指标和竞争力指标的匹配程度更准确。
在一种可能的实现方式中,在将竞争力指标进行标准化后,可以利用标准化后的竞争力指标分析舆情信息。
如图5所示,具体的,在步骤s105之后,上述方法还可以包括:
s201,获取舆情信息中所述竞争力指标对应的观点词。
在本实施例中,舆情信息中往往包括大众对竞争力指标的评价,本申请中记为观点词。
在本实施例中,舆情信息中竞争力指标的观点词可以从存储设备中获得。观点词还可以从提取模型中获得。具体的,将舆情信息和竞争力指标输入提取模型中得到竞争力对应的观点词。
作为举例,如果舆情信息为:a品牌的品牌价值增长强劲,在全球品牌价值500强榜单排名实现三年三连跳,则可以将“品牌价值”这一竞争力指标对应的观点词为“增长强劲”。
s202,将所述观点词以及与所述竞争力指标相匹配的标准指标关联存储。
在本实施例中,获得竞争力指标后,可以将竞争力指标与确定的与竞争力相匹配的标准指标关联存储,并展示给用户。
具体的,可以将观点词存储在舆情分析模型中,且将观点词语舆情分析模型中与所述竞争力指标相匹配的标准指标关联存储。
作为举例,如果竞争力指标为“品牌价值”,与竞争力指标相匹配的标准指标为“估值溢价”,“品牌价值”对应的观点词为“增长强劲”。因此,可以将“增长强劲”和“估值溢价”关联存储。
在本实施例中,舆情分析模型可以对标准指标进行分类,具体的,舆情分析模型可以根据观点词对对应的标准指标进行分类,将标准指标打上不同的标签,通过分类后的标准指标的标签可以清楚得到舆情信息中包括的大众评价走向,达到对舆情信息分析的目的。标准指标的标签可以包括正面、中立和负面等。舆情分析模型最后将展示存储在模型中的信息,以便于用于直观的得到舆情信息分析的结果。
如图6所示,作为举例,如果竞争力指标为“品牌价值”,与竞争力指标相匹配的标准指标为“估值溢价”,“品牌价值”对应的观点词为“增长强劲”,因此,可以将“估值溢价”打上正面的标签。
本申请实施例中,通过将观点词与竞争力指标相匹配的标准指标关联存储可以更直观的反应大众对竞争力指标的评价,使后续查询更简便。
应理解,上述实施例中各步骤的序号的大小并不意味着执行顺序的先后,各过程的执行顺序应以其功能和内在逻辑确定,而不应对本申请实施例的实施过程构成任何限定。
对应于上文实施例所述的舆情分析方法,图7示出了本申请实施例提供的舆情分析装置的结构框图,为了便于说明,仅示出了与本申请实施例相关的部分。
参照图7,该装置300可以包括:指标获取模块310、语义相似度计算模块320、筛选模块330、字面相似度计算模块340和判断模块350。
其中,指标获取模块310,用于获取舆情信息的竞争力指标;
语义相似度计算模块320,用于若预存的多个标准指标中不包括所述竞争力指标,计算所述竞争力指标与每个标准指标的语义相似度;
筛选模块330,用于在所述语义相似度均小于第一预设阈值时,基于所述语义相似度,从所述标准指标中筛选出候选指标;
字面相似度计算模块340,用于计算所述候选指标和所述竞争力指标的字面相似度;
判断模块350,用于若所述字面相似度中存在大于第二预设阈值的字面相似度,则将大于所述第二预设阈值的字面相似度中的最大值对应的候选指标作为与所述竞争力指标相匹配的标准指标。
在一种可能的实现方式中,语义相似度计算模块320具体可以用于:
获取所述竞争力指标的第一词向量;
获取所述每个标准指标的第二词向量;
计算所述第一词向量和所述第二词向量之间的余弦距离,并将所述余弦距离作为所述语义相似度。
在一种可能的实现方式中,与语义相似度计算模块320相连的还包括:
阈值比较模块,用于若所述语义相似度中存在大于或等于所述第一预设阈值的语义相似度,确定大于或等于所述第一预设阈值的语义相似度中的最大值;
指标输出模块,用于将所述大于或等于所述第一预设阈值的语义相似度中的最大值对应的标准指标作为与所述竞争力指标相匹配的标准指标。
在一种可能的实现方式中,筛选模块330具体可以用于:
确定所述语义相似度中是否存在在预设范围内的语义相似度;
若所述语义相似度中存在在预设范围的语义相似度,将在预设范围内的语义相似度对应的标准指标作为所述候选指标。
在一种可能的实现方式中,字面相似度计算模块340具体可以用于:
计算所述候选指标和所述竞争力指标之间的编辑距离;
将所述编辑距离作为所述候选指标和所述竞争力指标的字面相似度。
在一种可能的实现方式中,与字面相似度计算模块340相连的还包括:
信息输出模块,用于若所述字面相似度中不存在大于所述第二预设阈值的字面相似度,则确定所述候选指标中不存在与所述竞争力指标相匹配的候选指标。
在一种可能的实现方式中,与判断模块350相连的还包括:
观点词获取模块,用于获取舆情信息中所述竞争力指标对应的观点词;
关联模块,用于将所述观点词以及与所述竞争力指标相匹配的标准指标关联存储。
需要说明的是,上述装置/单元之间的信息交互、执行过程等内容,由于与本申请方法实施例基于同一构思,其具体功能及带来的技术效果,具体可参见方法实施例部分,此处不再赘述。
所属领域的技术人员可以清楚地了解到,为了描述的方便和简洁,仅以上述各功能单元、模块的划分进行举例说明,实际应用中,可以根据需要而将上述功能分配由不同的功能单元、模块完成,即将所述装置的内部结构划分成不同的功能单元或模块,以完成以上描述的全部或者部分功能。实施例中的各功能单元、模块可以集成在一个处理单元中,也可以是各个单元单独物理存在,也可以两个或两个以上单元集成在一个单元中,上述集成的单元既可以采用硬件的形式实现,也可以采用软件功能单元的形式实现。另外,各功能单元、模块的具体名称也只是为了便于相互区分,并不用于限制本申请的保护范围。上述系统中单元、模块的具体工作过程,可以参考前述方法实施例中的对应过程,在此不再赘述。
本申请实施例还提供了一种终端设备,参见图8,该终端设备400可以包括:至少一个处理器410、存储器420以及存储在所述存储器420中并可在所述至少一个处理器410上运行的计算机程序,所述处理器410执行所述计算机程序时实现上述任意各个方法实施例中的步骤,例如图2所示实施例中的步骤s101至步骤s105。或者,处理器410执行所述计算机程序时实现上述各装置实施例中各模块/单元的功能,例如图7所示模块310至350的功能。
示例性的,计算机程序可以被分割成一个或多个模块/单元,一个或者多个模块/单元被存储在存储器420中,并由处理器410执行,以完成本申请。所述一个或多个模块/单元可以是能够完成特定功能的一系列计算机程序段,该程序段用于描述计算机程序在终端设备400中的执行过程。
本领域技术人员可以理解,图8仅仅是终端设备的示例,并不构成对终端设备的限定,可以包括比图示更多或更少的部件,或者组合某些部件,或者不同的部件,例如输入输出设备、网络接入设备、总线等。
处理器410可以是中央处理单元(centralprocessingunit,cpu),还可以是其他通用处理器、数字信号处理器(digitalsignalprocessor,dsp)、专用集成电路(applicationspecificintegratedcircuit,asic)、现成可编程门阵列(field-programmablegatearray,fpga)或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件等。通用处理器可以是微处理器或者该处理器也可以是任何常规的处理器等。
存储器420可以是终端设备的内部存储单元,也可以是终端设备的外部存储设备,例如插接式硬盘,智能存储卡(smartmediacard,smc),安全数字(securedigital,sd)卡,闪存卡(flashcard)等。所述存储器420用于存储所述计算机程序以及终端设备所需的其他程序和数据。所述存储器420还可以用于暂时地存储已经输出或者将要输出的数据。
总线可以是工业标准体系结构(industrystandardarchitecture,isa)总线、外部设备互连(peripheralcomponent,pci)总线或扩展工业标准体系结构(extendedindustrystandardarchitecture,eisa)总线等。总线可以分为地址总线、数据总线、控制总线等。为便于表示,本申请附图中的总线并不限定仅有一根总线或一种类型的总线。
本申请实施例提供的舆情分析方法可以应用于计算机、平板电脑、笔记本电脑、上网本、个人数字助理(personaldigitalassistant,pda)等终端设备上,本申请实施例对终端设备的具体类型不作任何限制。
本申请实施例还提供了一种计算机可读存储介质,所述计算机可读存储介质存储有计算机程序,所述计算机程序被处理器执行时实现可实现上述舆情分析方法各个实施例中的步骤。
本申请实施例提供了一种计算机程序产品,当计算机程序产品在移动终端上运行时,使得移动终端执行时实现可实现上述舆情分析方法各个实施例中的步骤。
所述集成的单元如果以软件功能单元的形式实现并作为独立的产品销售或使用时,可以存储在一个计算机可读取存储介质中。基于这样的理解,本申请实现上述实施例方法中的全部或部分流程,可以通过计算机程序来指令相关的硬件来完成,所述的计算机程序可存储于一计算机可读存储介质中,该计算机程序在被处理器执行时,可实现上述各个方法实施例的步骤。其中,所述计算机程序包括计算机程序代码,所述计算机程序代码可以为源代码形式、对象代码形式、可执行文件或某些中间形式等。所述计算机可读介质至少可以包括:能够将计算机程序代码携带到拍照装置/终端设备的任何实体或装置、记录介质、计算机存储器、只读存储器(rom,read-onlymemory)、随机存取存储器(ram,randomaccessmemory)、电载波信号、电信信号以及软件分发介质。例如u盘、移动硬盘、磁碟或者光盘等。在某些司法管辖区,根据立法和专利实践,计算机可读介质不可以是电载波信号和电信信号。
在上述实施例中,对各个实施例的描述都各有侧重,某个实施例中没有详述或记载的部分,可以参见其它实施例的相关描述。
本领域普通技术人员可以意识到,结合本文中所公开的实施例描述的各示例的单元及算法步骤,能够以电子硬件、或者计算机软件和电子硬件的结合来实现。这些功能究竟以硬件还是软件方式来执行,取决于技术方案的特定应用和设计约束条件。专业技术人员可以对每个特定的应用来使用不同方法来实现所描述的功能,但是这种实现不应认为超出本申请的范围。
在本申请所提供的实施例中,应该理解到,所揭露的装置/网络设备和方法,可以通过其它的方式实现。例如,以上所描述的装置/网络设备实施例仅仅是示意性的,例如,所述模块或单元的划分,仅仅为一种逻辑功能划分,实际实现时可以有另外的划分方式,例如多个单元或组件可以结合或者可以集成到另一个系统,或一些特征可以忽略,或不执行。另一点,所显示或讨论的相互之间的耦合或直接耦合或通讯连接可以是通过一些接口,装置或单元的间接耦合或通讯连接,可以是电性,机械或其它的形式。
所述作为分离部件说明的单元可以是或者也可以不是物理上分开的,作为单元显示的部件可以是或者也可以不是物理单元,即可以位于一个地方,或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部单元来实现本实施例方案的目的。
以上所述实施例仅用以说明本申请的技术方案,而非对其限制;尽管参照前述实施例对本申请进行了详细的说明,本领域的普通技术人员应当理解:其依然可以对前述各实施例所记载的技术方案进行修改,或者对其中部分技术特征进行等同替换;而这些修改或者替换,并不使相应技术方案的本质脱离本申请各实施例技术方案的精神和范围,均应包含在本申请的保护范围之内。
1.一种舆情分析方法,其特征在于,包括:
获取舆情信息的竞争力指标;
若预存的多个标准指标中不包括所述竞争力指标,计算所述竞争力指标与每个标准指标的语义相似度;
在所述语义相似度均小于第一预设阈值时,基于所述语义相似度,从所述标准指标中筛选出候选指标;
计算所述候选指标和所述竞争力指标的字面相似度;
若所述字面相似度中存在大于第二预设阈值的字面相似度,则将大于所述第二预设阈值的字面相似度中的最大值对应的候选指标作为与所述竞争力指标相匹配的标准指标。
2.如权利要求1所述的舆情分析方法,其特征在于,所述计算所述竞争力指标与每个标准指标的语义相似度,包括:
获取所述竞争力指标的第一词向量;
获取所述每个标准指标的第二词向量;
计算所述第一词向量和所述第二词向量之间的余弦距离,并将所述余弦距离作为所述语义相似度。
3.如权利要求1所述的舆情分析方法,其特征在于,在所述计算所述竞争力指标与每个标准指标的语义相似度之后,包括:
若所述语义相似度中存在大于或等于所述第一预设阈值的语义相似度,确定大于或等于所述第一预设阈值的语义相似度中的最大值;
将所述大于或等于所述第一预设阈值的语义相似度中的最大值对应的标准指标作为与所述竞争力指标相匹配的标准指标。
4.如权利要求1所述的舆情分析方法,其特征在于,所述基于所述语义相似度,从所述标准指标中筛选出候选指标,包括:
确定所述语义相似度中是否存在在预设范围内的语义相似度;
若所述语义相似度中存在在预设范围的语义相似度,将在预设范围内的语义相似度对应的标准指标作为所述候选指标。
5.如权利要求1所述的舆情分析方法,其特征在于,所述计算所述候选指标和所述竞争力指标的字面相似度,包括:
计算所述候选指标和所述竞争力指标之间的编辑距离;
将所述编辑距离作为所述候选指标和所述竞争力指标的字面相似度。
6.如权利要求1至5中任一项所述的舆情分析方法,其特征在于,在所述计算所述候选指标和所述竞争力指标的字面相似度之后,包括:
若所述字面相似度中不存在大于所述第二预设阈值的字面相似度,则确定所述候选指标中不存在与所述竞争力指标相匹配的候选指标。
7.如权利要求1所述的舆情分析方法,其特征在于,在将大于所述第二预设阈值的字面相似度中的最大值对应的候选指标作为与所述竞争力指标相匹配的标准指标之后,包括:
获取舆情信息中所述竞争力指标对应的观点词;
将所述观点词以及与所述竞争力指标相匹配的标准指标关联存储。
8.一种舆情分析装置,其特征在于,包括:
指标获取模块,用于获取舆情信息的竞争力指标;
语义相似度计算模块,用于若预存的多个标准指标中不包括所述竞争力指标,计算所述竞争力指标与每个标准指标的语义相似度;
筛选模块,用于在所述语义相似度均小于第一预设阈值时,基于所述语义相似度,从所述标准指标中筛选出候选指标;
字面相似度计算模块,用于计算所述候选指标和所述竞争力指标的字面相似度;
判断模块,用于若所述字面相似度中存在大于第二预设阈值的字面相似度,则将大于所述第二预设阈值的字面相似度中的最大值对应的候选指标作为与所述竞争力指标相匹配的标准指标。
9.一种终端设备,包括存储器、处理器以及存储在所述存储器中并可在所述处理器上运行的计算机程序,其特征在于,所述处理器执行所述计算机程序时实现如权利要求1至7任一项所述的舆情分析方法。
10.一种计算机可读存储介质,所述计算机可读存储介质存储有计算机程序,其特征在于,所述计算机程序被处理器执行时实现如权利要求1至7任一项所述的舆情分析方法。
技术总结