基于拍搜行为预测用户所属群组的方法、装置和计算机设备与流程

专利2022-05-09  84


本发明属于数据处理技术领域,特别适用于教育领域,更具体地涉及一种基于拍搜行为预测用户所属群组的方法、装置和计算机设备。



背景技术:

随着大数据时代的到来,数据开始呈爆炸式增长。为了解决信息过载的问题,推荐系统被广泛应用于电子商务、内容共享、社交网络、论坛等在线服务领域。由此,推荐系统需要为不同人群进行推荐。除了面向个人的推荐系统,也需要面向用户群组的推荐系统。

目前,很多电子教育产品都具备拍照搜索的功能,用户通过操控终端的摄像头对着纸面上的题目进行拍照,在终端完成拍照并显示拍摄的图片之后,用户通过操控终端界面中显示的选框,再搜索题目答案,由此,完成拍照搜索的功能。但是,现有技术中,由于上述电子教育产品app的用户的群组分类不够精确,所以无法实现对各用户群进行定制化的推荐服务,并且在拍搜行为所产生的大量数据应用、数据预测方面仍存在很多值得去研究的问题。此外,现有用户群预测精度低、因用户数据量大引起的数据处理速度慢等的技术问题。

因此,有必要提供一种基于拍搜行为预测用户所属群组的方法,以解决上述问题。



技术实现要素:

(一)要解决的技术问题

本发明旨在解决现有教育产品app中用户的群组分类不精确、现有方法预测精度低、因用户数据量大引起的数据处理速度慢等的技术问题。

(二)技术方案

为解决上述技术问题,本发明的一方面提出一种基于拍搜行为预测用户所属群组的方法,所述拍搜行为是指发起照片搜索请求并获得搜索结果的行为,所述方法包括如下步骤:将用户分成不同的集合,使同一集合中的用户具有相同的群组信息,所述群组信息与用户的拍搜行为相关;根据用户的拍搜行为相似度水平,筛选出各集合中所述群组信息的置信度大于第一预设值的种子用户;对于非种子用户,计算所述非种子用户与各种子用户的拍搜行为相似度,并根据所述相似度预测所述非种子用户的所属群组,所述非种子用户包括缺失所述群组信息的用户和所述集合中所述群组信息的置信度不大于第一预设值的用户。

根据本发明的优选实施方式,筛选所述种子用户之前,所述方法还包括:将所述拍搜行为的搜索结果进行标签化,并将标签化的搜索结果转化为特征向量来表征用户的拍搜行为;后续基于所述特征向量计算所述用户的拍搜行为相似度。

根据本发明的优选实施方式,所述将所述拍搜行为的搜索结果进行标签化,并将标签化的搜索结果转化为特征向量,包括:获取用户的历史拍搜行为,并将所述历史拍搜行为依据对应的搜索结果表征为标签序列,所述标签序列中的每个标签代表了所述搜索结果的至少一个特征;将所述标签序列转化为向量序列;将所述向量序列归一化为所述特征向量。

可选地,还包括:将用户表征为其拍搜行为的特征向量:定义所述特征向量的名称为用户标识,定义所述特征向量的长度为用户拍搜行为的特征表述。

可选地,将所述历史拍搜行为所对应的搜索结果表征为标签序列,包括:对所述搜索结果进行标签标注;对标注处理后的搜索结果数据进行去重处理。

可选地,所述拍搜行为是指发起基于照片的搜题请求获得搜题结果的行为。

可选地,所述照片为整页拍照的整页照片;所述标签序列包括:试题和书页。

可选地,所述群组信息包括下述中的至少一项:用户的所属区域、学校、年级、班级、小组。

可选地,将所述拍搜行为的搜索结果进行标签化的步骤中所生成的标签包括以下标签中的至少一种:教材、试卷、书本、习题册、页码、试题。

根据本发明的优选实施方式,所述筛选出种子用户的步骤包括:对所述特征向量进行聚类处理;将所述集合中的经所述聚类后得到的最大类中的用户作为所述种子用户。

可选地,在每个集合内部使用社区发现算法对所述集合中用户进行所述聚类处理。

根据本发明的优选实施方式,所述计算非种子用户与各种子用户的拍搜行为相似度之后,所述方法还包括:筛选出与所述非种子用户的相似度在预定范围内的种子用户;预测该非种子用户的所属群组时,根据筛选后的种子用户的群组信息预测该非种子用户的所属群组或群组特征。

根据本发明的优选实施方式,定义用户空间,所述用户空间中,以各用户为顶点,相邻用户间的相似关系为边,相邻用户拍搜行为特征向量的相似度为边的权重,筛选出所述群组信息的置信度大于第一预设值的种子用户时,使用louvain社区发现算法对各集合中的用户进行聚类,以得到所述种子用户;所述计算非种子用户与各种子用户的拍搜行为相似度包括:在所述用户空间中,计算所述非种子用户与各种子用户的距离作为所述相似度;所述筛选出与所述非种子用户的相似度在预定范围内的种子用户包括;计算各集合中最大类中任意两个种子用户的平均距离,筛选出该非种子用户与各集合的种子用户之间的距离小于所述平均距离的种子用户。

根据本发明的优选实施方式,所述根据筛选后的种子用户的原始群组信息预测该非种子用户的所属群组包括:将筛选后的种子用户按其原始群组信息分别统计数量,将对应的种子用户的数量最多的原始群组作为预测的该非种子用户的所属群组;当所述非种子用户所属的聚类中包含的用户数量在预定范围内且该聚类中包含种子用户时,将该种子用户的所属群组预测为所述非种子用户的所属群组。

根据本发明的优选实施方式,在将筛选后的种子用户按其原始群组信息分别统计数量之前还包括:根据所述筛选后的种子用户的地域信息进行筛选,将与所述非种子用户不在同一地域的种子用户进行剔除。

本发明第二方面提出一种基于拍搜行为预测用户所属群组的预测装置,所述拍搜行为是指发起照片搜索请求并获得搜索结果的行为,所述预测装置包括:分组模块,将用户分成不同的集合,使同一集合中的用户具有相同的群组信息,所述群组信息与用户的拍搜行为相关;筛选模块,根据用户的拍搜行为相似度水平,筛选出各集合中所述群组信息的置信度大于第一预设值的种子用户;预测模块,对于非种子用户,计算所述非种子用户与各种子用户的拍搜行为相似度,并根据所述相似度预测所述非种子用户的所属群组,所述非种子用户包括缺失所述群组信息的用户和所述集合中所述群组信息的置信度不大于第一预设值的用户。

本发明第三方面提出一种计算机设备,包括处理器和存储器,所述存储器用于存储计算机可执行程序,当所述计算机程序被所述处理器执行时,所述处理器执行所述的基于拍搜行为预测用户所属群组的方法。

本发明第四方面提出一种计算机程序产品,存储有计算机可执行程序,所述计算机可执行程序被执行时,实现所述的基于拍搜行为预测用户所属群组的方法。

(三)有益效果

与现有技术相比,本发明基于用户的拍搜行为相似度水平,筛选出各集合中所述群组信息的置信度大于第一预设值的种子用户;对于待预测群组的非种子用户,先计算非种子用户与各种子用户的拍搜行为相似度,然后根据所述相似度预测非种子用户的所属群组,所述非种子用户包括缺失群组信息的用户和集合中群组信息的置信度不大于第一预设值的用户。这样,可以更精确地预测非种子用户的所属群组,能够进一步提高预测精度,算法简单高效。

进一步地,本发明通过使用拍搜行为的搜索结果进行向量转换并用于表征用户向量,能够获得更精确的拍搜行为数据,并更精确地表征用户的群组信息;通过从各原始群组中去除非种子用户,能够得到更精确的种子用户集合(即用户群组类别),并能够提高预测精度;还通过使用特征搜索引擎在所述种子用户数据库中进行搜索,将非种子用户的用户特征向量与种子用户数据库中的种子用户的用户特征向量进行相似度计算,以筛选出与其相似度在预定范围内的种子用户,并将对应的种子用户的数量最多的原始群组作为预测的该非种子用户的所属群组,能够有效避免因用户数据量大引起的数据处理速度慢的问题,能够更精确地预测非种子用户的所属群组,能够进一步提高预测精度,还能够进一步优化方法。

附图说明

图1是本发明的实施例1的基于拍搜行为预测用户所属群组的方法的一示例的流程图;

图2是本发明的实施例1的基于拍搜行为预测用户所属群组的方法的另一示例的流程图;

图3是示出了本发明的实施例1的方法中聚类处理得到种子用户集合的一示例的示意图;

图4是本发明的实施例1的基于拍搜行为预测用户所属群组的方法的又一示例的流程图。

图5是本发明的实施例2的基于拍搜行为预测用户所属群组的预测装置的一示例的示意图;

图6是本发明的实施例2的基于拍搜行为预测用户所属群组的预测装置的另一示例的示意图;

图7是本发明的实施例2的基于拍搜行为预测用户所属群组的预测装置的又一示例的示意图;

图8是本发明的一个实施例的计算机设备的结构示意图;

图9是本发明的一个实施例的计算机程序产品的示意图。

具体实施方式

在对于具体实施例的介绍过程中,对结构、性能、效果或者其他特征的细节描述是为了使本领域的技术人员对实施例能够充分理解。但是,并不排除本领域技术人员可以在特定情况下,以不含有上述结构、性能、效果或者其他特征的技术方案来实施本发明。

附图中的流程图仅是一种示例性的流程演示,不代表本发明的方案中必须包括流程图中的所有的内容、操作和步骤,也不代表必须按照图中所显示的顺序执行。例如,流程图中有的操作/步骤可以分解,有的操作/步骤可以合并或部分合并,等等,在不脱离本发明的发明主旨的情况下,流程图中显示的执行顺序可以根据实际情况改变。

附图中的框图一般表示的是功能实体,并不一定必然与物理上独立的实体相对应。即,可以采用软件形式来实现这些功能实体,或在一个或多个硬件模块或集成电路中实现这些功能实体,或在不同网络和/或处理单元装置和/或微控制器装置中实现这些功能实体。

各附图中相同的附图标记表示相同或类似的元件、组件或部分,因而下文中可能省略了对相同或类似的元件、组件或部分的重复描述。还应理解,虽然本文中可能使用第一、第二、第三等表示编号的定语来描述各种器件、元件、组件或部分,但是这些器件、元件、组件或部分不应受这些定语的限制。也就是说,这些定语仅是用来将一者与另一者区分。例如,第一器件亦可称为第二器件,但不偏离本发明实质的技术方案。此外,术语“和/或”、“及/或”是指包括所列出项目中的任一个或多个的所有组合。

本发明提供一种基于拍搜行为预测用户所属群组的方法,该方法通过使用特征搜索引擎对所有属于种子用户建库,将待预测用户的用户特征向量与种子用户的用户特征向量进行相似度计算,以筛选出与其相似度在预定范围内的种子用户,并将对应的种子用户的数量最多的群组作为预测的该预测用户的所属群组,能够有效避免因用户数据量大引起的数据处理速度慢的问题,能够更精确地预测非种子用户的所属群组,能够进一步提高预测精度,还能够进一步优化方法。其中,待预测用户为缺失群组信息的用户和群组信息的置信度低的用户。

需要说明的是,上述特征搜索引擎是指根据用户需求、特定算法,运用特定策略从用户数据库搜索信息并反馈给用户,例如使用faiss工具作为特征搜索引擎,建立用户数据库时输入为每个建库元素的id及其特征向量,当特征搜索引擎检索时,可以通过设置参数来返回信息,例如设置小于特定相似度的元素id,及与该元素id的相似度,在本发明中,所述建库元素包括至少以下一种元素:标签、与各标签相对应的标识码(即元素id)、与各标识码相对应的向量,以及各种子用户的用户id(即用户账号或用户标识码)等,其中,标签包括教材、试卷、书本、习题册、页码、试题等;所述标识码为表示各标签的标签编码或标签id(即元素id)。

为使本发明的目的、技术方案和优点更加清楚明白,以下结合具体实施例,并参照附图,对本发明作进一步的详细说明。

图1是本发明的实施例1的基于拍搜行为预测用户所属群组的方法的一示例的流程图。如图1所示,本发明提供了一种基于拍搜行为预测用户所属群组的方法,所述方法包括:

步骤s101,将用户分成不同的集合,使同一集合中的用户具有相同的群组信息,所述群组信息与用户的拍搜行为相关。

本发明技术方案主要是基于具有相同或相似拍搜行为的用户一般属于相同的群组或具有相同的群组特征来进行的。可以利用具有较高置信度群组信息的种子用户,预测其他用户(例如缺失群组信息,或有群组信息但群组信息的置信度低的用户)所属群组或其具有的群组特征。

需要说明的是,在本发明中,所述群组特征是指表征某一群组(即某一种子用户集合)具有的共同特征例如北京的高三学生这个群组具有的群组特征至少包括地域北京和年级高三。

基于上述原理,本步骤将用户分成不同的集合,使同一集合中的用户具有相同的群组信息,以建立挑选种子用户的备选集合,以便后续筛选置信度较高的种子用户。

步骤s102,根据用户的拍搜行为相似度水平,筛选出所述群组信息的置信度大于第一预设值的种子用户。

对于各集合,本步骤根据用户的拍搜行为相似度水平,筛选出群组信息置信度较高的用户作为种子用户。具体地,可以筛选出群组信息的置信度大于第一预设值的用户。第一预设值的具体数值可由本领域技术人员根据实际情况确定,例如根据准确率和召回率的要求来确定第一预设值,以能保证用户的群组信息是可信的为准。

可选地,可以通过聚类处理,得到的多个类,位于集合的最大类中的用户置信度较高,称为种子用户。

步骤s103,对于非种子用户,计算所述非种子用户与各种子用户的拍搜行为相似度,并根据所述相似度预测所述非种子用户的所属群组,所述非种子用户包括缺失所述群组信息的用户和所述集合中所述群组信息的置信度不大于第一预设值的用户。

本步骤中,计算非种子用户与各集合的种子用户的拍搜行为相似度,如果非种子用户与某一集合中的种子用户的拍搜行为相似度较高,则该集合种子用户的群组信息可以用来预测该非种子用户的群组。

本发明的基于拍搜行为预测用户所属群组的方法,能够基于用户的拍搜行为相似度,较精确地预测群组信息未知或置信度低的用户的所属群组,进一步有助于为用户提供更精准的服务或服务推送。

需要说明的是,在本发明中,所述拍搜行为是指发起照片搜索请求并获得搜索结果的行为。使用场景存在多种,下面以包含拍搜功能的教育服务产品中拍照搜题的应用场景作为示例,进行具体说明。

图2是示出了本发明的实施例1的基于拍搜行为预测用户所属群组的方法的另一示例的流程图。

如图2所示,在步骤s201中,将用户分成不同的集合,使同一集合中的用户具有相同的群组信息,所述群组信息与用户的拍搜行为相关。

在本示例中,例如可调用用户在教育服务产品的app注册信息,识别所述app注册信息中的学校信息或年级信息,利用该app注册信息中的学校或年级这些群组信息将用户分成多个集合(即种子用户备选集合,用来挑选置信度较高的种子用户的)。

需要说明的是,本实施例的集合(即种子用户备选集合)为基于预测需求为挑选种子用户而建立的临时性的用户集合,例如,如果要预测用户是使用人教版的还是北师大版的用户群组,则将用户分成多个集合时,依据的群组信息可以包括地域、学校、年级、班级中的至少一种。一个用户同时可以有多个群组信息。再例如根据实际需要,还可以预测用户的年级,但是不限于此,还可以预测地域、学校,还可以预测可能有共同需求(例如补课需求)的同一类用户等等。

具体地,该app注册信息还可包括地域信息、学段信息、用户账号等。优选地,该app注册信息例如为用户对于教育服务产品app的注册信息,其中,该教育服务产品app具有拍照搜题功能。

需要说明的是,由于app注册信息中包含虚假信息,群组信息存在不可靠的情况,因此,在此称为原始群组信息。换言之,本步骤将具有原始群组信息的用户分成不同的集合,每一集合具有某种相同的群组信息。原始群组信息指已有的但包含不可信内容的群组信息。

更具体地,在同一集合中的用户具有相同的原始群组信息,具体地,例如,该原始群组信息可以包括学校、年级、班级、小组中的至少一种。原始群组信息例如可以包括学校和年级,不限于此,在其他示例中,还可以包括地域、学段等。

需要说明的是,上述仅作为优选示例进行说明,不能理解成对本发明的限制。

在上述应用场景下,从教育服务产品app获取全量用户的历史拍搜行为数据,并对所述历史拍搜行为数据进行标注处理,所述历史拍搜行为数据可包括搜题请求数据和/或搜题结果数据,其中,该全量用户包括步骤s201中的多个集合(即种子用户的备选集合)。

可选地,所述搜题请求数据包括照片搜题请求,该照片搜题请求是整页拍照的照片搜题请求。相同群组的用户大概率使用相同的教材和教辅资料,基于整页拍照可以很快地计算出待预测用户的所属群组。基于此设想,照片包含内容越多,预测速度和准确率等越高。在一些示例中,可以使用训练好的机器学习模型,检测识别各搜题请求数据中的拍搜图像是否是整页试卷或整页书籍,或者是否是包含超过特定数量的题目的图像。

具体地,在所述拍搜图像是整页试卷或整页书籍时或者是包含超过特定数量的题目的图像时,可筛选出对应客户端的拍搜图像,并进行请求归一化。

在一些实施例中,上述对所述拍搜图像进行请求归一化,以判断不同用户的搜索行为数据是否是同一请求。其中,在两个或更多个用户的搜索行为数据是同一请求的情况下,确定各用户在特定时间段内所述同一请求的次数,并计算各用户属于同一集合(用户群组)的概率,以用于后续对标注处理后的搜题结果数据进行去重处理。

例如,如果两个人拍搜图像的记录中命中同一需求一次,则这个两个人有p概率是同一班级,而当这两个人拍搜图像的记录中命中同一需求n次,在按照概率计算时,这两个人是同一班级的概率是1-(1-p)^n,所以n越大同一班级的概率也越大。

由此,选定整页试卷或整页书籍的拍搜图像作为搜索请求,对该拍搜图像(即搜索请求)或拍搜结果进行教材、试卷、书本、习题册、页码、试题等的标注处理,并使用标注处理后的搜题结果进行向量转换并用于表征各用户的拍搜行为,能够获得更精确的拍搜行为特征数据,以便后续基于拍搜行为相似度更精确地预测用户的群组信息。

需要说明的是,因为同一道题会出现在非常多的不同的教材,练习册,试卷当中,即不同用户的相同需求(搜索同一道题)不能特别好的表达两个用户之间的相似关系,所以搜索需求场景筛选上,本实施例优先使用整页拍搜图像,而不是针对一道题,由此,能够更精确地确定各用户的群组信息。

此外,对于整页试卷或整页书籍的选定,上述仅作为优选示例进行说明,不能理解成对本发明的限制。在其他示例中,还可以使用半页图像,或者题目数量超过特定数量的图像等进行搜索。

需要说明的是,所述标注处理是对所述搜题请求数据和/或搜题结果数据进行标签化(或者标识化)的处理,以下将参照图2对所述标注处理(即标签化处理或者标识化处理)进行具体说明。

如图2所示,本发明的方法还包括:将所述拍搜行为的搜索结果进行标签化,并将标签化的搜索结果转化为特征向量的步骤s202。后续在步骤203、步骤204中基于所述特征向量计算用户的拍搜行为相似度。

需要说明的是,步骤s202搜索结果标签化只需在计算拍搜行为相似度之前完成即可,具体实施节点不做限定。

在一些实施例中,步骤s202包括:

步骤一、将所述拍搜行为的搜题结果进行标签化,以形成与所述拍搜行为相对应的标签序列。

本步骤获取用户的拍搜行为历史,所述拍搜行为历史的数据表述形式可以是数字化的标签序列。示例性地,本步骤将所获取的历史拍搜行为对应的搜索结果进行标签化(即标识标签的处理过程),形成标签序列(即表征为标签序列),所述标签序列中的每个标签代表了所述搜索结果的至少一个特征。其中,所述拍搜行为是指发起基于照片的搜题请求获得搜题结果的行为。

步骤二,将所述标签序列转化为向量序列。本步骤将所述标签序列进行向量化,使标签序列变成了向量序列。

步骤三、将所述向量序列归一化为特征向量(在本示例中,为拍搜行为特征向量),以表征各用户的拍搜行为。本步骤对向量序列进行计算,得到一个唯一的向量(后续作为用户的拍搜行为特征向量),该向量的维度与之前的向量序列的向量相等。

其中,将所述标签序列转化为向量序列是指对所述标签序列中的各标签进行向量化(或者转换成向量),形成与各标签相对应的多个向量,即形成向量序列;归一化是将上述各标签向量化后的向量序列转化为一个向量,即转化为上述的拍搜行为特征向量。该特征向量(例如特定维度的特征向量或特征向量矩阵)用于后续计算两用户之间的拍搜行为相似度。

为便于理解,下面给出一些具体举例。例如,若用户拍搜了10次,将对应10次检索返回结果。每个检索返回结果可以用tid或者pid来表征。tid为试题id,pid是页的图片id。然后,将表征拍照搜题行为的tid和pid进行向量化,这个用户搜索了10次,所以相当于是由长度为10的tid/pid序列构成。因为tid和pid已经向量化了,那么这个向量化之后的序列也是可以进行一系列计算(即归一化),变成一个向量。至此一个用户就被一个向量表示了。综上所述,在拍照搜题场景下,步骤s202整体思路是要把用户或用户的拍搜行为向量化。方法是通过把用户拍搜的每个行为向量化,然后对行为向量化序列进行某种归一化计算变成一个向量,使得行为序列=用户,这样所以用户就变向量化了,便于后续基于拍搜行为相似度预测用户群组。

上述将所述拍搜行为的搜题结果进行标签化的步骤所生成的标签可包括以下的至少一种:教材、试卷、书本、习题册、页码、试题。进一步地,对教材、试卷、书本、习题册、页码、试题等的上述各标签进行标注(或进行标识),以形成材标识、试卷标识、书本标识、习题册标识、页码标识、试题标识。

可选地,将特定时间内各用户的历史拍搜行为所对应的搜索结果进行标签化(标注标签),以形成与各用户的历史搜题结果相对应的标签序列,并得到标签化后的拍搜行为结果特征数据(即包括上述标识中的至少一种标签标识的标签序列),并将该标签序列进行向量转换,生成拍搜行为特征向量,以表征各用户的拍搜行为,并用于后续计算两用户之间的拍搜行为相似度。

例如,所述标签序列包括与拍搜图像(即拍搜请求数据)对应的多个信息条,每一个信息条表征为一个标识码,其中,该信息条例如为一个待检索的无答案题目,一个包含答案的题目等。

再例如,所述标签序列包括与搜题结果数据对应的多个信息条,其中,该搜题结果数据包括试题标识(使用tid表示)和/或教材标识(使用pid表示)。具体地,在一个月内,用户1的搜题结果包括a1:1 2=3,p2,a2:15-2=13,a4,p5…an=10-2=8,对该用户1的搜题结果进行标签化之后,所生成的用户1的标签序列为(a1,p2,a2,a4,p5…an)。在本示例中为一行标签序列,但是具体实施时并不限于此,该标签序列可根据获取时间段或者用户的搜索行为不同而发生变化。

将标签化的搜题结果转化为特征向量,将所述各用户的标签序列中的信息条进行向量转化,并根据所述标签序列中各信息条的向量转换成特定维度的向量。

对于向量转换(或者向量化),在本示例中,使用fasttext方法,并采用skip-gram算法,建立向量转换模型,并使用该向量转换模型对用户的标签序列进行向量转换。

具体地,使用嵌入式学习方法,并使用训练数据集训练该向量转换模型,神经网络隐藏层即可输出每个标注(标识码或标签标识)的固定维数的向量,其中,所述训练数据集包括历史用户的标签序列(对拍搜结果进行标注形成的标签序列)、该标签序列中每个标识码对应的向量、以及历史拍搜行为特征向量。

在本示例中,可通过平均池化方法进行向量化编码,即将所有标注(标识码或标签标识)的特定维数的向量求平均向量,以得到用于表征用户拍搜行为的拍搜行为特征向量。

可选地,还可将用户表征为该用户(在特定时间段内)拍搜行为的特征向量,其中,定义所述特征向量的名称为用户标识,定义所述特征向量的长度(即特定向量维度)为用户拍搜行为的特征表述。

需要说明的是,在本示例中,对所述搜索结果进行标签标注,但是不限于此,在其他示例中,还包括对搜索行为数据或者对搜索结果数据和搜索行为数据进行标签标注。上述仅作为可选示例进行说明,不能理解成对本发明的限制。

优选地,对标注处理后的搜索结果数据(和/或搜索行为数据)进行去重处理,再将去重处理后的搜索结果数据(和/或搜索行为数据)所对应的标签序列进行向量转换,以生成例如上述拍搜行为特征向量等的特征向量。

由此,通过步骤s202得到与所述拍搜行为相对应的标签序列,并进行向量转换,进一步生成例如拍搜行为特征向量等的特征向量,能够更精确表征用户的拍搜行为,能够获得更精确的拍搜行为数据,还能够供后续用户之间的相似度计算使用。

需要说明的是,上述仅作为示例进行说明,不能理解成对本发明的限制。

接下来,在步骤s203中,根据用户的拍搜行为相似度水平,筛选出所述群组信息的置信度大于第一预设值的种子用户。

可选地,通过使用由步骤s202得到的用户的拍搜行为特征向量,进行聚类处理,形成多个类(又称为簇),每一个类表示一个具有相似拍搜行为的子集合,其中,所述用户包括步骤s201中所述备选的种子用户集合中的所有用户,换言之,所述用户是指全量用户。基于同一真实群组的用户具有相似的拍搜行为,可以确定同一集合(例如注册信息为同一班级的用户)的最大类中的用户的置信度是较高的。

具体地,使用全量用户的拍搜行为特征向量进行聚类,以确定各用户的群组信息的置信度水平,筛选出种子用户,所述种子用户是集合中具有的原始群组信息的置信度大于第一预设值的用户。置信度大于第一预设值的用户,我们认为原始群组信息是可信的。

进一步地,计算所有用户中两用户之间的拍搜行为相似度水平,即计算任意两个用户的拍搜行为特征向量的相似度,并根据所计算的拍搜行为相似度进行聚类处理,得到多个集合(即原始群组对应的集合)。

可选地,使用社区发现算法对上述方法得到的多个集合中的每个集合(或者步骤s201中得到的每个集合)进行聚类处理,具体是对每一个集合中的用户进行聚类处理。

具体地,所述使用社区发现算法包括定义用户空间,所述用户空间中,以各用户为顶点(例如图3中的用户1~10),相邻用户间的相似关系为边(例如图3中的d1~d10),相邻用户拍搜行为特征向量的相似度为边的权重,以形成用户关系网,可参见图3。

图3是示出了本发明的实施例1的方法中聚类处理得到种子用户集合的一示例的示意图。

如图3所示,使用louvain社区发现算法对一个集合(例如图中由圆圈表示的集合)中的用户进行聚类,以得到具有最大类(图中由用户1、2、3、5、7、9和10一共7个用户的关系网形成的集合),将所述聚类处理后得到的该集合中的最大类内中用户作为种子用户,并将该最大类(即图中用户1、2、3、5、7、9和10一共7个用户)作为种子用户集合。其他用户(例如用户4、8、6)原始群组信息确实或者置信度较低,称为非种子用户。

进一步地,依次对所有集合进行聚类以筛选种子用户,直到所有的集合完成种子用户的筛选为止。

由此,能够更精确地确定种子用户集合和非种子用户。

优选地,使用所得到的种子用户、种子用户集合以及各种子用户的用户id(即用户账号或用户标识码)建立种子用户数据库,以使用特征搜索引擎查询该用户数据库,以预测非种子用户的所属群组或群组特征。

可选地,该种子用户数据库还包括各种子用户的用户id以及使用试卷标识信息和/或教材标识息所表征的特征向量等。

需要说明的是,上述仅作为示例进行说明,不能理解成对本发明的限制。

接下来,在步骤s204中,对于非种子用户,计算所述非种子用户与各种子用户的拍搜行为相似度,并根据所述相似度预测所述非种子用户的所属群组(或群组特征),所述非种子用户包括缺失所述群组信息的用户和所述集合中所述群组信息的置信度不大于第一预设值的用户。

具体地,获取待预测用户的搜题请求数据和/或搜题结果数据,该搜题结果数据包括试题标识和/或教材标识。

进一步地,通过试题标识和/或教材标识(即拍搜行为),将该非种子用户表征为拍搜行为特征向量,并确定该待预测用户为非种子用户。

在本示例中,分别计算该待预测用户(即非种子用户)与各种子用户的拍搜行为相似度,具体分别计算该待预测用户(即非种子用户)的拍搜行为特征向量与所述种子用户数据库中种子用户的拍搜行为特征向量之间的距离(作为相似度),例如,在所述用户空间中,计算所述非种子用户与各种子用户的距离作为所述相似度,以预测所述非种子用户的所属用户群。

具体地,使用特征搜索引擎在所述种子用户数据库中进行搜索,并筛选出与该待预测用户(即非种子用户)的相似度在预定范围内的种子用户,预测该非种子用户的所属群组时,根据筛选后的种子用户的群组信息预测该非种子用户的所属群组或群组特征。

进一步地,所述筛选出与所述非种子用户的相似度在预定范围内的种子用户包括:计算各集合中最大类中任意两个种子用户的平均距离,筛选出该非种子用户与各集合的种子用户之间的距离小于所述平均距离的种子用户。

由此,基于所述特征搜索引擎在所述种子用户数据库中进行搜索,返回的搜索结果,该搜索结果为小于相似度预定范围内的种子用户列表,该种子用户列表包括特定数量的种子用户。

接着,将筛选后的种子用户(即种子用户列表)按其原始群组信息所对应的集合分别统计数量,将对应的种子用户的数量最多的集合作为预测该非种子用户的所属群组或群组特征,或者将所述非种子用户的群组特征预测为该种子用户的所属群组信息。

可选地,当所述非种子用户所属的聚类(对应集合)中包含的用户数量在预定范围内且该聚类(对应集合)中包含种子用户时,将所述非种子用户的所属群组预测为该种子用户的所属群组,或者将所述非种子用户的群组特征预测为该种子用户的所属群组信息。

优选地,在地域信息与群组信息强相关时,例如预测用户班级时,用户地域与用户班级关系黏度较大,在将筛选后的种子用户按其原始群组信息分别统计数量之前,可以根据所述筛选后的种子用户的地域信息进行筛选,将与所述非种子用户不在同一地域的种子用户进行剔除。后续再对剔除不在同一地域的种子用户后的种子用户(即种子用户列表),按其原始群组信息所对应的集合分别统计数量,将对应的种子用户的数量最多的集合作为预测该非种子用户的所属群组或群组特征。

另外,基于地域信息的筛选工作也可以在相似度计算之前进行。先将集合中不在同一地域的用户进行剔除,再通过使用特征搜索引擎在所述种子用户数据库中进行搜索,将非种子用户的特征向量与种子用户数据库中的种子用户的特征向量进行相似度计算,以筛选出与其相似度在预定范围内的种子用户,并将对应的种子用户的数量最多的原始群组作为预测的该非种子用户的所属群组,能够有效避免因用户数据量大引起的数据处理速度慢的问题,能够更精确地预测非种子用户的所属群组,能够进一步提高预测精度,还能够进一步优化方法。

需要说明的是,上述仅作为示例进行说明,不能理解成对本发明的限制。

图4是示出了本发明的实施例1的基于拍搜行为预测用户所属群组的方法的又一示例的流程图。

如图4所示,还包括对种子用户进行去噪处理的步骤s403,其中,由于步骤s401、步骤s402和步骤s404分别与图1中的步骤s201、步骤s203和步骤s204相同,因此省略了对步骤s401、步骤s402和步骤s404的说明。以下将对步骤s403进行具体说明。

在步骤s403中,对种子用户进行去噪处理,以生成更精确的种子用户集合。

具体地,所述用户关系网络图包括用户顶点、边权重,该用户关系网络图以用户为顶点,用户之间的相似关系为边,两用户的特征向量(在本示例中为拍搜行为特征向量)的相似度为边权重。

用户如果填写了信息,可能会进入依据填写信息分成的集合中,是可以作为种子用户的候选,但是这部分信息可能是不置信的,需要要把乱填的、信息过期等噪声点过滤掉,所以采用社区发现算法对噪声点进行过滤。种子用户是社区发现算法中最大簇里面的节点,如果用户没落在这个最大簇里面,那么用户虽然填写了信息,但也不是种子用户。

基于此,对于同一原始群组的用户,大部分用户顶点会被划分到同一个社区中,噪声点会被划分到其他小社区中,由此,确定噪声点(即非种子用户),并去除该噪声点,以得到最终的种子用户集合。

在另一示例中,对于同一原始群组中用户进行聚类之后,对于最大类集合中距离中心点的距离大于特定距离的种子用户去除,换言之,对于距中心点的距离大于特定距离的离群点(即非种子用户)去掉,以生成最终的种子用户集合。

在又一示例中,还根据最大类集合中的各用户的地域信息进行判断,并去除不属于该最大类集合的区域的种子用户,以生成最终的种子用户集合。

具体地,例如非种子用户包括班级信息或年级信息不真实的用户、学校的地址与区域信息不一致的用户等等。

由此,通过从各原始群组中去除非种子用户,能够得到更精确的种子用户集合(即用户群组类别),并能够提高预测精度。

上述基于拍搜行为预测用户所属群组的方法的过程仅用于对本发明的说明,其中,步骤的顺序和数量没有特别的限制。此外,上述方法中的步骤还可以拆分成两个、三个,或者有些步骤也可以合并成一个步骤,根据实际示例进行调整。

与现有技术相比,本发明基于用户的拍搜行为相似度水平,筛选出各集合中所述群组信息的置信度大于第一预设值的种子用户;对于待预测群组的非种子用户,先计算非种子用户与各种子用户的拍搜行为相似度,然后根据所述相似度预测非种子用户的所属群组,所述非种子用户包括缺失群组信息的用户和集合中群组信息的置信度不大于第一预设值的用户。这样,可以更精确地预测非种子用户的所属群组,能够进一步提高预测精度,算法简单高效。

进一步地,本发明通过使用拍搜行为的搜索结果进行向量转换并用于表征用户向量,能够获得更精确的拍搜行为数据,并更精确地表征用户的群组信息;通过从各原始群组中去除非种子用户,能够得到更精确的种子用户集合(即用户群组类别),并能够提高预测精度;还通过使用特征搜索引擎在所述种子用户数据库中进行搜索,将非种子用户的用户特征向量与种子用户数据库中的种子用户的用户特征向量进行相似度计算,以筛选出与其相似度在预定范围内的种子用户,并将对应的种子用户的数量最多的原始群组作为预测的该非种子用户的所属群组,能够有效避免因用户数据量大引起的数据处理速度慢的问题,能够更精确地预测非种子用户的所属群组,能够进一步提高预测精度,还能够进一步优化方法。

实施例2

下面描述本发明的装置实施例,该装置可以用于执行本发明的方法实施例。对于本发明装置实施例中描述的细节,应视为对于上述方法实施例的补充;对于在本发明装置实施例中未披露的细节,可以参照上述方法实施例来实现。

参照图5至图7,将说明本发明的实施例2的基于拍搜行为预测用户所属群组的预测装置500。

根据本发明的第二方面,本发明还提供了一种基于拍搜行为预测用户所属群组的预测装置500,其中,所述拍搜行为是指发起照片搜索请求并获得搜索结果的行为。

具体地,所述预测装置500包括:分组模块501,用于将用户分成不同的集合,使同一集合中的用户具有相同的群组信息,所述群组信息与用户的拍搜行为相关;筛选模块502,根据用户的拍搜行为相似度水平,筛选出各集合中所述群组信息的置信度大于第一预设值的种子用户;预测模块503,对于非种子用户,计算所述非种子用户与各种子用户的拍搜行为相似度,并根据所述相似度预测所述非种子用户的所属群组,所述非种子用户包括缺失所述群组信息的用户和所述集合中所述群组信息的置信度不大于第一预设值的用户。

如图6所示,还包括聚类模块601,所述聚类模块601用于在筛选所述种子用户之前,将所述拍搜行为的搜索结果进行标签化,并将标签化的搜索结果转化为特征向量,来表征用户的拍搜行为;后续基于所述特征向量计算所述用户的拍搜行为相似度。

具体地,将所述拍搜行为的搜索结果进行标签化,并将标签化的搜索结果转化为特征向量,包括:获取用户的历史拍搜行为,并将所述历史拍搜行为依据对应的搜索结果表征为标签序列,所述标签序列中的每个标签代表了所述搜索结果的至少一个特征;将所述标签序列转化为向量序列;将所述向量序列归一化为所述特征向量。

可选地,还包括:将用户表征为其拍搜行为的特征向量:定义所述特征向量的名称为用户标识,定义所述特征向量的长度为用户拍搜行为的特征表述。

可选地,将所述历史拍搜行为依据对应的搜索结果表征为标签序列,包括:对所述搜索结果进行标签标注;对标注处理后的搜索结果数据进行去重处理。

可选地,所述拍搜行为是指发起基于照片的搜题请求获得搜题结果的行为。

可选地,所述照片为整页拍照的整页照片;所述标签序列包括:试题和书页。

可选地,所述群组信息包括下述中的至少一项:用户的所属区域、学校、年级、班级、小组。

进一步地,将所述拍搜行为的搜索结果进行标签化的步骤中所生成的标签包括以下标签中的至少一种:教材、试卷、书本、习题册、页码、试题。

进一步地,所述聚类模块601还用于对所述特征向量进行聚类处理;将所述集合中的经所述聚类后得到的最大类中的用户作为所述种子用户。

可选地,在每个集合内部使用社区发现算法对所述集合中用户进行所述聚类处理。

可选地,在每个集合内部使用社区发现算法对所述集合中用户进行聚类,所得到的集合中的最大类内的用户为所述种子用户。

具体地,所述使用社区发现算法包括定义用户空间,所述用户空间中,以各用户为顶点,相邻用户间的相似关系为边,相邻用户拍搜行为特征向量的相似度为边的权重,筛选出所述群组信息的置信度大于第一预设值的种子用户时,使用louvain社区发现算法对各集合中的用户进行聚类,以得到所述种子用户。

优选地,使用所得到的种子用户、种子用户集合以及各种子用户的用户id(即用户账号或用户标识码),建立种子用户数据库,以使用特征搜索引擎查询该用户数据库,以预测非种子用户的所属群组或群组特征。

其中,每个种子用户集合对应一个用户群组,所述种子用户包括学校标签和年级标签,并且所述种子用户是其具有的原始群组信息的置信度大于第一预设值的用户。

如图7所示,还包括计算模块701,所述计算模块701用于计算非种子用户与例如种子用户数据库中各种子用户的拍搜行为相似度,筛选出与所述非种子用户的相似度在预定范围内的种子用户,当预测该非种子用户的所属群组时,根据筛选后的种子用户的群组信息预测该非种子用户的所属群组。

进一步地,所述计算模块701还包括:计算所述非种子用户的拍搜行为特征向量与所述各种子用户的拍搜行为特征向量之间的距离作为所述相似度。

具体地,从所述种子用户数据库中,筛选出与所述非种子用户的相似度在预定范围内的种子用户;在预测该非种子用户的所属群组时,根据筛选后的种子用户的群组信息预测该非种子用户的所属群组或群组特征。

进一步地,所述筛选出与所述非种子用户的相似度在预定范围内的种子用户包括:计算各集合中最大类中任意两个种子用户的平均距离,筛选出该非种子用户与各集合的种子用户之间的距离小于所述平均距离的种子用户。

接着,将筛选后的种子用户按其原始群组信息分别统计数量,将对应的种子用户的数量最多的原始群组作为预测的该非种子用户的所属群组;当所述非种子用户所属的聚类中包含的用户数量在预定范围内且该聚类中包含种子用户时,将该种子用户的所属群组预测为所述非种子用户的所属群组。

优选地,在将筛选后的种子用户按其原始群组信息分别统计数量之前还包括:根据所述筛选后的种子用户的地域信息进行筛选,将与所述非种子用户不在同一地域的种子用户进行剔除。

需要说明的是,在实施例2中,省略了与实施例1相同的部分的说明。

本领域技术人员可以理解,上述装置实施例中的各模块可以按照描述分布于装置中,也可以进行相应变化,分布于不同于上述实施例的一个或多个装置中。上述实施例的模块可以合并为一个模块,也可以进一步拆分成多个子模块。

与现有技术相比,本发明基于用户的拍搜行为相似度水平,筛选出各集合中所述群组信息的置信度大于第一预设值的种子用户;对于待预测群组的非种子用户,先计算非种子用户与各种子用户的拍搜行为相似度,然后根据所述相似度预测非种子用户的所属群组,所述非种子用户包括缺失群组信息的用户和集合中群组信息的置信度不大于第一预设值的用户。这样,可以更精确地预测非种子用户的所属群组,能够进一步提高预测精度,算法简单高效。

进一步地,本发明通过使用拍搜行为的搜索结果进行向量转换并用于表征用户向量,能够获得更精确的拍搜行为数据,并更精确地表征用户的群组信息;通过从各原始群组中去除非种子用户,能够得到更精确的种子用户集合(即用户群组类别),并能够提高预测精度;还通过使用特征搜索引擎在所述种子用户数据库中进行搜索,将非种子用户的用户特征向量与种子用户数据库中的种子用户的用户特征向量进行相似度计算,以筛选出与其相似度在预定范围内的种子用户,并将对应的种子用户的数量最多的原始群组作为预测的该非种子用户的所属群组,能够有效避免因用户数据量大引起的数据处理速度慢的问题,能够更精确地预测非种子用户的所属群组,能够进一步提高预测精度,还能够进一步优化方法。

实施例3

本实施例以在线教育app用户的班级预测为例,提供基于上述方法的基于拍照搜题行为预测用户所属班级的方法,主要包括以下步骤:

步骤1、对用户拍搜行为进行统一标注,标注定义为用户拍搜需求归一化,即用户对同一道题的搜索行为视为同一需求(不同用户会上传不同的拍搜需求进行检索);标注方法,因为同一道题会出现在非常多的不同的教材,练习册,试卷当中,即不同用户的相同需求(搜索同一道题)不能特别好的表达两个用户之间的相似关系,所以需求场景筛选上,使用整页拍搜需求,因为整页拍搜用户是对一整页试题进行拍照搜题,而不是针对一道题,如果不同用户上传了相同的整页试题,那么其他们使用相同的教材,练习册或者试卷的概率可以达到80%以上,如果多次拍摄记录都命中相同整页试题,那么此概率按照独立事件进行计算,会非常快速增长,置信度也非常高;整页拍搜需求大部分命中的资源大部分来自于教材,练习册与试卷我们把上述资源的tid(试题)和pid(书页)统一记为key,全量归一化完成后可以得到有限个tid和pid构成的key集合,即为标签集合,那么用户搜索行为可以表征为标签序列,序列中的每个元素代表了一个具体的标签key;

步骤2、将key进行数字编码,所有key编码构成的有限集合可以视为完备的字典,字典中元素可以看作是词语,标签序列即是由词语按照不同顺序排列而成的文章,所以每个用户可以看作是一篇独立的文章,通过嵌入式学习方法,可以将字典中的数字编码向量化;嵌入式学习方法使用fassttext工具,采用skip-gram算法,输入为多行标注序列,每行即为一篇文章,每篇文章是由词语按照不同的顺序排列构成,模型本身为浅层神经网络,训练完成后,神经网络隐藏层即可输出每个标注(词语)固定维数的向量;

步骤3、通过编码向量化,文章(标签序列)也可以通过平均池化方法进行向量化编码,最终每个用户可以由向量表示,而搜索行为相近用户的向量余弦相似度也是较大的,实际计算中我们使用一减去向量余弦相似度,刻画任意两个用户之间的拍搜行为相似性,拍搜行为越相似,相似度量越小,对于同一个班的用户,任意两个用户之间的相似度量大概率都是非常小的(因为在同一时间段同班级的用户搜索过的教材,练习册,试卷是极为相似的);

步骤4、有相当一部分的用户在作业帮app填写过学校 年级信息,定义班级为同一学校的同一年级,即可以视作用户填写了班级信息,实际填写时,不同用户对同一学校名称会填写不同内容,梳理了全国30多万所小学,初中,高中学校名称和地域信息,对学校名称进行归一化,并根据用户填写的省份城市信息和学校信息,映射至归一化后的学校名称;

步骤5、定义以用户为定点,用户的相似关系为边,向量的相似度为边的权重,任意一个用户可以计算与所有其他用户间的拍搜行为相似情况,作业帮有上亿的月活用户,如果两两计算用户拍搜行为相似度计算规模是亿亿规模的,把填写过班级信息的用户放置在对应的班级集合中,则可以得到上百万个班级集合,然后在每个集合内部使用louvain社区发现算法对用户进行聚簇,集合中的最大簇我们认为是置信的,不在最大簇中的用户将其从集合中剔除;louvain算法的输入是图中顶点与边权重,输出为顶点构成的社区集合,在我们的场景中,大部分顶点都会被划分到一个社区中,噪声点划分到其他小社区中;

步骤6、位于班级最大簇中的用户称其为种子用户,没有填写过学校标签或者被剔除的不置信用户称其为未知班级用户,使用特征搜索引擎对所有属于种子用户进行建库,计算每个最大簇中任意两个用户的平均距离(相似度量),利用特征向量引擎可以计算每个未知班级用户的小于平均距离的种子用户集合;特征引擎我们使用faiss工具,建库时输入为每个建库元素的id及其特征向量,特征引擎检索时,可以设置参数返回库内小于指定距离的元素id,及与该元素的具体距离(相似度);

步骤7、每个未知班级用户都可以计算出其相似种子用户集合,基于未知班级用户的地域信息,将集合中非本地学校的相似种子用户作为噪声点过滤掉,然后按照种子用户的班级标签进行投票计数,将召回票数最多的班级视为该未知班级用户的标签;实际操作过程中会有一定比例未知班级用户的相似种子用户集合为空(拍搜行为过少或新用户),对于这部分用户预测准确度较低。

基于用户之间的拍搜行为相似度展开的班级预测方法,计算量相对较少,准确度高,便于后续为用户提供高质服务。

实施例4

下面描述本发明的计算机设备实施例,该计算机设备可以视为对于上述本发明的方法和装置实施例的具体实体实施方式。对于本发明计算机设备实施例中描述的细节,应视为对于上述方法或装置实施例的补充;对于在本发明计算机设备实施例中未披露的细节,可以参照上述方法或装置实施例来实现。

图8是本发明的一个实施例的计算机设备的结构示意图,该计算机设备包括处理器和存储器,所述存储器用于存储计算机可执行程序,当所述计算机程序被所述处理器执行时,所述处理器执行图1的方法。

如图8所示,计算机设备以通用计算设备的形式表现。其中处理器可以是一个,也可以是多个并且协同工作。本发明也不排除进行分布式处理,即处理器可以分散在不同的实体设备中。本发明的计算机设备并不限于单一实体,也可以是多个实体设备的总和。

所述存储器存储有计算机可执行程序,通常是机器可读的代码。所述计算机可读程序可以被所述处理器执行,以使得计算机设备能够执行本发明的方法,或者方法中的至少部分步骤。

所述存储器包括易失性存储器,例如随机存取存储单元(ram)和/或高速缓存存储单元,还可以是非易失性存储器,如只读存储单元(rom)。

可选的,该实施例中,计算机设备还包括有i/o接口,其用于计算机设备与外部的设备进行数据交换。i/o接口可以为表示几类总线结构中的一种或多种,包括存储单元总线或者存储单元控制器、外围总线、图形加速端口、处理单元或者使用多种总线结构中的任意总线结构的局域总线。

应当理解,图8显示的计算机设备仅仅是本发明的一个示例,本发明的计算机设备中还可以包括上述示例中未示出的元件或组件。例如,有些计算机设备中还包括有显示屏等显示单元,有些计算机设备还包括人机交互元件,例如按扭、键盘等。只要该计算机设备能够执行存储器中的计算机可读程序以实现本发明方法或方法的至少部分步骤,均可认为是本发明所涵盖的计算机设备。

图9是本发明的一个实施例的计算机程序产品的示意图。如图9所示,计算机程序产品中存储有计算机可执行程序,所述计算机可执行程序被执行时,实现本发明上述方法。所述计算机可读存储介质可以包括在基带中或者作为载波一部分传播的数据信号,其中承载了可读程序代码。这种传播的数据信号可以采用多种形式,包括但不限于电磁信号、光信号或上述的任意合适的组合。可读存储介质还可以是可读存储介质以外的任何可读介质,该可读介质可以发送、传播或者传输用于由指令执行系统、装置或者器件使用或者与其结合使用的程序。可读存储介质上包含的程序代码可以用任何适当的介质传输,包括但不限于无线、有线、光缆、rf等等,或者上述的任意合适的组合。

可以以一种或多种程序设计语言的任意组合来编写用于执行本发明操作的程序代码,所述程序设计语言包括面向对象的程序设计语言—诸如java、c 等,还包括常规的过程式程序设计语言—诸如“c”语言或类似的程序设计语言。程序代码可以完全地在用户计算设备上执行、部分地在用户设备上执行、作为一个独立的软件包执行、部分在用户计算设备上部分在远程计算设备上执行、或者完全在远程计算设备或服务器上执行。在涉及远程计算设备的情形中,远程计算设备可以通过任意种类的网络,包括局域网(lan)或广域网(wan),连接到用户计算设备,或者,可以连接到外部计算设备(例如利用因特网服务提供商来通过因特网连接)。

通过以上对实施方式的描述,本领域的技术人员易于理解,本发明可以由能够执行特定计算机程序的硬件来实现,例如本发明的系统,以及系统中包含的电子处理单元、服务器、客户端、手机、控制单元、处理器等。本发明也可以由执行本发明的方法的计算机软件来实现,例如由微处理器、电子控制单元,客户端、服务器端等执行的控制软件来实现。但需要说明的是,执行本发明的方法的计算机软件并不限于由一个或特定个的硬件实体中执行,其也可以是由不特定具体硬件的以分布式的方式来实现。对于计算机软件,软件产品可以存储在一个计算机可读的存储介质(可以是cd-rom,u盘,移动硬盘等)中,也可以分布式存储于网络上,只要其能使得计算机设备执行根据本发明的方法。

以上所述的具体实施例,对本发明的目的、技术方案和有益效果进行了进一步详细说明,应理解的是,本发明不与任何特定计算机、虚拟装置或者计算机设备固有相关,各种通用装置也可以实现本发明。以上所述仅为本发明的具体实施例而已,并不用于限制本发明,凡在本发明的精神和原则之内,所做的任何修改、等同替换、改进等,均应包含在本发明的保护范围之内。


技术特征:

1.一种基于拍搜行为预测用户所属群组的方法,所述拍搜行为是指发起照片搜索请求并获得搜索结果的行为,其特征在于,所述方法包括如下步骤:

将用户分成不同的集合,使同一集合中的用户具有相同的群组信息,所述群组信息与用户的拍搜行为相关;

根据用户的拍搜行为相似度水平,筛选出各集合中所述群组信息的置信度大于第一预设值的种子用户;

对于非种子用户,计算所述非种子用户与各种子用户的拍搜行为相似度,并根据所述相似度预测所述非种子用户的所属群组,所述非种子用户包括缺失所述群组信息的用户和所述集合中所述群组信息的置信度不大于第一预设值的用户。

2.根据权利要求1所述的基于拍搜行为预测用户所属群组的方法,其特征在于,筛选所述种子用户之前,所述方法还包括:将所述拍搜行为的搜索结果进行标签化,并将标签化的搜索结果转化为特征向量来表征用户的拍搜行为;

后续基于所述特征向量计算所述用户的拍搜行为相似度。

3.根据权利要求2所述的基于拍搜行为预测用户所属群组的方法,其特征在于,所述将所述拍搜行为的搜索结果进行标签化,并将标签化的搜索结果转化为特征向量,包括:

获取用户的历史拍搜行为,并将所述历史拍搜行为依据所对应的搜索结果表征为标签序列,所述标签序列中的每个标签代表了所述搜索结果的至少一个特征;

将所述标签序列转化为向量序列;

将所述向量序列归一化为所述特征向量;

可选地,还包括:将用户表征为其拍搜行为的特征向量:定义所述特征向量的名称为用户标识,定义所述特征向量的长度为用户拍搜行为的特征表述;

可选地,将所述历史拍搜行为依据对应的搜索结果表征为标签序列,包括:对所述搜索结果进行标签标注;对标注处理后的搜索结果数据进行去重处理;

可选地,所述拍搜行为是指发起基于照片的搜题请求获得搜题结果的行为;

可选地,所述照片为整页拍照的整页照片;所述标签序列包括:试题和书页;

可选地,所述群组信息包括下述中的至少一项:用户的所属地域、学校、年级、班级、小组;

可选地,将所述拍搜行为的搜索结果进行标签化的步骤中所生成的标签包括以下标签中的至少一种:教材、试卷、书本、习题册、页码、试题。

4.根据权利要求2所述的基于拍搜行为预测用户所属群组的方法,其特征在于,所述筛选出种子用户的步骤包括:

对所述特征向量进行聚类处理;将所述集合中的经所述聚类后得到的最大类中的用户作为所述种子用户;

可选地,在每个集合内部使用社区发现算法对所述集合中用户进行所述聚类处理。

5.根据权利要求1-4任一项所述的基于拍搜行为预测用户所属群组的方法,其特征在于,所述计算非种子用户与各种子用户的拍搜行为相似度之后,所述方法还包括:

筛选出与所述非种子用户的相似度在预定范围内的种子用户;

预测该非种子用户的所属群组时,根据筛选后的种子用户的群组信息预测该非种子用户的所属群组或群组特征。

6.根据权利要求5所述的基于拍搜行为预测用户所属群组的方法,其特征在于,定义用户空间,所述用户空间中,以各用户为顶点,相邻用户间的相似关系为边,相邻用户拍搜行为特征向量的相似度为边的权重,筛选出所述群组信息的置信度大于第一预设值的种子用户时,使用louvain社区发现算法对各集合中的用户进行聚类,以得到所述种子用户;

所述计算非种子用户与各种子用户的拍搜行为相似度包括:在所述用户空间中,计算所述非种子用户与各种子用户的距离作为所述相似度;

所述筛选出与所述非种子用户的相似度在预定范围内的种子用户包括:

计算各集合中最大类中任意两个种子用户的平均距离,

筛选出该非种子用户与各集合的种子用户之间的距离小于所述平均距离的种子用户。

7.根据权利要求5所述的基于拍搜行为预测用户所属群组的方法,其特征在于,所述根据筛选后的种子用户的原始群组信息预测该非种子用户的所属群组包括:

将筛选后的种子用户按其原始群组信息分别统计数量,将对应的种子用户的数量最多的原始群组作为预测的该非种子用户的所属群组;

当所述非种子用户所属的聚类中包含的用户数量在预定范围内且该聚类中包含种子用户时,将该种子用户的所属群组预测为所述非种子用户的所属群组。

8.根据权利要求7所述的基于拍搜行为预测用户所属群组的方法,其特征在于,在将筛选后的种子用户按其原始群组信息分别统计数量之前还包括:根据所述筛选后的种子用户的地域信息进行筛选,将与所述非种子用户不在同一地域的种子用户进行剔除。

9.一种基于拍搜行为预测用户所属群组的预测装置,所述拍搜行为是指发起照片搜索请求并获得搜索结果的行为,其特征在于,所述预测装置包括:

分组模块,将用户分成不同的集合,使同一集合中的用户具有相同的群组信息,所述群组信息与用户的拍搜行为相关;

筛选模块,对于集合中的用户,根据用户的拍搜行为相似度水平,筛选出所述群组信息的置信度大于第一预设值的种子用户;

预测模块,对于非种子用户,计算所述非种子用户与各种子用户的拍搜行为相似度,并根据所述相似度预测所述非种子用户的所属群组,所述非种子用户包括缺失所述群组信息的用户和所述集合中所述群组信息的置信度不大于第一预设值的用户。

10.一种计算机设备,包括处理器和存储器,所述存储器用于存储计算机可执行程序,其特征在于:

当所述计算机程序被所述处理器执行时,所述处理器执行如权利要求1-8中任一项所述的基于拍搜行为预测用户所属群组的方法。

技术总结
本发明属于数据处理技术领域,提供一种基于拍搜行为预测用户所属群组的方法、装置和计算机设备,该方法包括:将用户分成不同的集合,使同一集合中的用户具有相同的群组信息,所述群组信息与用户的拍搜行为相关;对于集合中的用户,根据用户的拍搜行为相似度水平,筛选出所述群组信息的置信度大于第一预设值的种子用户;对于非种子用户,计算所述非种子用户与各种子用户的拍搜行为相似度,并根据所述相似度预测所述非种子用户的所属群组,所述非种子用户包括缺失所述群组信息的用户和所述集合中所述群组信息的置信度不大于第一预设值的用户。本发明能够更精确地预测非种子用户的所属群组,进一步提高预测精度,还进一步优化方法。

技术研发人员:崔寅生;王伟戌;陶扬;韩均雷;王辰成;李雨桐;潘东
受保护的技术使用者:作业帮教育科技(北京)有限公司
技术研发日:2021.04.30
技术公布日:2021.08.03

转载请注明原文地址:https://doc.8miu.com/read-8787.html

最新回复(0)