本发明涉及推荐技术领域,具体地说,涉及一种基于图卷积神经网络交互的推荐方法及系统。
背景技术:
随着互联网的发展,信息大爆炸时代的到来,人们完成了从信息匮乏到信息过载的过渡。个性化推荐系统的出现缓解了信息过载的压力,帮助用户从海量的数据中获得真正对自身有帮助的信息。点击率预估模型,最开始只应用于计算广告领域,如今在推荐领域也得到了广泛应用,特别是在推荐系统的排序部分,通过点击率预估模型,计算召回数据的点击率,根据点击率大小对数据进行排序之后,将排序后的结果推荐给用户。
近年来ctr(点击率)预估成为工业界和学术界研究的热点,早期的ctr预估任务多采用lr(逻辑回归)线性模型,lr模型在大规模系统中表现出实现简单和高性能的特性,使之成为工业界最广泛的ctr预估模型。但是lr模型的缺点也很明显,一是由于输入特征是高维稀疏向量,大部分的特征都为0,这样就会导致模型参数学习不准确,影响预测的准确性;二是lr需要进行人工特征组合,这就需要开发者有非常丰富的领域经验,这样的模型迁移起来比较困难且模型学习能力有限,不能捕获高阶特征(非线性信息)。除此之外,facebook的研究人员还提出了另一种筛选特征和特征组合的方式,称为gbdt lr方案,其基本思想是gbdt(梯度提升树)来帮助筛选有区分度的特征和特征组合,并将其作为lr模型的输入,从而增强lr的非线性学习能力。
针对lr模型存在的问题,oentaryo等人提出了基于fm(因子分解机)的ctr预估模型,该模型不仅考虑了单个特征携带的信息,而且考虑了二阶组合特征(featuresinteractions)携带的信息,在fm中每个特征用一个d维隐含向量表示,将one-hot编码后的高维稀疏向量转化成一个低维稠密连续向量,二阶特征组合用两个隐含向量的点积表示,fm的出现解决了lr模型因为数据稀疏而导致的参数学习不充分的缺点。fm也存在缺陷,fm的缺陷在于每个特征都只学习一个唯一的隐含向量,在与其他不同特征进行组合时,同一个特征产生的影响力都是相同的;而事实上,当与不同特征域的特征组合时,可能表现出不同的隐含特征分布。yitao等人在fm模型的基础上引入了特征域(field)的概念,提出了ffm(field-awarefactorizationmachine,面向特征域的因子分解机)模型。其基本思想是将特征分割为若干领域,每个特征将针对不同的特征域学习不同的隐含向量。fm、ffm都是在lr基础上增加对二阶特征组合的权重自动学习的模型。
综上,lr、fm、ffm被称为基于浅层模型的ctr预估方案,其优点是模型简单、预测性能较好、可解释性强;缺点主要在于很难自动提取高阶组合特征携带的信息。随着深度学习的发展,其探索特征间高阶隐含信息的能力也被应用到ctr预估问题中。早期具有影响力的基于深度学习的ctr预估模型是zhang等人在2016年提出的基于因子分解机的神经网络模型,其特点是通过fm模型预先训练得到每个特征的稠密嵌入向量(densevector),拼接以后直接输入到dnn(深度神经网络),从而获得高阶特征交互。之后提出的deepfm、dcn、wide&deep、pnn、nfm、afm也都是基于相同的思想,将类fm的模型通过串行结构或者并行结构的方式与dnn结合,进行高阶特征和低阶特征的分别建模,提高点击率预估的准确性。
然而,在点击率预估问题中,特征通常是高维稀疏的,并且预测的准确性很大程度上依赖于高阶特征组合。因此,在点击率预估领域,人们一直在努力寻找稀疏高维原始特征的低维表示及其有意义的组合,节约人工特征工程时间成本的同时提高模型的准确性。
技术实现要素:
为解决以上问题,本发明提供一种基于图卷积神经网络交互的推荐方法,包括以下步骤:
将数据库划分为训练集、验证集、测试集,所述训练集、验证集、测试集都包括分类型特征和连续型特征;
构建点击率预估模型,所述点击率预估模型包括依次连接的图卷积神经网络和输出层,所述图卷积神经网络包含多个依次连接的图卷积层,将训练集的各个特征作为节点,通过各节点之间相互连接的连接边构成无向图输入到图卷积神经网络中,图卷积神经网络输出各个特征对应的特征交互向量,将各个特征交互向量拼接起来输入到输出层,输出层输出点击率预估值,通过优化器优化损失函数,直至迭代收敛,并通过验证集验证以调整超参数,反复优化,直至获得经过测试集测试合格的最优点击率预估模型;
利用所述最优点击率预估模型对候选集输出点击率预估值,并根据点击率预估结果对候选集排序,从而输出推荐列表。
可选地,所述将数据库划分为训练集、验证集、测试集之前,先对数据进行预处理,所述预处理包括用嵌入方法将分类型特征按照不同特征域映射到低维空间,分别形成低维特征向量,将连续型特征进行标准化处理。可选地,图卷积神经网络的每一个图卷积层的传播方式如公式1所示:
其中,
