一种基于梯度策略决策算法的个性化运动推荐方法与流程

专利2022-05-11  105



1.本发明涉及强化学习领域和机器学习领域中的梯度策略算法,前馈网络分类器和马尔可夫决策过程,尤其涉及了一种自训练和自适应的动态个性化运动决策算法。


背景技术:

2.运动是提高人体基础活动能力并提升人类生理健康水平的重要手段。人体针对不同运动的负荷量存在生理差异性,不同人体对不同运动具有差异的负荷情况。过量运动或不正当运动容易造成运动人群的生理损伤乃至造成运动性猝死。其中跑步运动作为日常生活中最常见的运动,其为造成运动者心脏骤停和猝死案例最多的运动项目。因此针对跑步运动中可能存在的健康风险以及不正当运动类型,如何实现高效、健康以及符合运动生理习惯的跑步运动变得尤为重要。
3.为了解决上文中提出的运动风险问题并实现健康运动,将普适性运动调整为个性化运动的形式开始变得越来越重要。普适性运动通过制订普适性运动标准或指导,为不同身体状况、不同运动能力的运动人群提供相同的运动指导。该方法忽略了运动人群之间存在的内部差异性,易导致运动风险。个性化运动运动放弃运动的普适性指导模式,以“一人一案”代替指定通用性运动指导方案。2016年国务院发布的《健康中国2030规划纲要》中明确提出,运动指导需要首先进行运动前安全性评估与运动能力测试评价,而后针对运动人群的差异性运动能力提供不同的运动处方以降低运动风险。个性化运动处方推荐的应用实现体医结合并,满足大众对运动健身不断增长的科学指导需求并以运动生理差异性驱动运动指导合理性,实现以可穿戴设备和运动人群个性化数据驱动的指导模式。
4.个性化运动处方推荐为当前研究热点,目前针对个性化运动处方的研究多在于以生理信息采集的运动模式推荐,运动时间推荐以及运动强度推荐。上述推荐方法适配用户的生理信息,以可穿戴设备采集的生理信号分析运动人群的运动能力,并针对不同目标,例如运动能力提升或运动能力保持提供了长短期结合的运动处方推荐,长期运动处方推荐规划长期目标,短期则将长期处方分配到具体实现模式。而个性化运动处方推荐以运动能力规划为主,忽略了基于运动人群运动习惯的细粒度处方分配。现代运动生理学研究表明,人体体力和针对运动的能力受机体生物钟的影响,即用户的最佳运动能力和运动状态随着与其日常运动习惯密切相关。对个性化运动和运动习惯之间的适配的研究仍然保持空白,对该方面的探究有助于提高运动处方推荐的精度,实现基于短时间运动习惯分配的细粒度运动推荐,提高运动处方的个性化程度并进一步降低运动风险。
5.个性化推荐算法中,基于强化学习的决策算法应用较为广泛。决策算法以决策体作为决策大脑,模仿群体的思考模式并且按照该模式做出决策或推荐。运动个性化推荐的早期研究中,其推荐模式死板的学习运动群体的习惯而不能动态变化和自适应更新导致处方推荐模型落后于运动群体的习惯更新。引入智能决策体的自适应算法实现决策的自采样学习并快速迭代更新,在适配和分配问题的推荐中具有极大的应用价值和研究价值。


技术实现要素:

6.为了克服个性化运动处方中忽视个体运动习惯、细粒度个性化适配能力弱的问题,本发明提供了一种基于梯度策略决策算法的习惯个性化运动适配方法,实现运动时段、运动总量的习惯推荐。
7.个体运动习惯在于周为单位的运动时间和运动强度体现。例如个体在一周中的运动时间段以及每次运动时间、运动总量,并以时间轨迹表征运动习惯。而运动处方推荐也以周为单位,以适应运动习惯的方法推荐运动分布。决策体输入为周剩余运动量以及当前所处时间段并实现自训练和运动决策。该方法相比于其余个性化运动处方,注重细粒度习惯适配,实现以个体习惯驱动的运动时间、运动强度分配。且决策体执行轨迹自采样和自训练实现少样本的快速适配,并以轨迹更新的形式完成实时运动习惯学习和调整。决策体通过神经网络学习到与个体习惯相似的运动模式,并学习在具体时间内的运动决策模式,模拟个体运动思路实现细粒度决策。因此本发明主要分为以下四个步骤:1.运动习惯轨迹表征;2.构建基于梯度策略的强化决策算法,完成基于习惯的细粒度运动时段、强度推荐。3.实施实际运动完成量的实时调整。4.基于运动习惯变更的决策评估、调整。
8.为了达到解决本发明涉及到问题的目的,一种基于梯度策略决策算法的个性化运动推荐方法采用如下技术方案:
9.1)运动习惯轨迹表征;
10.1.1)时间习惯表征;
11.本发明中的运动时间习惯以向量轨迹的形式表示,包括个体运动时间以及运动时间段。向量轨迹按小时区分时间段,则其根据时间先后顺序形成长度为n小时的轨迹序列其中的表示个体在该小时时间段内的平均运动时间,由公式(1)计算:
[0012][0013]
其中的m为个体习惯计算周数,以m周运动数据作为个体运动时间习惯。x
i,n
为第i周的第n个小时内的运动时长。m周运动数据均值时长以序列化作为时间习惯表征,轨迹可衡量运动时间习惯相似性。
[0014]
1.2)强度习惯表征;
[0015]
强度习惯表征与时间习惯表征相似,其根据时间先后顺序形成长度为n小时的轨迹序列其中的表示个体在该小时时间段内的平均运动强度,由公式(1)计算:
[0016][0017]
其中的m为个体习惯计算周数,以m周运动数据作为个体运动强度习惯。x
i,n
为第i周的第n个小时内的平均运动心率,平均运动心率与强度直接挂钩,其心率越高表征个体对运动负载强烈,可直接被认为个体运动强度反映。m周运动数据均值时长以序列化作为时间习惯表征,轨迹可衡量运动强度习惯相似性。
[0018]
1.3)运动总体表征
[0019]
以运动总量表征运动习惯,运动总量在以周为单位的时间内分布以向量轨迹序列
表征,运动总量以运动强度与运动时间乘积计算,运动总量计算公式如下:
[0020][0021]
其中的t
1:n
为个体习惯运动总量表征向量,向量表示个体运动量在一周内的分布状况,该习惯分布情况以轨迹形式组织,作为细粒度推荐的基准轨迹并作为决策体学习标准实现运动分布适配、推荐。
[0022]
2)构建基于强化梯度策略算法的运动习惯适配模型;
[0023]
2.1)运动习惯适配模型总体架构;
[0024]
运动习惯适配模型主要分为两个模型:自训练强化决策机和个性化推荐模型。
[0025]
自训练运动配置模型为决策中枢,其主要从个体运动总量习惯中学习到详细运动决策特征,并实现在不同运动需求和不同时间内的运动个性化推荐。该模型模拟个体针对运动的思考模式并模拟其决策过程,形成自采样和自训练的推荐决策模型。该模式减少模型需求输入并实现与个体运动习惯的快速适配。
[0026]
个性化推荐模型以决策模型为基础,以轨迹分配的形式完成推荐运动生成。推荐模型对每个时间点实施决策,并以决策改变运动分配状态实现后续决策。决策轨迹即为基于运动习惯的推荐运动处方。
[0027]
总体来说,模型内核为基于梯度策略的决策机,决策机对每个细粒度状态分析并决定其运动安排情况。决策机学习针对不同时间和需求运动量的运动安排方式,其由决策机构筑和采样训练两部分组成。而个性化推荐模型针对预训练的决策机形成一条运动适配轨迹向量,决策机在每个时间点中决定分配的运动量并完成整体轨迹配置,形成完整基于习惯的运动推荐方案。
[0028]
2.2)基于梯度策略的强化决策机搭建;
[0029]
强化决策机学习个体运动习惯并模仿个体在运动分配中的决策思路完成运动快速适配。强化决策机定义运动状态并以运动状态作为输入。运动状态可被理解为在运动轨迹中的时段位置、运动剩余任务量,使用序列进行表征。当前时段即为决策时间在整体轨迹序列中的位置信息,分别标定为0

n;运动剩余任务量以数值填入,表示在决策时间内的可分配运动量总数。即决策机输入为1
×
2的状态序列,序列包含人脑在决策运动过程中的采样信息。决策机状态序列分别采用两个相同的前馈网络完成运动时间、运动强度的选择。网络包含四层,第一层为输入序列;第二层为包含8个神经元的上采样全连接层,采用relu作为激活函数提升非线性学习能力了;第三层为包含16个神经元的上采样全连接层,同样采用relu作为激活函数以提升模型的泛化学习能力。第四层为输出层,包含9个神经元且使用softmax激活函数表征分别表征选择运动时间和运动强度的概率。在运动时间选择中,由世界卫生组织确定的运动指南中划分了每日平均60分钟mvpa(中度到剧烈运动)的建议,因此运动时间中将每个输出神经元表征以5分钟为间隔,从20分钟到60分钟的8种运动时间,同时包含不分配运动时间的运动零值。而运动强度以心率表征,将心率范围从运动起始值120到健康人群运动预警心率160以5为最小间隔划分为8种心率以及一种不分配运动的零值,作为运动强度表征。该决策中枢学习在剩余运动量和周时间段的基础上,学习个体运动习惯及分配思维,实现自适应运动决策。
[0030]
2.3)个性化运动推荐模型
[0031]
个性化运动推荐模型的核心为梯度策略强化决策机,输入为个体自订一周训练总
量,以马尔可夫决策过程进行决策机自采样训练并输出周运动推荐表,指定每个时间段是否运动,运动强度以及运动时间。马尔可夫决策过程促使决策机在采样序列上按照时间顺序移动,过程序列为s={s1,a1,s2,a2,

,s
n
,a
n
},其中的s
i
表示第i个时间节点的状态,即时间节点位置和剩余运动总量。而a
i
为决策机根据状态信息生成的运动分配策略。每次策略分配会改变状态信息,影响后续决策,由n个状态执行顺序决策可生成每个时间点的运动分配量。与马尔可夫决策过程不同的是,决策过程中的奖励由采样分配运动和个体习惯运动误差取代,由分配完成的采样序列和个体习惯序列进行均方误差可计算其对决策机的训练误差,且若采样序列未完成工作总量的分配则对误差进行罚时以提高决策机完成所有运动量分配能力,误差计算如以下公式定义:
[0032][0033]
其中的loss即为参数训练的损失函数,t表示个体真实习惯序列而p表示采样序列,g为输入周运动总量。损失函数的前半部分约束分配方式与个体习惯的相似性,后半部分增加罚时,促进决策机将个体设立目标任务量全部分配。上述过程通过自采样的形式反复训练中枢决策机,设置采样训练次数为500次,500次自采样中决策中枢学习到个体的运动习惯和运动分配模式,并完成基于其运动习惯的周目标短期运动计划推荐。
[0034]
3)运动推荐实时调整
[0035]
固定的个体运动推荐适配表无法实时适应运动适配中存在的天气、场地乃至生理身体原因造成的处方目标规划与实际运动符合程度低的问题。针对上述问题,基于交互式反馈的运动目标实时调整按照真实运动目标完成量进行周剩余规划调整,实施规划序列重构并为运动习惯变动记录实际运动情况。
[0036]
首先,根据时间顺序进行实际运动跟踪,在运动推荐时间节点处等待个体实际运动反馈并在未推荐运动时间节点处接受个体的额外运动量补充。当存在运动量变化时间节点,决策中枢重构决策状态,以新剩余运动总量作为节点状态并重新根据个体习惯进行序列采样,使用新序列取代运动量变动后的运动推荐序列即可根据实际运动情况变动实现实时推荐更新。
[0037]
4)运动习惯动态更新
[0038]
运动习惯动态更新从长期习惯以及短期习惯以周为单位实现对习惯记录以及决策机参数动态调整。运动习惯更新需要根据个体在运动推荐中的周实际完成量作为个体新习惯,并更新习惯序列。以实际运动情况作为新习惯更新易将偶然环境因素作为习惯的考量,且其无法完全表征个体习惯变更状态,因此需要在保留部分长期习惯的基础上进行加权更新,学习部分短期习惯,其计算如下所示:
[0039]
t
1:n
=0.9t
1:n
0.1r
1:n
ꢀꢀꢀ
(5)
[0040]
其中的r
1:n
为个体实际运动量序列,通过分别设置更新权重为0.9和0.1完成在保留大部分长期习惯的基础上更新部分短期习惯。运动习惯表征的更新用于通过重复采样调整决策机参数,以实现决策机基于习惯变动动态更新。
[0041]
本发明的技术构思为:首先,针对针对个体以周为单位的运动习惯构建时间段习惯表征向量,该向量表征个体运动强度和运动时间在一周中的不同时间节点内的分布。而后,一个基于梯度策略算法的决策机被用于学习个体的习惯以及在不同运动剩余量和运动
时间下对于运动分配的决策。决策机通过自采样运动推荐序列,并最小化自采样序列和运动习惯序列差异实现运动决策机参数训练。最后,通过反馈个体实时运动状况进行运动序列重构实现运动推荐更新,同时在保留部分长期习惯的基础上,用实际运动状况作为短期习惯更新习惯向量及决策机参数,实现基于个体习惯变动的自适应运动推荐算法。
[0042]
本发明的优点是:首先,本发明提出了一种进行运动总量的周内习惯表征方法,以序列轨迹的形式表征个体运动习惯,这对运动处方推荐等任务具有重要作用和参考意义。其次,本发明提出了一种基于周内时间节点的决策机进行个性化运动时间、运动强度决策,决策机区别于传统的学习分布的神经网络,其学习基于个体习惯的运动决策模式并且按照少样本、自训练的形式采样更新决策,在减少交互的基础上提高决策的精准度,实现基于个体的个性化短期运动适配。最后,该运动推荐算法支持动态运动推荐适配以及自适应运动习惯调整,根据个体实际完成情况动态分配周剩余目标,并且基于长期习惯和实际完成短期习惯实现习惯更新,参数修正。因此本发明无论从模型架构或是模型功能设置实现均考虑了动态变化和自适应更新,该发明可以有效的应用于不同个体的跑步等推荐中去。
附图说明
[0043]
图1是本发明方法实施的流程图;
[0044]
图2是本发明的自适应决策机详解图;
[0045]
图3是本发明的习惯动态更新过程;
[0046]
具体实施方法:
[0047]
按照附图1,该流程完整地自适应推荐决策分群方法,包括步骤如下:
[0048]
1)运动习惯轨迹表征;
[0049]
1.1)时间习惯表征;
[0050]
本发明中的运动时间习惯以向量轨迹的形式表示,包括个体运动时间以及运动时间段。向量轨迹按小时区分时间段,则其根据时间先后顺序形成长度为n小时的轨迹序列其中的表示个体在该小时时间段内的平均运动时间,由公式(1)计算:
[0051][0052]
其中的m为个体习惯计算周数,以m周运动数据作为个体运动时间习惯。x
i,n
为第i周的第n个小时内的运动时长。m周运动数据均值时长以序列化作为时间习惯表征,轨迹可衡量运动时间习惯相似性。
[0053]
1.2)强度习惯表征;
[0054]
强度习惯表征与时间习惯表征相似,其根据时间先后顺序形成长度为n小时的轨迹序列其中的表示个体在该小时时间段内的平均运动强度,由公式(1)计算:
[0055][0056]
其中的m为个体习惯计算周数,以m周运动数据作为个体运动强度习惯。x
i,n
为第i周的第n个小时内的平均运动心率,平均运动心率与强度直接挂钩,其心率越高表征个体对
运动负载强烈,可直接被认为个体运动强度反映。m周运动数据均值时长以序列化作为时间习惯表征,轨迹可衡量运动强度习惯相似性。
[0057]
1.3)运动总体表征
[0058]
以运动总量表征运动习惯,运动总量在以周为单位的时间内分布以向量轨迹序列表征,运动总量以运动强度与运动时间乘积计算,运动总量计算公式如下:
[0059][0060]
其中的t
1:n
为个体习惯运动总量表征向量,向量表示个体运动量在一周内的分布状况,该习惯分布情况以轨迹形式组织,作为细粒度推荐的基准轨迹并作为决策体学习标准实现运动分布适配、推荐。
[0061]
2)构建基于强化梯度策略算法的运动习惯适配模型;
[0062]
2.1)运动习惯适配模型总体架构;
[0063]
运动习惯适配模型主要分为两个模型:自训练强化决策机和个性化推荐模型。
[0064]
自训练运动配置模型为决策中枢,其主要从个体运动总量习惯中学习到详细运动决策特征,并实现在不同运动需求和不同时间内的运动个性化推荐。该模型模拟个体针对运动的思考模式并模拟其决策过程,形成自采样和自训练的推荐决策模型。该模式减少模型需求输入并实现与个体运动习惯的快速适配。
[0065]
个性化推荐模型以决策模型为基础,以轨迹分配的形式完成推荐运动生成。推荐模型对每个时间点实施决策,并以决策改变运动分配状态实现后续决策。决策轨迹即为基于运动习惯的推荐运动处方。
[0066]
总体来说,模型内核为基于梯度策略的决策机,决策机对每个细粒度状态分析并决定其运动安排情况。决策机学习针对不同时间和需求运动量的运动安排方式,其由决策机构筑和采样训练两部分组成。而个性化推荐模型针对预训练的决策机形成一条运动适配轨迹向量,决策机在每个时间点中决定分配的运动量并完成整体轨迹配置,形成完整基于习惯的运动推荐方案。
[0067]
2.2)基于梯度策略的强化决策机搭建;
[0068]
强化决策机学习个体运动习惯并模仿个体在运动分配中的决策思路完成运动快速适配。强化决策机定义运动状态并以运动状态作为输入。运动状态可被理解为在运动轨迹中的时段位置、运动剩余任务量,使用序列进行表征。当前时段即为决策时间在整体轨迹序列中的位置信息,分别标定为0

n;运动剩余任务量以数值填入,表示在决策时间内的可分配运动量总数。即决策机输入为1
×
2的状态序列,序列包含人脑在决策运动过程中的采样信息。决策机状态序列分别采用两个相同的前馈网络完成运动时间、运动强度的选择。网络包含四层,第一层为输入序列;第二层为包含8个神经元的上采样全连接层,采用relu作为激活函数提升非线性学习能力了;第三层为包含16个神经元的上采样全连接层,同样采用relu作为激活函数以提升模型的泛化学习能力。第四层为输出层,包含9个神经元且使用softmax激活函数表征分别表征选择运动时间和运动强度的概率。在运动时间选择中,由世界卫生组织确定的运动指南中划分了每日平均60分钟mvpa(中度到剧烈运动)的建议,因此运动时间中将每个输出神经元表征以5分钟为间隔,从20分钟到60分钟的8种运动时间,同时包含不分配运动时间的运动零值。而运动强度以心率表征,将心率范围从运动起始值120到健康人群运动预警心率160以5为最小间隔划分为8种心率以及一种不分配运动的零值,
作为运动强度表征。该决策中枢学习在剩余运动量和周时间段的基础上,学习个体运动习惯及分配思维,实现自适应运动决策。
[0069]
2.3)个性化运动推荐模型
[0070]
个性化运动推荐模型的核心为梯度策略强化决策机,输入为个体自订一周训练总量,以马尔可夫决策过程进行决策机自采样训练并输出周运动推荐表,指定每个时间段是否运动,运动强度以及运动时间。马尔可夫决策过程促使决策机在采样序列上按照时间顺序移动,过程序列为s={s1,a1,s2,a2,

,s
n
,a
n
},其中的s
i
表示第i个时间节点的状态,即时间节点位置和剩余运动总量。而a
i
为决策机根据状态信息生成的运动分配策略。每次策略分配会改变状态信息,影响后续决策,由n个状态执行顺序决策可生成每个时间点的运动分配量。与马尔可夫决策过程不同的是,决策过程中的奖励由采样分配运动和个体习惯运动误差取代,由分配完成的采样序列和个体习惯序列进行均方误差可计算其对决策机的训练误差,且若采样序列未完成工作总量的分配则对误差进行罚时以提高决策机完成所有运动量分配能力,误差计算如以下公式定义:
[0071][0072]
其中的loss即为参数训练的损失函数,t表示个体真实习惯序列而p表示采样序列,g为输入周运动总量。损失函数的前半部分约束分配方式与个体习惯的相似性,后半部分增加罚时,促进决策机将个体设立目标任务量全部分配。上述过程通过自采样的形式反复训练中枢决策机,设置采样训练次数为500次,500次自采样中决策中枢学习到个体的运动习惯和运动分配模式,并完成基于其运动习惯的周目标短期运动计划推荐。
[0073]
3)运动推荐实时调整
[0074]
固定的个体运动推荐适配表无法实时适应运动适配中存在的天气、场地乃至生理身体原因造成的处方目标规划与实际运动符合程度低的问题。针对上述问题,基于交互式反馈的运动目标实时调整按照真实运动目标完成量进行周剩余规划调整,实施规划序列重构并为运动习惯变动记录实际运动情况。
[0075]
首先,根据时间顺序进行实际运动跟踪,在运动推荐时间节点处等待个体实际运动反馈并在未推荐运动时间节点处接受个体的额外运动量补充。当存在运动量变化时间节点,决策中枢重构决策状态,以新剩余运动总量作为节点状态并重新根据个体习惯进行序列采样,使用新序列取代运动量变动后的运动推荐序列即可根据实际运动情况变动实现实时推荐更新。
[0076]
4)运动习惯动态更新
[0077]
运动习惯动态更新从长期习惯以及短期习惯以周为单位实现对习惯记录以及决策机参数动态调整。运动习惯更新需要根据个体在运动推荐中的周实际完成量作为个体新习惯,并更新习惯序列。以实际运动情况作为新习惯更新易将偶然环境因素作为习惯的考量,且其无法完全表征个体习惯变更状态,因此需要在保留部分长期习惯的基础上进行加权更新,学习部分短期习惯,其计算如下所示:
[0078]
t
1:n
=0.9t
1:n
0.1r
1:n
ꢀꢀꢀ
(5)
[0079]
其中的r
1:n
为个体实际运动量序列,通过分别设置更新权重为0.9和0.1完成在保留大部分长期习惯的基础上更新部分短期习惯。运动习惯表征的更新用于通过重复采样调
整决策机参数,以实现决策机基于习惯变动动态更新。
[0080]
在实际取值过程中,可以将n取为168的整数倍,通常以一个月为采样的时间基准。
[0081]
本发明的技术构思为:首先,针对针对个体以周为单位的运动习惯构建时间段习惯表征向量,该向量表征个体运动强度和运动时间在一周中的不同时间节点内的分布。而后,一个基于梯度策略算法的决策机被用于学习个体的习惯以及在不同运动剩余量和运动时间下对于运动分配的决策。决策机通过自采样运动推荐序列,并最小化自采样序列和运动习惯序列差异实现运动决策机参数训练。最后,通过反馈个体实时运动状况进行运动序列重构实现运动推荐更新,同时在保留部分长期习惯的基础上,用实际运动状况作为短期习惯更新习惯向量及决策机参数,实现基于个体习惯变动的自适应运动推荐算法。
转载请注明原文地址:https://doc.8miu.com/read-1795890.html

最新回复(0)