一种非完全信息非合作博弈人机共驾控制方法与流程

专利2022-05-09  133


本发明属于智能汽车博弈决策领域,特别涉及一种非完全信息非合作博弈人机共驾控制方法。



背景技术:

智能网联汽车是集高精度感知技术、智能决策技术、v2x技术、深度学习技术和其他多项技术于一体的新型汽车,其符合汽车为驾驶员提供更安全、更舒适的驾驶体验的发展趋势。目前,车辆自适应巡航、自动泊车和一些处理简单场景的车辆技术日渐成熟,但在面对复杂且多变的驾驶环境和对道路上特殊物体识别情况时,智能网联汽车技术仍有很大的提升空间。

在当前车辆不能完全达到l4、l5自动驾驶水平的情况下,人机共驾,即驾驶员和汽车共享控制权成为一种中间替代方案,这其中不可避免地涉及到驾驶员和汽车驾驶行为的相互影响,涉及到人车博弈情况。

在当前对人车博弈的研究中,大多是以完全信息博弈为研究对象,很少涉及非完全信息下人车信息模式分析以及驾驶员和车辆最优策略求解方法的研究。然而,在现实情况下,驾驶员和车辆并不能够掌握博弈的全部信息,可能智能凭经验对某一信息或某些信息进行估计,且可能掌握模糊的博弈信息。这种情况下,博弈双方的策略都会与以往的情况不同,从而需要进一步研究更加符合实际情况的博弈控制方法。

中国专利cn112926744a提供了一种基于强化学习的非完全信息博弈方法、系统以及电子设备,通过获取博弈及所述博弈场景对应的至少两个智能体,并用多维向量表示所述智能体的各个博弈状态和博弈行为;获取博弈过程中各智能体的博弈数据,计算终局收益值;根据所述终局收益值,计算博弈过程中各博弈行为的反事实后悔值,得到训练数据;根据所述训练数据对所述至少两个智能体的神经网络进行训练,并输出策略模型。



技术实现要素:

为了应对信息模式下驾驶员和车辆博弈的相互影响并提出相应的控制决策,本发明提出了一种非完全信息非合作博弈人机共驾控制方法;

为实现以上目的,本发明采用以下解决方案:

步骤s1建立人车操纵博弈模型,首先建立车辆二自由度系统动力学模型并离散化,离散化的模型中包括车辆横向车速,车辆横摆角速度,车辆横向位移,横向位移积分,车辆横摆角为系统状态,再建立驾驶员和车辆对目标路径的预览模型,在实际行驶中,利用车载摄像头采集车辆前进方向图像,判断车辆当前行驶路径,并与预览模型中的期望路径对比,规划下一步行驶路径,最终将离散车辆二自由度系统动力学模型中侧向位移变量下扩展预览路径描述向量,此模型中转向系统为线控转向系统,线控转向系统根据驾驶员操纵输入与控制器叠加操纵输入之和执行汽车前轮转角;

步骤s2建立非完全信息模式下人车信息博弈数学表达形式,在所述非完全信息模式下,根据驾驶员和车辆信息掌握途径不同,车辆通过车载摄像头和传感器获取信息准确度高,驾驶员通过驾驶经验以及视野接收信息准确程度低且受干扰,建立车辆与驾驶员所掌握系统状态与系统真实状态的线性关系;

步骤s3建立人车行驶收益博弈模型,根据驾驶员和车辆操作输入以及非完全信息下的驾驶员和车辆对系统状态掌握特点设计系统收益函数,收益函数值的大小设计为驾驶员和车辆操作输入相关的权重系数,实现了人车行驶收益博弈;

步骤s4求解控制策略,针对上述设计的非完全信息非合作博弈人机共驾框架和所设计的收益函数特点,以及利用非完全信息状态下驾驶员和车辆对系统状态掌握情况的特点,设计并求解驾驶员和车辆随对方操作输入和针对估计的系统状态而实时变化的最优控制策略,其中驾驶员操纵输入由传感器测得和软件估计方法得到,并将测得和估计得到的数据传输给控制器进行比对分析,控制器根据车载摄像头和转角传感器采集到的车辆状态和驾驶员输入,控制器计算当前车辆最优控制策略,并控制线控转向系统执行所控制器计算的控制策略;

步骤s5迭代求解参数,根据上述s4中推导的最优控制策略求解公式,描述了迭代求解控制策略中变化的参数的实时迭代求解步骤。

上述方案中,所述一种非完全信息非合作博弈人机共驾控制方法,其特征在于,所述步骤s1建立避障场景下人车操纵博弈模型;

首先建立二自由度车辆动力学模型

u=δd δc

其中,系统状态x=[vωyyintψ]t,v为车辆横向车速,ω为车辆横摆角速度,y为车辆横向位移,yint为横向位移积分,ψ为车辆横摆角,a、b为系统状态矩阵,u为系统输入矩阵,其代表驾驶员方向盘输入转角δd和线控转向系统方向盘输入转角δc,cf、cr分别为前后轮侧偏刚度,la、lb分别为前后轴到质心的距离,vc为车辆纵向速度,m为车辆总质量,g为转向系统总传动比,i为车辆绕横摆惯量,驾驶员和线控转向系统方向盘转角输入受到对方的操作影响从而根据对方的输入和当前驾驶状况判断自身的方向盘转角输入决策,构成人车操纵博弈;

建立非完全信息非合作博弈场景人车目标路线预览模型,其采用移位寄存器方法建立,驾驶员和车辆对目标路径预览行为表示为驾驶员和车辆分别观察目标路径上的预览点,并且在车辆行驶过程中始终有旧预览点去除和新的预览点输入,驾驶员和车辆一次最多可预览的预览点数量设定为n个,预览方式建模如下:

rd(k 1)=ar1ri(k) ar2rdn

rc(k 1)=ar1ri(k) ar2rcn

其中,rd和rc分别为代表驾驶员和车辆路径预览向量,维数为(3n 3)*1,为驾驶员和车辆最新预览点输入,维数为3*1,ar1和ar2为状态转移矩阵,ri和为预览路径描述向量,都包含了车辆横向位移y、横向位移积分yint和车辆横摆角ψ;

为了便于计算求解且能够和非完全信息非合作博弈场景人车目标路线预览模型相结合,按照t秒的采样间隔对二自由度系统进行离散化处理,形式如下:

x(k 1)=adx(k) bdu

ad=et*a

将离散化的模型与非完全信息非合作博弈场景人车目标路线预览模型相结合,形成离散化人车操纵博弈模型,如下:

z(k 1)=fz(k) g1u(k) g1v(k) g2rn

其中,z(k 1)=[x(k)rc(k)rd(k)]t,f、g1、g2为系统状态矩阵,u(k)为车辆输入向量,v(k)为驾驶员方向盘转角输入向量。

上述方案中,所述一种非完全信息非合作博弈人机共驾控制方法,其特征在于,所述步骤s2对非完全信息非合作情况下人车信息模式进行分析;

非完全信息情况下,驾驶员和车辆至少其中一方不能掌握博弈的全部信息,其中,博弈的全部信息包括系统状态、博弈对方策略以及博弈对方对系统状态的估计,驾驶员和车辆对系统状态的掌握数学模型表示如下:

z1=h1z w1

z2=h2z w2

其中z1和z2分别表示车辆和驾驶员对系统状态的估计,h1、h2为状态估计矩阵,w1、w2为随机干扰,当驾驶员和车辆对系统状态完全掌握时,h1、h2为单位矩阵,w1、w2为零矩阵;当驾驶员和车辆对系统状态完全不清楚时,h1、h2为零矩阵,w1、w2为零矩阵;当驾驶员和车辆对系统状态部分掌握时,h1、h2为主对角线上部分元素为0的对角矩阵,w1、w2为随机干扰;

在非完全信息情况下驾驶员只知道车辆的初始状态,而不知道行驶中的中间状态,而车辆可通过车载传感器和摄像头了解车辆当前状态信息;

驾驶员不知道系统的状态,且不知道车辆对系统状态的估计,只能根据车辆对方向盘转角输入、依据先验知识估计的车辆状态以及对自身目标路径的预览来判断自身最优决策,而车辆要根据当前车辆状态,驾驶员对方向盘转角输入、驾驶员对车辆状态估计与真实状态的偏差以及对自身目标路径的预览来判断当前应采取的策略。

上述方案中,所述一种非完全信息非合作博弈人机共驾控制方法,其特征在于,所述步骤s3对非完全信息非合作博弈情况下人车博弈收益函数进行设计;

设计收益函数中驾驶员和车辆的操作输入为加权项,并包含了可观察的可预览的车辆最终状态为收益函数的一部分,在非完全信息条件下,没有将不能完全掌握的系统状态设为人车博弈收益函数的一部分,收益函数设计如下:

其中,jd、jc分别为驾驶员和车辆收益函数其值都为j,q1、q2分别为驾驶员和车辆的收益函数加权矩阵,ctc为车辆状态加权矩阵,z(t)为车辆可预览的最终状态收益加权矩阵。

上述方案中,所述基于线控转向的非完全信息人机博弈控制方法,其特征在于,所述步骤s4对非完全信息非合作情况下人车博弈最优控制策略进行求解;

在非完全信息情况下,车辆所掌握系统状态z1(k)近似等于车辆真实状态z(k),驾驶员只能获得自身估计的系统状态z2(k),驾驶员能够通过方向盘感受到车辆方向盘转角输入,而车辆也能通过转角传感器检测到驾驶员方向盘转角输入;

在此信息模式下,车辆根据掌握的系统状态z1(k)和驾驶员估计系统状态z2(k)与实际值z(k)的偏差这两个因素来制定自身决策,而驾驶员根据自身对系统状态的估计z2(k)来判断自身决策,则设驾驶员估计系统状态与实际值的偏差车辆方向盘转角输入u(k)和驾驶员方向盘转角输入v(k)为如下形式:

v(k)=cdz2(k)

其中,cc、cd、dc为变量,将所设控制输入代入系统状态方程和系统收益函数中,得到

将所设驾驶员估计系统状态与实际值的偏差车辆方向盘转角输入u(k)和驾驶员方向盘转角输入v(k)带入收益函数得到

为便于计算,并简化以上方程,设

y(k)=e[z(k)z(k)]

根据所设的p(k)和y(k)简化收益函数后得

从而根据拉格朗日乘数方法,设计收益函数如下

其中

p(k 1)=(f g1cc g1dc)p(k) [y(k)ft (y(k)-p(k))cdtg1t y(k)cctg1t p(k)dctg1t](i-h2)t

y(k 1)=fy(k) g1cd(y(k)-p(k)) g1ccy(k) g1dcp(k) y(k)ft (y(k)-p(k))cdtg1t y(k)cctg1t p(k)dctg1t

根据拉格朗日乘数法理论,为求出最优解,必有对所求变量求偏导值为零

由(1)、(2)可得

由(3)可直接得

继续对p(k)和y(k)求偏导

得到迭代计算公式

上式中,为使公式表述简洁,对公式中部分变量进行了简化描述,其中有

x3=f x1(z γ)-x2(z γ)

z=(i-h2)tλ1(k 1)

根据收益函数可知,端点值为

λ1(k n)=0

λ2(k n)=ctc。

上述方案中,所述一种非完全信息非合作博弈人机共驾控制方法,其特征在于,步骤s5对参数迭代求解,根据上述s4中推导的最优控制策略求解公式,描述了迭代求解控制策略中变化的参数的实时迭代求解步骤;

公式(4)和(5)中,公式左边λ1、λ2皆为第k步的值,而公式右边λ1、λ2皆为第k 1步的值,已知k n步端点值,因此需要从k n步开始逐步迭代至k 1步以求出最优控制策略参数值,首先代入k n步端点值至迭代公式,然后逐步迭代至k 1步的值,代入计算公式计算得到cc、dc和cd值,代入求解u(k)和v(k),然后将求得的均衡解u(k)和v(k)作用于人车操纵博弈模型。

附图说明

图1本发明一种非完全信息非合作博弈人机共驾控制方法;

具体实施方式

下面根据附图及具体实施例,对本发明进一步详细说明

如图1所示,一种非完全信息非合作博弈人机共驾控制方法其包括以下步骤:

步骤s1建立离散化人车非合作交互模型,首先建立车辆系统动力学模型并离散化,再建立驾驶员和车辆对目标路径的预瞄模型,在实际行驶中,利用车载摄像头采集车辆前进方向图像,判断车辆当前行驶路径,并与预瞄模型中的期望路径对比,规划下一步行驶路径,最终将离散车辆系统动力学模型和驾驶员和车辆目标路径预览模型结合,形成最终的交互模型,此模型中转向系统为线控转向系统,线控转向系统根据驾驶员和车辆的方向盘输入之和与转向系统传动比的乘积的值执行汽车前轮转角,因此汽车前轮转角由驾驶员和车辆的方向盘输入之共同决定,初步体现了人车之间的博弈;

步骤s2非完全信息模式下人车信息模式分析,针对所研究的非完全信息模式下的博弈,分析驾驶员和车辆对系统状态掌握情况并建立其数学表达形式,在非完全信息模式下对离散化人车非合作交互模型进行分析,形成非完全信息非合作博弈人机共驾框架,分析驾驶员和车辆在当前情况下做出决策的依据,并为收益函数的设计提供依据;

步骤s3收益函数设计,根据驾驶员和车辆操作输入以及非完全信息下的驾驶员和车辆对系统状态掌握特点设计系统收益函数,收益函数值的大小取决于驾驶员和车辆操作输入以及权重系数,进一步体现了人车之间的博弈;

步骤s4控制策略求解,针对上述设计的非完全信息非合作博弈人机共驾框架和所设计的收益函数特点,以及利用非完全信息状态下驾驶员和车辆对系统状态掌握情况的特点,设计并求解驾驶员和车辆随对方操作输入和针对估计的系统状态而实时变化的最优控制策略,其中驾驶员方向盘输入转角由转角传感器测得,并将测得的数据传输给控制器,控制器根据车载摄像头和转角传感器采集到的车辆状态和驾驶员输入,计算当前车辆最优控制策略,并控制线控转向系统执行所计算的控制策略;

步骤s5参数迭代求解,根据上述s4中推导的最优控制策略求解公式,描述了迭代求解控制策略中变化的参数的实时迭代求解步骤。

上述方案中,所述一种非完全信息非合作博弈人机共驾控制方法,其特征在于,所述步骤s1建立避障场景下人机交互模型;

首先建立二自由度车辆动力学模型

其中,系统状态x=[vωyyintψ]t,v为车辆横向车速,ω为车辆横摆角速度,y为车辆横向位移,yint为横向位移积分,ψ为车辆横摆角,a、b为系统状态矩阵,u为系统输入矩阵,其值为驾驶员方向盘输入转角δd和线控转向系统方向盘输入转角δc之和,驾驶员和线控转向系统方向盘转角输入受到对方的操作影响从而根据对方的输入和当前驾驶状况判断自身的方向盘转角输入决策,构成人车操纵博弈;

建立非完全信息非合作博弈场景人车目标路线预览模型,其采用移位寄存器方法建立,驾驶员和车辆对目标路径预览行为表示为驾驶员和车辆分别观察目标路径上的预览点,并且在车辆行驶过程中始终有旧预览点去除和新的预览点输入,驾驶员和车辆一次最多可预览的预览点数量设定为n=100个,预览方式建模如下:

rd(k 1)=ar1ri(k) ar2rdn

rc(k 1)=ar1ri(k) ar2rcn

其中,rd和rc分别为代表驾驶员和车辆路径预览向量,维数为202*1,为驾驶员和车辆最新预览点输入,维数为2*1,ar1和ar2为状态转移矩阵,ri和都包含了车辆横向位移y和车辆横摆角ψ;

为了便于计算求解且能够和非完全信息非合作博弈场景人车目标路线预览模型相结合,按照t秒的采样间隔对二自由度“自行车模型”进行离散化处理,形式如下:

x(k 1)=adx(k) bdu

ad=et*a

将离散化的模型与非完全信息非合作博弈场景人车目标路线预览模型相结合,形成离散化人车非合作交互模型,如下:

z(k 1)=fz(k) g1u(k) g1v(k) g2rn

其中,z(k 1)=[x(k)rc(k)rd(k)]t,f、g1、g2为系统状态矩阵,u(k)为车辆输入向量,v(k)为驾驶员方向盘转角输入向量。

上述方案中,所述一种非完全信息非合作博弈人机共驾控制方法,其特征在于,所述步骤s2对非完全信息非合作情况下人车信息模式进行分析;

非完全信息情况下,驾驶员和车辆至少其中一方不能掌握博弈的全部信息,其中,博弈的全部信息包括系统状态、博弈对方策略以及博弈对方对系统状态的估计,驾驶员和车辆对系统状态的掌握数学模型表示如下:

z1=h1z w1

z2=h2z w2

其中z1和z2分别表示车辆和驾驶员对系统状态的估计,h1、h2为状态估计矩阵,w1、w2为随机干扰,当驾驶员和车辆对系统状态完全掌握时,h1、h2为单位矩阵,w1、w2为零矩阵;当驾驶员和车辆对系统状态完全不清楚时,h1、h2为零矩阵,w1、w2为零矩阵;当驾驶员和车辆对系统状态部分掌握时,h1、h2为主对角线上部分元素为0的对角矩阵,w1、w2为随机干扰;

在非完全信息情况下驾驶员只知道车辆的初始状态,而不知道行驶中的中间状态,而车辆可通过车载传感器和摄像头了解车辆当前状态信息;

驾驶员不知道系统的状态,且不知道车辆对系统状态的估计,只能根据车辆对方向盘转角输入、依据先验知识估计的车辆状态以及对自身目标路径的预览来判断自身最优决策,而车辆要根据当前车辆状态,驾驶员对方向盘转角输入、驾驶员对车辆状态估计与真实状态的偏差以及对自身目标路径的预览来判断当前应采取的策略。

上述方案中,所述一种非完全信息非合作博弈人机共驾控制方法,其特征在于,所述步骤s3对非完全信息非合作博弈情况下人车博弈收益函数进行设计;

设计收益函数中驾驶员和车辆的操作输入为加权项,并包含了可观察的可预览的车辆最终状态为收益函数的一部分,在非完全信息条件下,没有将不能完全掌握的系统状态设为人车博弈收益函数的一部分,收益函数设计如下:

其中,jd、jc分别为驾驶员和车辆收益函数其值都为j,q1、q2分别为驾驶员和车辆的收益函数加权矩阵,ctc为车辆状态加权矩阵,z(t)为车辆可预览的最终状态收益加权矩阵。

上述方案中,所述基于线控转向的非完全信息人机博弈控制方法,其特征在于,所述步骤s4对非完全信息非合作情况下人车博弈最优控制策略进行求解;

在非完全信息情况下,车辆所掌握系统状态z1(k)近似等于车辆真实状态z(k),驾驶员只能获得自身估计的系统状态z2(k),驾驶员能够通过方向盘感受到车辆方向盘转角输入,而车辆也能通过转角传感器检测到驾驶员方向盘转角输入;

在此信息模式下,车辆根据掌握的系统状态z1(k)和驾驶员估计系统状态z2(k)与实际值z(k)的偏差这两个因素来制定自身决策,而驾驶员根据自身对系统状态的估计z2(k)来判断自身决策,则设驾驶员估计系统状态与实际值的偏差车辆方向盘转角输入u(k)和驾驶员方向盘转角输入v(k)为如下形式:

v(k)=cdz2(k)

其中,cc、cd、dc为变量,将所设控制输入代入系统状态方程和系统收益函数中,得到

将所设驾驶员估计系统状态与实际值的偏差车辆方向盘转角输入u(k)和驾驶员方向盘转角输入v(k)带入收益函数得到

为便于计算,并简化以上方程,设

y(k)=e[z(k)z(k)]

根据所设的p(k)和y(k)简化收益函数后得

从而根据拉格朗日乘数方法,设计收益函数如下

其中

p(k 1)=(f g1cc g1dc)p(k) [y(k)ft (y(k)-p(k))cdtg1t y(k)cctg1t p(k)dctg1t](i-h2)t

y(k 1)=fy(k) g1cd(y(k)-p(k)) g1ccy(k) g1dcp(k) y(k)ft (y(k)-p(k))cdtg1t y(k)cctg1t p(k)dctg1t

根据拉格朗日乘数法理论,为求出最优解,必有对所求变量求偏导值为零

由(1)、(2)可得

由(3)可直接得

继续对p(k)和y(k)求偏导

得到迭代计算公式

上式中,为使公式表述简洁,对公式中部分变量进行了简化描述,其中有

x3=f x1(z γ)-x2(z γ)

z=(i-h2)tλ1(k 1)

根据收益函数可知,端点值为

λ1(k n)=0

λ2(k n)=ctc。

上述方案中,所述一种非完全信息非合作博弈人机共驾控制方法,其特征在于,步骤s5对参数迭代求解,根据上述s4中推导的最优控制策略求解公式,描述了迭代求解控制策略中变化的参数的实时迭代求解步骤;

公式(4)和(5)中,公式左边λ1、λ2皆为第k步的值,而公式右边λ1、λ2皆为第k 1步的值,已知k n步端点值,因此需要从k n步开始逐步迭代至k 1步以求出最优控制策略参数值,首先代入k n步端点值至迭代公式,然后逐步迭代至k 1步的值,代入计算公式计算得到cc、dc和cd值,代入求解u(k)和v(k),然后将求得的均衡解u(k)和v(k)作用于人车非合作交互模型。


技术特征:

1.一种非完全信息非合作博弈人机共驾控制方法,其特征在于,其包括以下步骤:

步骤s1建立人车操纵博弈模型,首先建立车辆操纵动力学模型并离散化,离散化的模型中,系统状态包括车辆横向车速、车辆横摆角速度、车辆横向位移、横向位移积分、车辆横摆角,再建立可以描述驾驶员和车辆目标路径的预览模型;在实际行驶中,利用车载摄像头采集车辆前进方向图像,判断车辆当前行驶路径,并与预览模型中的期望路径对比,规划下一步行驶路径,最终将离散车辆操纵动力学模型中横向位移变量与横向位移积分变量扩展添加预览路径描述向量,此模型中转向系统为线控转向系统,线控转向系统根据驾驶员操纵输入与控制器叠加的操纵输入之和控制汽车前轮转角;

步骤s2建立非完全信息模式下人车信息博弈数学表达形式,在所述非完全信息模式下,量化驾驶员和车辆信息掌握的途径和信息掌握数量不同,建立车辆与驾驶员所掌握系统状态与系统真实状态的线性关系;

步骤s3建立人车行驶收益博弈模型,根据驾驶员和车辆操作输入以及非完全信息下的驾驶员和车辆对系统状态掌握特点设计系统收益函数,收益函数值的大小设计与三个因素相关,一个是驾驶员和车辆操作输入,一个是驾驶员和车辆操作输入相关的权重系数,还有一个是路径可预览范围最远处的系统状态,实现人车行驶收益博弈;

步骤s4是求解控制策略,针对上述设计的人车操纵博弈模型和所设计的收益函数特点,以及利用非完全信息状态下驾驶员和车辆对系统状态掌握的信息不对称的特点,求解驾驶员和车辆随对方操作输入以及实时估计状态变化的方向盘转角策略与方向盘转角叠加策略,其中驾驶员操纵输入由传感器测得和软件估计方法得到,并将测得和估计得到的数据传输给控制器进行比对分析,控制器计算当前车辆非完全信息状态下的非合作博弈最优方向盘转角叠加策略;

步骤s5迭代求解参数,根据上述s4中推导的最优控制策略求解公式,推导迭代求解控制策略中变化的参数的实时迭代求解方法。

2.根据权利要求1所述的一种非完全信息非合作博弈人机共驾控制方法,其特征在于,所述步骤s1建立避障场景下人车操纵博弈模型;

首先建立操纵动力学模型

其中,系统状态x=[vωyyintψ]t,v为车辆横向车速,ω为车辆横摆角速度,y为车辆横向位移,yint为横向位移积分,ψ为车辆横摆角,a、b为系统状态矩阵,u为输入矩阵,其包含驾驶员操纵输入和车辆操纵输入,驾驶员和线控转向系统方向盘转角输入受到对方的操作影响从而根据对方的输入和当前驾驶状况判断自身的方向盘转角输入决策,构成人车操纵博弈;

建立非完全信息非合作博弈场景人车目标路线预览模型,其采用移位寄存器方法建立,驾驶员和车辆对目标路径预览行为表示为驾驶员和车辆分别观察目标路径上的预览点,并且在车辆行驶过程中始终有旧预览点去除和新的预览点输入,驾驶员和车辆一次最多可预览的预览点数量设定为n个,预览方式建模如下:

rd(k 1)=ar1ri(k) ar2rdn

rc(k 1)=ar1ri(k) ar2rcn

其中,rd(k)和rc(k)分别为代表驾驶员和车辆第k步路径预览向量,维数为(3n 3)*1,rdn和rcn为驾驶员和车辆最新预览点输入,维数为3*1,ar1和ar2为状态转移矩阵,rd(k)、rc(k)和rin为预览路径描述向量,其中包含车辆横向位移y、横向位移积分yint和车辆横摆角ψ;

为了便于计算求解且能够和非完全信息非合作博弈场景人车目标路线预览模型相结合,按照t秒的采样间隔对操纵动力学模型进行离散化处理,形式如下:

x(k 1)=adx(k) bdu

ad=et*a

将离散化的模型与非完全信息非合作博弈场景人车目标路线预览模型相结合,形成离散化人车操纵博弈模型,如下:

z(k 1)=fz(k) g1u(k) g1v(k) g2rn

其中,z(k 1)=[x(k)rc(k)rd(k)]t,f、g1、g2为系统状态矩阵,u(k)为车辆输入向量,v(k)为驾驶员方向盘转角输入向量,rn为预览路径描述向量。

3.根据权利要求1所述的一种非完全信息非合作博弈人机共驾控制方法,其特征在于,所述步骤s2对非完全信息非合作情况下人车信息模式进行分析;

非完全信息情况下,驾驶员和车辆至少其中一方不能掌握博弈的全部信息,其中,博弈的全部信息包括系统状态、博弈对方策略以及博弈对方对系统状态的估计,驾驶员和车辆对系统状态的掌握数学模型表示如下:

z1=h1z w1

z2=h2z w2

其中z1和z2分别表示车辆和驾驶员对系统状态的估计,h1、h2为状态估计矩阵,w1、w2为随机干扰,当代表驾驶员和车辆对系统状态完全掌握时,h1、h2为单位矩阵,w1、w2为零矩阵;当代表驾驶员和车辆对系统状态完全不清楚时,h1、h2为零矩阵,w1、w2为零矩阵;当代表驾驶员和车辆对系统状态部分掌握时,h1、h2为主对角线上部分元素为0的对角矩阵,w1、w2为随机干扰。

4.根据权利要求1所述的一种非完全信息非合作博弈人机共驾控制方法,其特征在于,所述步骤s3对非完全信息非合作博弈情况下人车博弈收益函数进行设计;

设计收益函数中驾驶员和车辆的操作输入为加权项,并包含了可观察的可预览的车辆最终状态为收益函数的一部分,在非完全信息条件下,没有将不能完全掌握的系统状态设为人车博弈收益函数的一部分,收益函数设计如下:

其中,jd、jc分别为驾驶员和车辆收益函数其值都为j,q1、q2分别为驾驶员和车辆的收益函数加权矩阵,ctc为车辆状态加权矩阵,z(t)为车辆可预览的最终状态收益加权矩阵。

5.根据权利要求1所述的一种非完全信息非合作博弈人机共驾控制方法,其特征在于,所述步骤s4对非完全信息非合作情况下人车博弈最优控制策略进行求解;

在非完全信息情况下,车辆所掌握系统状态z1(k)近似等于车辆真实状态z(k),驾驶员只能获得自身估计的系统状态z2(k);

在非完全信息模式下,车辆根据掌握的系统状态z1(k)和驾驶员估计系统状态z2(k)与实际值z(k)的偏差这两个因素来制定自身决策,而驾驶员根据自身对系统状态的估计z2(k)来判断自身决策,则设驾驶员估计系统状态与实际值的偏差车辆方向盘转角输入u(k)和驾驶员方向盘转角输入v(k)为如下形式:

v(k)=cdz2(k)

其中,cc、cd、dc为变量,将所设控制输入代入系统状态方程和系统收益函数中,得到

将所设驾驶员估计系统状态与实际值的偏差车辆方向盘转角输入u(k)和驾驶员方向盘转角输入v(k)带入收益函数得到

为便于计算,并简化以上方程,设

y(k)=e[z(k)z(k)]

根据所设的p(k)和y(k)简化收益函数后得

从而根据拉格朗日乘数方法,设计收益函数如下

其中i为单位矩阵

p(k 1)=(f g1cc g1dc)p(k) [y(k)ft (y(k)-p(k))cdtg1t y(k)cctg1t p(k)dctg1t](i-h2)t

y(k 1)=fy(k) g1cd(y(k)-p(k)) g1ccy(k) g1dcp(k) y(k)ft (y(k)-p(k))cdtg1t y(k)cctg1t p(k)dctg1t

根据拉格朗日乘数法理论,为求出最优解,必有对所求变量求偏导值为零

由(1)、(2)可得控制策略中可变参数cc、cd

由(3)可直接得控制策略中可变参数dc

继续对p(k)和y(k)求偏导

得到迭代计算公式

上式中,为使公式表述简洁,对公式中部分变量进行了简化描述,其中有

x3=f x1(z γ)-x2(z γ)

z=(i-h2)tλ1(k 1)

根据收益函数可知,端点值为

λ1(k n)=0

λ2(k n)=ctc。

6.根据权利要求1所述的一种非完全信息非合作博弈人机共驾控制方法,其特征在于,步骤s5对参数迭代求解,根据上述s4中推导的最优控制策略求解公式,描述了迭代求解控制策略中变化的参数的实时迭代求解步骤;

公式(4)和(5)中,公式左边λ1、λ2皆为第k步的值,而公式右边λ1、λ2皆为第k 1步的值,已知k n步端点值,因此需要从k n步开始逐步迭代至k 1步以求出最优控制策略参数值,首先代入k n步端点值至迭代公式,然后逐步迭代至k 1步的值,代入计算公式计算得到cc、dc和cd值,代入求解u(k)和v(k),然后将求得的均衡解u(k)和v(k)作用于人车操纵博弈模型。

技术总结
本发明公开了一种非完全信息非合作博弈人机共驾控制方法,属于智能汽车决策领域,首先建立人车操纵博弈模型,模型包含操纵动力学模型、驾驶员和车辆路径预览模型,再建立车辆实际行驶情况下驾驶员和车辆信息获取与真实系统状态的线性关系,并在非完全信息模式下对人车操纵博弈模型中驾驶员和车辆决策进行假设,所假设的非完全信息非合作最优策略目的为优化包含驾驶员和车辆输入、系统状态的收益函数,最后根据非完全信息下驾驶员和车辆信息掌握精确程度和数量特点求解驾驶员和车辆最优策略迭代公式,并给出迭代公式的迭代方法。

技术研发人员:常宇鹏;郑宏宇;何睿;郭中阳;宋娟娟;王剑波;吴竟启;束琦
受保护的技术使用者:吉林大学;江苏超力电器有限公司
技术研发日:2021.06.22
技术公布日:2021.08.03

转载请注明原文地址:https://doc.8miu.com/read-1936.html

最新回复(0)