图像绘制方法及装置、计算机可读介质和电子设备与流程

专利2022-05-09  65


本公开涉及图像处理技术领域,具体涉及一种图像绘制方法、图像绘制装置、计算机可读介质和电子设备。



背景技术:

伴随着人们生活水平的不断提高,自然语言理解(naturallanguageunderstanding,nlu)技术越来越得到人们的关注。语音助手是基于自然语言理解技术构建的一种智能型的应用程序,通过智能对话与即时问答的智能交互,实现帮忙用户解决问题。

目前,相关的技术方案中,要么语音助手无法根据用户的语音指令完成图像绘制的任务,要么在绘制图像时必须借助用户提供的图像,通过语音指令对提供的图像进行修改完成绘制。一方面,语音助手无法根据用户的语音指令完成图像绘制的任务,用户只能通过手动的形式进行绘制,交互方式单一;另一方面,在绘制图像时必须借助用户提供的图像,导致图像绘制的灵活性较低,图像的生成受到限制。



技术实现要素:

本公开的目的在于提供一种图像绘制方法、图像绘制装置、计算机可读介质和电子设备,进而至少在一定程度上提供一种仅通过语音指令就可以完成图像绘制的交互方式,提升语音交互的趣味性,提升图像绘制的灵活性与多样性。

根据本公开的第一方面,提供一种图像绘制方法,包括:

获取输入的语音指令,并确定所述语音指令中的关键特征信息;

根据所述关键特征信息进行图像绘制处理,生成候选图像列表;

响应于对展示的所述候选图像列表的选择操作,将选择的候选图像作为与所述语音指令对应的目标图像,以完成对所述目标图像的绘制。

根据本公开的第二方面,提供一种图像绘制装置,包括:

特征信息确定模块,用于获取输入的语音指令,并确定所述语音指令中的关键特征信息;

候选图像列表生成模块,用于根据所述关键特征信息进行图像绘制处理,生成候选图像列表;

目标图像确定模块,用于响应于对展示的所述候选图像列表的选择操作,将选择的候选图像作为与所述语音指令对应的目标图像,以完成对所述目标图像的绘制。

根据本公开的第三方面,提供一种计算机可读介质,其上存储有计算机程序,计算机程序被处理器执行时实现上述的方法。

根据本公开的第四方面,提供一种电子设备,其特征在于,包括:

处理器;以及

存储器,用于存储一个或多个程序,当一个或多个程序被一个或多个处理器执行时,使得一个或多个处理器实现上述的方法。

本公开的一种实施例所提供的图像绘制方法,首先确定用户输入的语音指令中包含的关键特征信息,然后根据关键特征信息进行图像绘制处理,生成候选图像列表,最后根据对展示的候选图像列表的选择操作,将选择的候选图像作为与语音指令对应的目标图像,完成对目标图像的绘制。一方面,确定用户输入的语音指令中包含的关键特征信息,并根据关键特征信息生成候选图像,能够实现通过语音指令绘制图像,提升语音交互的趣味性,增大语音交互的适用范围;另一方面,生成不同的候选图像供用户选择,使用户能够自主选择期望的候选图像,提升语音绘制的图像的灵活性以及多样性。

应当理解的是,以上的一般描述和后文的细节描述仅是示例性和解释性的,并不能限制本公开。

附图说明

此处的附图被并入说明书中并构成本说明书的一部分,示出了符合本公开的实施例,并与说明书一起用于解释本公开的原理。显而易见地,下面描述中的附图仅仅是本公开的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。在附图中:

图1示出了可以应用本公开实施例的一种示例性系统架构的示意图;

图2示出了可以应用本公开实施例的一种电子设备的示意图;

图3示意性示出本公开示例性实施例中一种图像绘制方法的流程图;

图4示意性示出本公开示例性实施例中一种确定关键特征信息的流程图;

图5示意性示出本公开示例性实施例中一种确定语音指令对应的意图类型的流程图;

图6示意性示出本公开示例性实施例中一种修改候选图像的流程图;

图7示意性示出本公开示例性实施例中一种修改候选图像的应用示意图;

图8示意性示出本公开示例性实施例中另一种修改候选图像的流程图;

图9示意性示出本公开示例性实施例中另一种修改候选图像的应用示意图;

图10示意性示出本公开示例性实施例中一种实现目标图像绘制的流程图;

图11示意性示出本公开示例性实施例中图像绘制装置的组成示意图。

具体实施方式

现在将参考附图更全面地描述示例实施方式。然而,示例实施方式能够以多种形式实施,且不应被理解为限于在此阐述的范例;相反,提供这些实施方式使得本公开将更加全面和完整,并将示例实施方式的构思全面地传达给本领域的技术人员。所描述的特征、结构或特性可以以任何合适的方式结合在一个或更多实施方式中。

此外,附图仅为本公开的示意性图解,并非一定是按比例绘制。图中相同的附图标记表示相同或类似的部分,因而将省略对它们的重复描述。附图中所示的一些方框图是功能实体,不一定必须与物理或逻辑上独立的实体相对应。可以采用软件形式来实现这些功能实体,或在一个或多个硬件模块或集成电路中实现这些功能实体,或在不同网络和/或处理器装置和/或微控制器装置中实现这些功能实体。

图1示出了可以应用本公开实施例的一种图像绘制方法及装置的示例性应用环境的系统架构的示意图。

如图1所示,系统架构100可以包括终端设备101、102、103中的一个或多个,网络104和服务器105。网络104用以在终端设备101、102、103和服务器105之间提供通信链路的介质。网络104可以包括各种连接类型,例如有线、无线通信链路或者光纤电缆等等。终端设备101、102、103可以是各种具有图像处理功能的电子设备,包括但不限于台式计算机、便携式计算机、智能手机和平板电脑等等。应该理解,图1中的终端设备、网络和服务器的数目仅仅是示意性的。根据实现需要,可以具有任意数目的终端设备、网络和服务器。比如服务器105可以是多个服务器组成的服务器集群等。

本公开实施例所提供的图像绘制方法一般由终端设备101、102、103中执行,相应地,图像绘制装置一般设置于终端设备101、102、103中。但本领域技术人员容易理解的是,本公开实施例所提供的图像绘制方法也可以由服务器105执行,相应的,图像绘制装置也可以设置于服务器105中,本示例性实施例中对此不做特殊限定。举例而言,在一种示例性实施例中,可以是用户通过终端设备101、102、103包括的用于采集语音信息的语音采集单元(如麦克风)收集语音指令,然后将语音指令上传至服务器105,服务器通过本公开实施例所提供的图像绘制方法生成候选图像后,将候选图像以候选图像列表的形式传输给终端设备101、102、103等进行展示。

本公开的示例性实施方式提供一种用于实现图像绘制方法的电子设备,其可以是图1中的终端设备101、102、103或服务器105。该电子设备至少包括处理器和存储器,存储器用于存储处理器的可执行指令,处理器配置为经由执行可执行指令来执行图像绘制方法。

下面以图2中的移动终端200为例,对电子设备的构造进行示例性说明。本领域技术人员应当理解,除了特别用于移动目的的部件之外,图2中的构造也能够应用于固定类型的设备。在另一些实施方式中,移动终端200可以包括比图示更多或更少的部件,或者组合某些部件,或者拆分某些部件,或者不同的部件布置。图示的部件可以以硬件、软件或软件和硬件的组合实现。各部件间的接口连接关系只是示意性示出,并不构成对移动终端200的结构限定。在另一些实施方式中,移动终端200也可以采用与图2不同的接口连接方式,或多种接口连接方式的组合。

如图2所示,移动终端200具体可以包括:处理器210、内部存储器221、外部存储器接口222、通用串行总线(universalserialbus,usb)接口230、充电管理模块240、电源管理模块241、电池242、天线1、天线2、移动通信模块250、无线通信模块260、音频模块270、扬声器271、受话器272、麦克风273、耳机接口274、传感器模块280、显示屏290、摄像模组291、指示器292、马达293、按键294以及用户标识模块(subscriberidentificationmodule,sim)卡接口295等。其中传感器模块280可以包括深度传感器2801、压力传感器2802、陀螺仪传感器2803等。

处理器210可以包括一个或多个处理单元,例如:处理器210可以包括应用处理器(applicationprocessor,ap)、调制解调处理器、图形处理器(graphicsprocessingunit,gpu)、图像信号处理器(imagesignalprocessor,isp)、控制器、视频编解码器、数字信号处理器(digitalsignalprocessor,dsp)、基带处理器和/或神经网络处理器(neural-networkprocessingunit,npu)等。其中,不同的处理单元可以是独立的器件,也可以集成在一个或多个处理器中。

npu为神经网络(neural-network,nn)计算处理器,通过借鉴生物神经网络结构,例如借鉴人脑神经元之间传递模式,对输入信息快速处理,还可以不断的自学习。通过npu可以实现移动终端200的智能认知等应用,例如:图像识别,人脸识别,语音识别,文本理解等。

处理器210中设置有存储器。存储器可以存储用于实现六个模块化功能的指令:检测指令、连接指令、信息管理指令、分析指令、数据传输指令和通知指令,并由处理器210来控制执行。

充电管理模块240用于从充电器接收充电输入。电源管理模块241用于连接电池242、充电管理模块240与处理器210。电源管理模块241接收电池242和/或充电管理模块240的输入,为处理器210、内部存储器221、显示屏290、摄像模组291和无线通信模块260等供电。

移动终端200的无线通信功能可以通过天线1、天线2、移动通信模块250、无线通信模块260、调制解调处理器以及基带处理器等实现。其中,天线1和天线2用于发射和接收电磁波信号;移动通信模块250可以提供应用在移动终端200上的包括2g/3g/4g/5g等无线通信的解决方案;调制解调处理器可以包括调制器和解调器;无线通信模块260可以提供应用在移动终端200上的包括无线局域网(wirelesslocalareanetworks,wlan)(如无线保真(wirelessfidelity,wi-fi)网络)、蓝牙(bluetooth,bt)等无线通信的解决方案。在一些实施例中,移动终端200的天线1和移动通信模块250耦合,天线2和无线通信模块260耦合,使得移动终端200可以通过无线通信技术与网络以及其他设备通信。

移动终端200通过gpu、显示屏290及应用处理器等实现显示功能。gpu为图像处理的微处理器,连接显示屏290和应用处理器。gpu用于执行数学和几何计算,用于图形渲染。处理器210可包括一个或多个gpu,其执行程序指令以生成或改变显示信息。

移动终端200可以通过isp、摄像模组291、视频编解码器、gpu、显示屏290及应用处理器等实现拍摄功能。其中,isp用于处理摄像模组291反馈的数据;摄像模组291用于捕获静态图像或视频;数字信号处理器用于处理数字信号,除了可以处理数字图像信号,还可以处理其他数字信号;视频编解码器用于对数字视频压缩或解压缩,移动终端200还可以支持一种或多种视频编解码器。

外部存储器接口222可以用于连接外部存储卡,例如microsd卡,实现扩展移动终端200的存储能力。外部存储卡通过外部存储器接口222与处理器210通信,实现数据存储功能。例如将音乐,视频等文件保存在外部存储卡中。

内部存储器221可以用于存储计算机可执行程序代码,可执行程序代码包括指令。内部存储器221可以包括存储程序区和存储数据区。其中,存储程序区可存储操作系统,至少一个功能所需的应用程序(比如声音播放功能,图像播放功能等)等。存储数据区可存储移动终端200使用过程中所创建的数据(比如音频数据,电话本等)等。此外,内部存储器221可以包括高速随机存取存储器,还可以包括非易失性存储器,例如至少一个磁盘存储器件,闪存器件,通用闪存存储器(universalflashstorage,ufs)等。处理器210通过运行存储在内部存储器221的指令和/或存储在设置于处理器中的存储器的指令,执行移动终端200的各种功能应用以及数据处理。

移动终端200可以通过音频模块270、扬声器271、受话器272、麦克风273、耳机接口274及应用处理器等实现音频功能。例如音乐播放、录音等。

深度传感器2801用于获取景物的深度信息。在一些实施例中,深度传感器可以设置于摄像模组291。

压力传感器2802用于感受压力信号,可以将压力信号转换成电信号。在一些实施例中,压力传感器2802可以设置于显示屏290。压力传感器2802的种类很多,如电阻式压力传感器,电感式压力传感器,电容式压力传感器等。

陀螺仪传感器2803可以用于确定移动终端200的运动姿态。在一些实施方式中,可以通过陀螺仪传感器2803确定移动终端200围绕三个轴(即,x,y和z轴)的角速度。陀螺仪传感器2803可以用于拍摄防抖、导航、体感游戏场景等。

此外,还可以根据实际需要在传感器模块280中设置其他功能的传感器,例如气压传感器、磁传感器、加速度传感器、距离传感器、接近光传感器、指纹传感器、温度传感器、触摸传感器、环境光传感器、骨传导传感器等。

移动终端200中还可包括其它提供辅助功能的设备。例如,按键294包括开机键,音量键等,用户可以通过按键输入,产生与移动终端200的用户设置以及功能控制有关的键信号输入。再如,指示器292、马达293、sim卡接口295等。

在相关的语音交互技术方案中,首先基于采集的图像和语音指令,融合绘画矢量图和绘画语义信息,并判断是否为相同的绘画任务,若是,基于绘画矢量图和绘画语义,合并重复区域后,生成新的绘画矢量,机器人执行绘画动作,完成绘画任务。但是,这种技术方案中,绘画场景仅限制在机器人装置,通过机器人的硬件设施完成绘画操作,无法仅通过软件完成图像绘制;其次,要基于采集的图像信息和用户指令结合,进行多模态的信息补充,才能提升机器人绘画的图像质量,无法单独通过语音指令完成高质量的图像绘制,降低了图像绘制的灵活性。

下面以终端设备执行为例,对本公开示例性实施方式的图像绘制方法进行具体说明。

图3示出了本示例性实施方式中一种图像绘制方法的流程,可以包括以下步骤s310至步骤s330:

在步骤s310中,获取输入的语音指令,并确定所述语音指令中的关键特征信息。

在一示例性实施例中,语音指令是指用户向终端设备以语音的形式下达的控制指令,例如,语音指令可以是“我要画一只白头黑尾的金鱼”,也可以是“请帮我放一首歌”,本示例实施例对此不做特殊限定。可以通过终端设备中安装的语音助手获取用户下达的语音指令,也可以通过与终端设备通信连接的智能音箱等语音采集设备获取用户下达的语音指令,本示例实施例对此不做特殊限定。

关键特征信息是指语音指令对应的文本数据中包含的用于表征语义特征的信息,是基于自然语言理解技术从文本数据中提取得到的,关键特征信息可以是独立的一个信息,也可以是具有关联关系的多个信息,本示例实施例对此不做特殊限定,例如,对于语音指令“我要画一把椅子”,该图像绘制语音指令对应的关键特征信息可以是“椅子”,对于语音指令“我要画一把牛油果形状的椅子”,该图像绘制语音指令对应的关键特征信息可以是“牛油果形状”、“牛油果颜色”和“椅子”,当然,此处仅是示意性举例说明,本示例实施例不以此为限。

具体的,可以先通过自动语音识别技术(automaticspeechrecognition)将语音指令转化为文本数据,例如可以通过动态时间规整模型(dyanmictimewarping)、矢量量化模型(vectorquantization)或者隐马尔可夫模型(hiddenmarkovmodels)将语音指令转化为文本数据,进而可以将文本数据输入到预训练的特征提取模型(如词袋模型、词频-逆文档频率tf-idf模型)中,输出语音指令对应的关键特征信息。

当然,本实施例中也不仅限于语音指令,也可以直接获取输入的文本指令,如可以通过终端设备提供的语音助手的文本输入接口获取用户输入的文本指令,进而确定文本指令中的关键特征信息。

在步骤s320中,根据所述关键特征信息进行图像绘制处理,生成候选图像列表。

在一示例性实施例中,图像绘制处理是指生成与关键特征信息相关联的图像的处理过程,例如,对于语音指令“我要画一把牛油果形状的椅子”,该图像绘制语音指令对应的关键特征信息可以是“牛油果形状”“牛油果颜色”和“椅子”,那么图像绘制处理可以是分别匹配或者学习预测与“牛油果形状”、“牛油果颜色”、“椅子”相关的图像信息,然后基于关键特征信息将得到的这三类图像信息进行相对定位、对象堆叠和属性控制等处理,融合绘制得到多个候选图像,并构建得到候选图像列表。

在步骤s330中,响应于对展示的所述候选图像列表的选择操作,将选择的候选图像作为与所述语音指令对应的目标图像,以完成对所述目标图像的绘制。

在一示例性实施例中,在得到候选图像列表之后,可以将候选图像列表中的多个候选图像展示在提供给用户的可视化平台上,例如,可视化平台可以是终端设备的人机交互界面,也可以是与终端设备相连接的智能眼镜等可穿戴设备,本示例实施例不以此为限。

选择操作可以是指用于在候选图像列表中选择确定目标图像的操作,例如,选择操作可以是用户在提供的可视化平台上通过触控操作(如点击操作、双击操作、滑动操作、重按或长按操作等)、按键操作(如通过音量键、外接设备的确认键等输入的按键操作)或者重力感应操作(如通过陀螺仪提供的重力感应功能移动选择图像,实现图像的选择的操作);选择操作也可以是用户通过语音指令选择目标图像的操作,如可以对候选图像列表中的各候选图像进行编号,用户通过下达“选择xx号图像”的语音指令选择编号为xx号对应的候选图像作为目标图像,当然,以上选择操作仅是示意性说明,本示例实施例对用于选择目标图像的选择操作不做任何特殊限定。

下面,对步骤s310至步骤s330进行进一步的说明。

在一示例性实施例中,由于获取的语音指令可能不止有用于图像绘制的,也可以能有其他意图的语音指令,因此,在提取语音指令中的关键特征信息前,首先需要判断语音指令的意图,以提高语音指令的执行准确率,参考图4所示,具体可以包括:

步骤s410,获取输入的语音指令,并确定所述语音指令的意图类型;

步骤s420,若所述意图类型为图像绘制意图,则确定所述语音指令中的关键特征信息。

其中,意图类型是指控制命令的分类,例如,对于语音指令“我要听一首歌”,对应的意图类型可以是音乐播放意图,对于语音指令“我要画一把椅子”,对应的意图类型可以是图像绘制意图,本示例实施例对此不作特殊限定。

具体的,可以通过图5中的步骤实现语音指令的意图类型的确定,参考图5所示,具体可以包括:

步骤s510,对所述语音指令进行语音识别,得到所述语音指令对应的文本数据;

步骤s520,将所述文本数据输入到预训练的意图分类模型中,输出多个意图类型以及所述多个意图类型的置信度数据;

步骤s530,对所述置信度数据进行排序,将所述置信度数据最大的意图类型作为所述语音指令的意图类型。

其中,语音识别是指通过自动语音识别技术asr将语音指令的声学特征转换成文本信息或者计算机可读的输入的识别过程,如可以将语音指令中的音频进行信号处理后,按帧(或者毫秒级)拆分,并对拆分出的小段波形按照人耳特征变成多维向量信息,将这些多维向量信息识别成状态(可以理解为中间过程,一种比音素还要小的过程),然后将得到的状态组合形成音素(通常3个状态为1个音素),最后将得到的音素组成字词并串连成句,这样,就可以将语音指令转换成对应的文本数据。

意图分类模型是指预先根据文本-意图对训练样本训练得到的分类模型,置信度数据是指每个意图类型对应的得分数据,例如,对于文本数据“我要画一把椅子”,输入到意图分类模型后输出“意图类型:图像绘制,置信度数据:8;意图类型:音乐播放,置信度数据:2;……”,其中,置信度数据可以根据文本数据中在某意图类型下的关键特征的命中数量而定。

可以根据意图分类模型输出后的意图类型的置信度数据进行排序,如可以从大到小排列,也可以从小到大排列,本示例实施例不以此为限。在排序后的意图类型中确定置信度数据最大的意图类型,并将置信度数据最大的意图类型作为语音指令的意图类型,例如,对于语音指令“我要画一把椅子”,输入到意图分类模型后输出“意图类型:图像绘制,置信度数据:8;意图类型:音乐播放,置信度数据:2;……”,排序后确定意图类型为图像绘制意图的置信度数据最大,因此将图像绘制意图作为该语音指令的意图类型,当然,此处仅是示意性举例说明,本示例实施例不以此为限。

在一示例性实施例中,可以根据关键特征信息从预设的文本图像对数据库中匹配目标图像信息;然后可以将目标图像信息进行图像融合,生成多个候选图像,并通过多个候选图像构建候选图像列表。

其中,文本图像对数据库是指预先构建的特征信息与图像信息的匹配关系的数据库,目标图像信息是指关键特征信息基于匹配关系从文本图像对数据库中匹配得到的基础图像,例如,假设关键特征信息为“金鱼”,则从文本图像对数据库中可以匹配得到的目标图像信息为包含有各种“金鱼”元素的图像。

在根据关键特征信息从预设的文本图像对数据库中匹配得到目标图像信息之后,可以将不同的关键特征信息对应的目标图像信息进行自由组合,然后将不同组合的目标图像信息进行相对定位、对象堆叠和属性控制等处理实现各目标图像信息的融合,可以得到多个与关键特征信息相关联的候选图像。例如,对于语音指令“我要画一把牛油果形状的椅子”,该图像绘制语音指令对应的关键特征信息可以是“牛油果形状”“牛油果颜色”和“椅子”,那么在文本图像对数据库中可以匹配得到与关键特征信息“牛油果形状”相关联的多个牛油果形状相关的图像信息、与关键特征信息“牛油果颜色”相关联的多个牛油果颜色相关的图像信息、与关键特征信息“椅子”相关联的多个牛油果颜色相关的图像信息,将不同关键特征信息下的图像信息进行自由组合并图像融合得到不同种类的与语音指令“我要画一把牛油果形状的椅子”对应的候选图像。当然,此处仅是示意性举例说明,本示例实施例不以此为限。

在一示例性实施例中,由于在绘制图像时,不能一次性生成用户期望的目标图像,因此在根据用户第一次的语音指令生成候选图像列表之后,可以继续根据用户的修改语音指令对候选图像列表中的各候选图像进行修改,参考图6所示,具体可以包括:

步骤s610,获取输入的修改语音指令,并确定所述修改语音指令中的修改关键特征信息;

步骤s620,根据所述修改关键特征信息对所述候选图像列表中的各候选图像进行修改,生成修改后的候选图像列表。

其中,修改语音指令是指用于对候选图像列表中的各候选图像进行修改调整的语音指令,例如,对于第一次输入的语音指令“我要画一把牛油果形状的椅子”,生成该语音指令对应的候选图像列表,那么,修改语音指令可以是“在牛油果形状的椅子旁边加一张牛油果形状的桌子”,则对应的修改关键特征信息可以是“旁边”、“添加”、“牛油果形状”和“桌子”,因此,可以通过修改关键特征信息在文本图像对数据库中匹配得到新的图像信息,并将新的图像信息添加到候选图像列表中的各候选图像中以便于进行进一步的图像融合,得到在“牛油果形状的椅子”旁边添加了“牛油果形状的桌子”的各候选图像构成的修改后的候选图像列表。

图7示意性示出本公开示例性实施例中一种修改候选图像的应用示意图。

参考图7所示,下面以移动终端的语音助手实现本示例实施例中的图像绘制方法为例,说明修改候选图像的一种方式:

步骤s710,通过语音助手获取用户的语音指令,将该语音指令转化为文本数据,并且在检测到该文本数据的意图类型为图像绘制意图时,提取该文本数据中的关键特征信息,进而根据关键特征信息匹配多个目标图像信息,将多个目标图像信息进行图像融合得到由多个候选图像(如候选图像1、候选图像2、候选图像3、候选图像4……)构成的候选图像列表,并提示用户可以继续通过语音指令进行修改;

步骤s720,可以继续获取用户下达的至少一轮修改语音指令以实现对候选图像的修改,在检测到有效的修改语音指令后,提取修改语音指令中的用于修改候选图像内容的修改图像信息,并将修改图像信息融合到候选图像列表的各候选图像中,得到修改后的候选图像列表。

在另一示例性实施例中,由于根据第一次的语音指令生成的候选图像列表中的候选图像较多,那么根据修改语音指令匹配得到的图像信息对候选图像列表中的所有候选图像进行修改时,会产生较多的组合方式,这样随着修改指令的增加,生成的候选图像的数量级可能指数级增加,导致计算量过大。因此在根据语音指令生成候选图像列表之后,可以提示用户从该次生成的候选图像列表先确定一个候选图像,然后在接收到用户输入的修改语音指令时,可以仅对确定的候选图像进行修改生成修改后的候选图像列表,这样能够有效降低候选图像列表中的候选图像的数量,提高计算效率,有利于用户快速确定期望的目标图像。参考图7所示,具体可以通过图8中的步骤实现候选图像的修改,可以包括:

步骤s810,获取输入的修改语音指令,并确定所述修改语音指令中的修改关键特征信息;

步骤s820,响应于对展示的所述候选图像列表的选择操作,确定选择的候选图像;

步骤s830,根据所述修改关键特征信息对所述选择的候选图像进行修改,生成修改后的候选图像列表。

其中,修改语音指令是指用于对选择操作从候选图像列表中选出的候选图像进行修改调整的语音指令,例如,对于第一次输入的语音指令“我要画一把牛油果形状的椅子”,生成该语音指令对应的候选图像列表,然后提示用户从该候选图像列表中选定一张候选图像作为最符合期望的图像,进而提示用户可以进一步通过修改语音指令修改选定的图像,假设修改语音指令是“在牛油果形状的椅子旁边加一张牛油果形状的桌子”,则对应的修改关键特征信息可以是“旁边”、“添加”、“牛油果形状”和“桌子”,因此,可以通过修改关键特征信息在文本图像对数据库中匹配得到新的图像信息,并将新的图像信息添加到选定的候选图像中并进行图像融合(如相对定位、对象堆叠和属性控制等处理),得到不同类型的在“牛油果形状的椅子”旁边添加了“牛油果形状的桌子”的候选图像,并构成修改后的候选图像列表。

图9示意性示出本公开示例性实施例中另一种修改候选图像的应用示意图。

参考图9所示,下面以移动终端的语音助手实现本示例实施例中的图像绘制方法为例,说明修改候选图像的另一种方式:

步骤s910,通过语音助手获取用户的语音指令,将该语音指令转化为文本数据,并且在检测到该文本数据的意图类型为图像绘制意图时,提取该文本数据中的关键特征信息,进而根据关键特征信息匹配多个目标图像信息,将多个目标图像信息进行图像融合得到由多个候选图像(如候选图像1、候选图像2、候选图像3、候选图像4……)构成的候选图像列表,并提示用户可以选择候选图像列表中的一个候选图像;

步骤s920,可以通过多种方式选择候选图像,如通过下达语音指令选择候选图像如选定候选图像1,并提示用户可以继续通过语音指令修改;

步骤s930,继续获取用户下达的至少一轮修改语音指令,如修改语音指令“给鱼上加个三角形”,并在检测到有效的修改语音指令后,提取修改语音指令中的用于修改候选图像内容的修改图像信息(如“鱼”、“上”、“加”、“三角形”),并将修改图像信息融合到选择的候选图像如候选图像1中,得到修改后的不同类型的候选图像1构成的修改后的候选图像列表。

在一示例性实施例中,在经过第一次语音指令和多次的修改语音指令以及最终的用户确定后,可以得到用户期望绘制的图像的主体部分,此时可以为该图像添加适合的场景(即背景部分),得到较完整的目标图像,具体可以提供与目标图像关联的背景图像列表;将从背景图像列表中选择的目标背景图像与目标图像进行融合,得到带有场景的目标图像。

其中,可以通过用户输入的用于设置图像场景的语音指令,从文本图像对数据库中匹配与该语音指令相关联的多个背景图像,并构建背景图像列表提供给用户进行选择,例如,用户输入的用于设置图像场景的语音指令为“添加一个鱼缸”,则可以根据关键特征信息从文本图像对数据库中匹配多个包含“鱼缸”的背景图像,并构建背景图像列表。当然,也可以通过识别用户最终确定的图像中的图像元素,在文本图像对数据库中匹配预先标注定义好的与该图像元素相关联的背景图像,例如,对于最终确定的图像中的图像元素为“金鱼”,那么可以在文本图像对数据库中匹配得到与图像元素“金鱼”相关的“鱼缸”、“海洋”、“溪流”等多个背景图像,并构建成背景图像列表提供给用户进行选择。

目标背景图像与目标图像进行融合是指将目标图像中的主体部分融合到目标背景图像的过程,具体可以通过边缘检测算法对目标图像进行边缘检测,并从目标图像中分离出主体部分图像,并将该主体部分图像融合到目标背景图像中,得到带有场景的目标图像。例如,最终确定的目标图像中包含主体部分为“金鱼”,用户从背景图像列表中选择的背景图像为“鱼缸”,则对目标图像进行边缘检测,提取出其中“金鱼”对应的主体部分图像,并将主体部分图像融合到背景图像中,得到“在鱼缸中游泳的金鱼”的目标图像,当然,此处仅是示意性举例说明,本示例实施例不以此为限。

在一示例性实施例中,为了提升绘制好的目标图像的趣味性,可以为目标图像增加交互特效动画,实现用户与绘制好的目标图像之间的交互,具体可以从预设的特效数据库中匹配目标图像对应的交互特效动画,并将交互特效动画与所述目标图像相关联,以在检测到触发目标图像的交互动作时显示交互特效动画。例如,最终得到目标图像为“在鱼缸中金鱼”,那么可以在预设的特效数据库中匹配“吐泡泡”特效动画,并与目标图像进行相对定位,以将“吐泡泡”特效动画定位到目标图像中“金鱼”头部位置,可以在用户通过触发语音指令如“吐泡泡”或者点击目标图像时,则确定检测到触发目标图像的交互动作,此时可以显示交互特效动画,交互特效动画可以在触发后持续显示,或者在显示一定时间后消失,本示例实施例对此不做特殊限定。

图10示意性示出本公开示例性实施例中一种实现目标图像绘制的流程图。

参考图10所示,步骤s1001,获取用户输入的语音指令,对语音指令进行语音识别得到该语音指令对应的文本数据;

步骤s1002,将文本数据输入到预训练的意图召回模型中输出意图类型;

步骤s1003,判断该语音指令的意图类型是否为图像绘制意图,如果检测到该语音指令的意图类型是图像绘制意图,则执行步骤s1004,否则执行步骤s1005;

步骤s1004,通过特征提取模型提取文本数据中包含的关键特征信息;

步骤s1005,执行语音指令实现相应的操作;

步骤s1006,基于关键特征信息从预设的文本图像对数据库中匹配目标图像信息;

步骤s1007,将目标图像信息基于相对定位、对象堆叠和属性控制等图像融合处理,得到多个候选图像,并展示到可视化平台供用户选择;

步骤s1008,提示用户是否对候选图像进行修改或者绘制,如果确定用户要对候选图像进行修改或者绘制,则执行步骤s1009,否则执行步骤s1010;

步骤s1009,获取至少一轮的修改语音指令,并提取修改语音指令中的修改关键特征信息;

步骤s1010,提示用户从展示的多个候选图像中选择一个作为目标图像;

步骤s1011,基于修改关键特征信息从预设的文本图像对数据库中匹配修改图像信息,并根据修改图像信息修改多个候选图像得到新的候选图像;

步骤s1012,响应用户的选择操作从多个候选图像中确定目标图像,并提供背景图像列表以使用户选择背景图像并添加到目标图像中;

步骤s1013,匹配交互特效动画并与目标图像相关联,以在用户触发目标图像时展示该交互特效动画。

综上所述,本示例性实施方式中,首先确定用户输入的语音指令中包含的关键特征信息,然后根据关键特征信息进行图像绘制处理,生成候选图像列表,最后根据对展示的候选图像列表的选择操作,将选择的候选图像作为与语音指令对应的目标图像,完成对目标图像的绘制。一方面,确定用户输入的语音指令中包含的关键特征信息,并根据关键特征信息生成候选图像,能够实现通过语音指令绘制图像,提升语音交互的趣味性,增大语音交互的适用范围;另一方面,生成不同的候选图像供用户选择,使用户能够自主选择期望的候选图像,提升语音绘制的图像的灵活性以及多样性。

需要注意的是,上述附图仅是根据本公开示例性实施例的方法所包括的处理的示意性说明,而不是限制目的。易于理解,上述附图所示的处理并不表明或限制这些处理的时间顺序。另外,也易于理解,这些处理可以是例如在多个模块中同步或异步执行的。

进一步的,参考图11所示,本示例的实施方式中还提供一种图像绘制装置1100,可以包括特征信息确定模块1110、候选图像列表生成模块1120以及目标图像确定模块1130。其中:

特征信息确定模块1110用于获取输入的语音指令,并确定所述语音指令中的关键特征信息;

候选图像列表生成模块1120用于根据所述关键特征信息进行图像绘制处理,生成候选图像列表;

目标图像确定模块1130用于响应于对展示的所述候选图像列表的选择操作,将选择的候选图像作为与所述语音指令对应的目标图像,以完成对所述目标图像的绘制。

在一示例性实施例中,特征信息确定模块1110可以用于:

获取输入的语音指令,并确定所述语音指令的意图类型;

若所述意图类型为图像绘制意图,则确定所述语音指令中的关键特征信息。

在一示例性实施例中,特征信息确定模块1110还可以用于:

对所述语音指令进行语音识别,得到所述语音指令对应的文本数据;

将所述文本数据输入到预训练的意图分类模型中,输出多个意图类型以及所述多个意图类型的置信度数据;

对所述置信度数据进行排序,将所述置信度数据最大的意图类型作为所述语音指令的意图类型。

在一示例性实施例中,候选图像列表生成模块1120可以用于:

根据所述关键特征信息从预设的文本图像对数据库中匹配目标图像信息;

将所述目标图像信息进行图像融合,生成多个候选图像,并通过所述多个候选图像构建候选图像列表。

在一示例性实施例中,图像绘制装置1100还可以包括图像修改单元,该图像修改单元可以用于:

获取输入的修改语音指令,并确定所述修改语音指令中的修改关键特征信息;

根据所述修改关键特征信息对所述候选图像列表中的各候选图像进行修改,生成修改后的候选图像列表。

在一示例性实施例中,图像修改单元还可以用于:

获取输入的修改语音指令,并确定所述修改语音指令中的修改关键特征信息;

响应于对展示的所述候选图像列表的选择操作,确定选择的候选图像;

根据所述修改关键特征信息对所述选择的候选图像进行修改,生成修改后的候选图像列表。

在一示例性实施例中,图像绘制装置1100还可以包括场景添加单元,该场景添加单元可以用于:

提供与所述目标图像关联的背景图像列表;

将从所述背景图像列表中选择的目标背景图像与所述目标图像进行融合,得到带有场景的目标图像。

在一示例性实施例中,图像绘制装置1100还可以包括特效动画添加单元,该特效动画添加单元可以用于:

从预设的特效数据库中匹配所述目标图像对应的交互特效动画,并将所述交互特效动画与所述目标图像相关联,以在触发所述目标图像时显示所述交互特效动画。

上述装置中各模块的具体细节在方法部分实施方式中已经详细说明,未披露的细节内容可以参见方法部分的实施方式内容,因而不再赘述。

所属技术领域的技术人员能够理解,本公开的各个方面可以实现为系统、方法或程序产品。因此,本公开的各个方面可以具体实现为以下形式,即:完全的硬件实施方式、完全的软件实施方式(包括固件、微代码等),或硬件和软件方面结合的实施方式,这里可以统称为“电路”、“模块”或“系统”。

本公开的示例性实施方式还提供了一种计算机可读存储介质,其上存储有能够实现本说明书上述方法的程序产品。在一些可能的实施方式中,本公开的各个方面还可以实现为一种程序产品的形式,其包括程序代码,当程序产品在终端设备上运行时,程序代码用于使终端设备执行本说明书上述“示例性方法”部分中描述的根据本公开各种示例性实施方式的步骤,例如可以执行图3至图8中任意一个或多个步骤。

需要说明的是,本公开所示的计算机可读介质可以是计算机可读信号介质或者计算机可读存储介质或者是上述两者的任意组合。计算机可读存储介质例如可以是——但不限于——电、磁、光、电磁、红外线、或半导体的系统、装置或器件,或者任意以上的组合。计算机可读存储介质的更具体的例子可以包括但不限于:具有一个或多个导线的电连接、便携式计算机磁盘、硬盘、随机访问存储器(ram)、只读存储器(rom)、可擦式可编程只读存储器(eprom或闪存)、光纤、便携式紧凑磁盘只读存储器(cd-rom)、光存储器件、磁存储器件、或者上述的任意合适的组合。

在本公开中,计算机可读存储介质可以是任何包含或存储程序的有形介质,该程序可以被指令执行系统、装置或者器件使用或者与其结合使用。而在本公开中,计算机可读信号介质可以包括在基带中或者作为载波一部分传播的数据信号,其中承载了计算机可读的程序代码。这种传播的数据信号可以采用多种形式,包括但不限于电磁信号、光信号或上述的任意合适的组合。计算机可读的信号介质还可以是计算机可读存储介质以外的任何计算机可读介质,该计算机可读介质可以发送、传播或者传输用于由指令执行系统、装置或者器件使用或者与其结合使用的程序。计算机可读介质上包含的程序代码可以用任何适当的介质传输,包括但不限于:无线、电线、光缆、rf等等,或者上述的任意合适的组合。

此外,可以以一种或多种程序设计语言的任意组合来编写用于执行本公开操作的程序代码,程序设计语言包括面向对象的程序设计语言—诸如java、c 等,还包括常规的过程式程序设计语言—诸如“c”语言或类似的程序设计语言。程序代码可以完全地在用户计算设备上执行、部分地在用户设备上执行、作为一个独立的软件包执行、部分在用户计算设备上部分在远程计算设备上执行、或者完全在远程计算设备或服务器上执行。在涉及远程计算设备的情形中,远程计算设备可以通过任意种类的网络,包括局域网(lan)或广域网(wan),连接到用户计算设备,或者,可以连接到外部计算设备(例如利用因特网服务提供商来通过因特网连接)。

本领域技术人员在考虑说明书及实践这里公开的发明后,将容易想到本公开的其他实施例。本申请旨在涵盖本公开的任何变型、用途或者适应性变化,这些变型、用途或者适应性变化遵循本公开的一般性原理并包括本公开未公开的本技术领域中的公知常识或惯用技术手段。说明书和实施例仅被视为示例性的,本公开的真正范围和精神由权利要求指出。

应当理解的是,本公开并不局限于上面已经描述并在附图中示出的精确结构,并且可以在不脱离其范围进行各种修改和改变。本公开的范围仅由所附的权利要求来限。


技术特征:

1.一种图像绘制方法,其特征在于,包括:

获取输入的语音指令,并确定所述语音指令中的关键特征信息;

根据所述关键特征信息进行图像绘制处理,生成候选图像列表;

响应于对展示的所述候选图像列表的选择操作,将选择的候选图像作为与所述语音指令对应的目标图像,以完成对所述目标图像的绘制。

2.根据权利要求1所述的方法,其特征在于,获取输入的语音指令,并确定所述语音指令中的关键特征信息,包括:

获取输入的语音指令,并确定所述语音指令的意图类型;

若所述意图类型为图像绘制意图,则确定所述语音指令中的关键特征信息。

3.根据权利要求2所述的方法,其特征在于,所述确定所述语音指令的意图类型,包括:

对所述语音指令进行语音识别,得到所述语音指令对应的文本数据;

将所述文本数据输入到预训练的意图分类模型中,输出多个意图类型以及所述多个意图类型的置信度数据;

对所述置信度数据进行排序,将所述置信度数据最大的意图类型作为所述语音指令的意图类型。

4.根据权利要求1所述的方法,其特征在于,根据所述关键特征信息进行图像绘制处理,生成候选图像列表,包括:

根据所述关键特征信息从预设的文本图像对数据库中匹配目标图像信息;

将所述目标图像信息进行图像融合,生成多个候选图像,并通过所述多个候选图像构建候选图像列表。

5.根据权利要求1所述的方法,其特征在于,根据所述关键特征信息进行图像绘制处理,生成候选图像列表,还包括:

获取输入的修改语音指令,并确定所述修改语音指令中的修改关键特征信息;

根据所述修改关键特征信息对所述候选图像列表中的各候选图像进行修改,生成修改后的候选图像列表。

6.根据权利要求1所述的方法,其特征在于,根据所述关键特征信息进行图像绘制处理,生成候选图像列表,还包括:

获取输入的修改语音指令,并确定所述修改语音指令中的修改关键特征信息;

响应于对展示的所述候选图像列表的选择操作,确定选择的候选图像;

根据所述修改关键特征信息对所述选择的候选图像进行修改,生成修改后的候选图像列表。

7.根据权利要求1所述的方法,其特征在于,所述方法还包括:

提供与所述目标图像关联的背景图像列表;

将从所述背景图像列表中选择的目标背景图像与所述目标图像进行融合,得到带有场景的目标图像。

8.根据权利要求1所述的方法,其特征在于,所述方法还包括:

从预设的特效数据库中匹配所述目标图像对应的交互特效动画,并将所述交互特效动画与所述目标图像相关联,以在触发所述目标图像时显示所述交互特效动画。

9.一种图像绘制装置,其特征在于,包括:

特征信息确定模块,用于获取输入的语音指令,并确定所述语音指令中的关键特征信息;

候选图像列表生成模块,用于根据所述关键特征信息进行图像绘制处理,生成候选图像列表;

目标图像确定模块,用于响应于对展示的所述候选图像列表的选择操作,将选择的候选图像作为与所述语音指令对应的目标图像,以完成对所述目标图像的绘制。

10.一种计算机可读介质,其上存储有计算机程序,其特征在于,所述计算机程序被处理器执行时实现如权利要求1至8中任一项所述的方法。

11.一种电子设备,其特征在于,包括:

处理器;以及

存储器,用于存储所述处理器的可执行指令;

其中,所述处理器配置为经由执行所述可执行指令来执行权利要求1至8任一项所述的方法。

技术总结
本公开提供一种图像绘制方法及装置、计算机可读介质和电子设备,涉及人工智能技术领域。该方法包括:获取输入的语音指令,并确定所述语音指令中的关键特征信息;根据所述关键特征信息进行图像绘制处理,生成候选图像列表;响应于对展示的所述候选图像列表的选择操作,将选择的候选图像作为与所述语音指令对应的目标图像,以完成对所述目标图像的绘制。本公开能够通过用户的语音指令协助完成图像的绘制,增加新的交互方式,提升语音交互的趣味性,提升用户体验。

技术研发人员:董岩岩
受保护的技术使用者:OPPO广东移动通信有限公司
技术研发日:2021.04.25
技术公布日:2021.08.03

转载请注明原文地址:https://doc.8miu.com/read-5945.html

最新回复(0)