使用多模态合成进行通信的方法和设备与流程

专利2026-04-04 36

本发明涉及用于通信的方法和设备，尤其是用于生成包括多模态合成的消息的方法和设备，该消息可以在两个或更多个设备之间传输，其中，多模态合成是根据属于两个或更多个输出模态的两个或更多个元素生成的。

背景技术：

1、互联网、社交媒体和基于文本的即时消息传送的兴起推动了颜文字和表情等图形工具的发展，成为一种有效的新型沟通方式。在纯文本交互中准确地传达情感并不容易，因为这种交互舍弃了人类交流所必需的许多其它重要的非文本信号。这些非文本信号可以是词语的音量和重音、语调和语气，以及手势、面部表情和肢体语言等非语言成分。

2、在基于文本的对话中添加颜文字和表情等图形元素已经越来越受欢迎，因为它们能够以一种简单易懂的格式更准确地传达情感。基于文本的表情预测目前在许多应用程序中十分常见，这也鼓励了更多用户在对话中添加表情。最近，有个显著的趋势是使用不同的输出模态来增强表情，通过添加动画输出来增强表情的观赏性，从而更有效地传达人类的情感。但是，现有技术在提供这种多模态表情方面的能力有限。

3、因此，需要提供更高级的功能来向消息添加多模态输出。

技术实现思路

1、一些现有的即时消息传送应用程序提供了多模态表情的选项，但是这些现有的技术存在缺陷，即与每个表情关联的多模态输出是预定义的，而不是可变的。也就是说，为给定表情提供的多模态输出的类型(和强度)是固定的。因此，可以包括在通信中的信息是有限的。一些现有技术的另一个缺点是，如果提供了包括表情的推荐，则这种推荐仅基于输入的文本数据。该推荐没有考虑通信的全部上下文。尽管一些现有技术支持用户自定义或更改与表情关联的输出，但是用于自定义的选项是有限的(例如，简单的改变大小)或者需要大量的用户输入(例如，需要用户录制音频数据，或者需要通过多个菜单进行导航)。一些现有技术还存在这样的缺点：接收到的消息中包括的表情与接收设备处的用户几乎没有交互性或没有交互性。

2、本发明描述了支持设备生成可添加到消息(例如，基于文本的通信)并在用户设备之间传输的多模态合成的示例。多模态合成是使用属于两个或更多个输出模态的两个或更多个元素生成的，其中，元素可以自定义。此外，用于生成这种多模态合成的元素可以由设备根据用户的输入(包括基于文本的和非基于文本的输入)推荐或排序，这可以提供更直观的用户体验，并减少选择和输入所需的多模态合成所需的用户交互量。

3、在各种示例中，本发明描述了支持设备输出(例如，在设备上显示和/或向另一个设备发送)具有多模态合成的消息的方法和设备。消息在由接收设备接收之后，可以根据多模态合成的元素在接收设备中生成多模态输出。与多模态合成关联的多模态输出可以由可变的输出参数(例如，对于特定的多模态合成，不是预定义的和固定的)定义。在一些示例中，可以从用户输入中检测用户参数(例如，表示用户的情感状态或表示用户的意图的参数)，用户参数可以被映射到用于多模态合成的特定元素。在一些示例中，用户参数可以附加地或替代地映射到输出参数，以控制用于多模态合成的特定元素的强度(例如，音量、振动频率、颜色强度等)。在一些示例中，如果输出参数没有输入，则可以针对该输出参数使用默认值。

4、在各种示例中，本发明还描述了支持设备根据消息的上下文自动生成元素的推荐的方法和设备，该元素的推荐用于生成将包括在消息中的多模态合成。可以根据消息的上下文对可以用于生成多模态合成的不同元素进行排序，并且排序的元素可以作为排序推荐提供。排序推荐可以支持用户更容易地识别和选择用于生成多模态合成的合适元素。

5、在一些示例中，本发明提供了支持设备生成和输出消息的技术优势，其中，消息中的多模态合成自定义为设备检测到的输入。可以根据设备在生成消息时检测到的输入实时自定义被组合来生成多模态合成的元素。这支持设备动态地改变地与多模态合成关联的多模态输出。

6、在一些示例中，本发明还提供了以下技术优点：支持设备根据消息上下文推荐用于生成将包括在消息中的多模态合成的一个或多个可能的元素。这支持设备绕过需要更多用户输入的步骤，减少了设备需要处理的输入和输出的量，从而减少了设备对资源(例如，电池电量、处理能力、内存等)的消耗。

7、在一些示例中，本发明还提供了以下技术优点：接收包括多模态合成的消息的设备能够与多模态合成交互，使得接收消息的用户将体验基于接收者而不是发送者的用户参数(例如，表示情感状态的参数)的自定义多模态合成。

8、在一些示例性方面中，本发明描述了一种用于在设备中进行的方法。该方法包括：通过用于生成消息的用户界面获得第一输入，第一输入指示属于第一输出模态的将包括在消息中的第一元素；通过用户界面获得第二输入，第二输入指示属于第二输出模态的将与第一元素关联的至少一个第二元素，组合第一元素和至少一个第二元素，以生成多模态合成；输出包括多模态元素的消息。

9、在该方法的上述示例性方面的示例中，该方法可以包括：通过用户界面显示属于第二输出模态的将包括在消息中的一个或多个推荐的第二元素，属于第二输出模态的一个或多个推荐的第二元素是使用根据与第一元素的相关性计算的推荐得分进行排序的。

10、在该方法的上述示例性方面的示例中，推荐得分可以根据以下中的至少一个计算：与第一元素的情感相关性，其中，情感相关性是根据定义的情感空间中第一元素与属于第二输出模态的一个或多个推荐的第二元素中的每个元素之间的距离计算的；或与第一元素的统计相关性，其中，统计相关性是根据一个或多个推荐的第二元素中的每个元素与第一元素在历史消息中的出现计算的。

11、在该方法的任一上述示例性方面的示例中，该方法可以包括：根据第一输入、第二输入或第三输入检测用户参数；其中，推荐得分还根据与用户参数的相关性计算，用户参数基于一个或多个推荐的第二元素中的每个元素与定义的用户参数空间中的用户参数之间的距离。

12、在该方法的上述示例性方面的示例中，表示用户参数的第一输入、第二输入或第三输入可以通过以下中的至少一个获得：手势输入；面部表情输入；文本输入；音频输入；或力输入。

13、在该方法的任一上述示例性方面的示例中，该方法可以包括：通过用户界面显示将包括在消息中的一个或多个推荐的第一元素，一个或多个推荐的第一元素是使用根据与消息的上下文的相关性计算的推荐得分进行排序的。

14、在该方法的上述示例性方面的示例中，该消息的上下文可以是该消息的用户参数，该方法还可以包括：检测消息的用户参数；其中，推荐得分是根据与消息的用户参数的相关性计算的，用户参数基于一个或多个推荐的第一元素中的每个元素与定义的用户参数空间中的用户参数之间的距离。

15、在该方法的任一上述示例性方面的示例中，该消息的上下文可以包括消息传送会话中的先验元素，并且推荐得分可以根据以下中的至少一个计算：与先验元素的情感相关性，其中，情感相关性是根据定义的情感空间中先验元素与一个或多个推荐的第一元素中的每个元素的距离计算的；或与先验元素的统计相关性，其中，统计相关性是根据一个或多个推荐的第一元素中的每个元素与先验元素在历史消息中的出现计算的。

16、在该方法的任一上述示例性方面的示例中，属于第一输出模态的第一元素和属于第二输出模态的至少一个第二元素可以为以下元素中的至少两个不同的元素：静态图形元素；动画元素；音频元素；或触觉元素。

17、在该方法的任一上述示例性方面的示例中，设备可以是以下中的一个：移动通信设备；膝上型设备；平板设备；可穿戴设备；物联网(internet of things，iot)设备；或车载设备。

18、在该方法的任一上述示例性方面的示例中，输出消息可以包括：向接收设备发送包括多模态元素的消息的通信。

19、在该方法的任一上述示例性方面的示例中，发送包括多模态合成的消息的通信可以包括发送与多模态合成关联的一组一个或多个用户参数，其中，一个或多个用户参数可以定义多模态合成使接收设备以第一输出模态和第二输出模态中的至少一个生成输出的方式。

20、在该方法的任一上述示例性方面的示例中，该方法可以包括：通过至少一个输入手势获得第一输入和第二输入。

21、在一些示例性方面中，本发明描述了一种设备。该设备包括：存储指令的存储器；处理单元，耦合到存储器；其中，处理单元用于执行指令，以使设备执行该方法的任一上述示例性方面。

22、在一些示例性方面中，本发明描述了一种在其中存储有指令的计算机可读介质。指令在由电子设备的处理单元执行时，使设备：执行该方法的任一上述示例性方面。

23、在一些示例性方面中，本发明描述了一种计算机程序。该程序由被计算机执行时，使设备：执行该方法的任一上述示例性方面。

技术特征：

1.一种在设备中进行的方法，其特征在于，包括：

2.根据权利要求1所述的方法，其特征在于，还包括：

3.根据权利要求2所述的方法，其特征在于，所述推荐得分是根据以下中的至少一个计算的：

4.根据权利要求2或3所述的方法，其特征在于，还包括：

5.根据权利要求4所述的方法，其特征在于，表示所述用户参数的所述第一输入、所述第二输入或所述第三输入由以下中的至少一个获得：

6.根据权利要求1所述的方法，其特征在于，还包括：

7.根据权利要求6所述的方法，其特征在于，所述消息的所述上下文是所述消息的用户参数，所述方法还包括：

8.根据权利要求6或7所述的方法，其特征在于，所述消息的所述上下文包括消息传送会话中的先验元素，所述推荐得分是根据以下中的至少一个计算的：

9.根据权利要求1至8中任一项所述的方法，其特征在于，属于所述第一输出模态的所述第一元素和属于所述第二输出模态的所述至少一个第二元素为以下元素中的至少两个不同的元素：

10.根据权利要求1至9中任一项所述的方法，其特征在于，所述设备为以下中的一个：

11.根据权利要求1至10中任一项所述的方法，其特征在于，输出所述消息包括：

12.根据权利要求11所述的方法，其特征在于，发送包括所述多模态合成的所述消息的所述通信包括发送与所述多模态合成关联的一组一个或多个用户参数，其中，所述一个或多个用户参数定义所述多模态合成使所述接收设备以所述第一输出模态和所述第二输出模态中的至少一个生成输出的方式。

13.根据权利要求1至12中任一项所述的方法，其特征在于，还包括：

14.一种用于在设备中进行的方法，其特征在于，所述方法包括：

15.一种电子设备，其特征在于，包括：

16.一种非瞬时性计算机可读介质，其特征在于，其中编码有指令，所述指令在由电子设备的处理单元执行时，使所述设备执行根据权利要求1至13中任一项所述的方法。

17.一种包括指令的计算机程序，其特征在于，所述程序在由计算机执行时，使所述计算机执行根据权利要求1至13中任一项所述的方法。

技术总结
描述了使设备能够生成包括多模态合成的消息并在设备上输出所述消息的方法和设备。所述多模态合成是通过首先选择属于第一输出模态的第一元素来生成的。所述多模态合成还通过选择属于第二输出模态的将与所述第一元素关联的至少一个第二元素来生成，所述第一元素和所述第二元素的组合是所述多模态合成。

技术研发人员：赵健,安鹏铖,周子琦,刘庆,黄大源,杜凌皓,李维
受保护的技术使用者：华为技术加拿大有限公司
技术研发日：
技术公布日：2024/6/26

转载请注明原文地址:https://doc.8miu.com/read-1828764.html

专利

最新回复(0)