本发明属于人工智能领域,特别涉及基于生成式文本大模型的写作方法、系统、设备和介质。
背景技术:
1、在自然语言处理领域,生成式文本大模型(如gpt-3等)已经取得了显著进展,此类大模型通过大规模预训练、指令精调,能够生成自然流畅的文本,具有在多个领域进行任务执行的潜力。然而,现有主流技术中存在的一个重要问题是,因为此类基于大模型的写作通常需要大量的数据和计算资源进行训练,且在特定专业领域或任务上的应用受到较大限制。另外,对于特定领域的微调需求,现有技术缺乏有效的prompt指令模版或方法,导致微调过程效率低下且不稳定。
2、公开号为“cn116775811a”的中国专利公开了一种基于电网信息的数据检索与智能辅助写作系统及方法,系统包括数据采集模块:利用采集器抓取和在线数据填报方式获取数据;数据存储模块:用于数据存储和文件存储;数据检索模块:用于进行结构化数据检索与非结构化数据检索,对海量数据进行实时查询与分类,选择有效数据;智库分析模块:对结构化数据检索和非结构化数据检索后的文档,进行文章词性分析、智能辅助写作、智能写作。该发明专利主要利用采集器抓取和在线数据填报方式获取数据、存储、分析数据,同时对结构化数据检索和非结构化数据检索后的文档,进行文章词性分析、智能辅助写作、智能写作,虽然能够较好地实现对非结构化数据的内容检测、词性分析,但在专业文档写作中存在语义重复词汇、词汇组合不能较好的实现语言的表达专业性和流畅性,生成的内容较为生硬,不具备专业文档的行文风格模仿能力。
3、公开号为“cn115630640b”的中国专利公开了一种智能写作方法、装置、设备及介质,包括:生成文章大纲;将文章大纲中的任意主题句与从内容知识库中取出的与该主题句相关的段落组成目标文本;将目标文本输入预训练模型,得到字典中每个词为生成词的概率;基于惩罚因子对字典中目标词对应的概率进行惩罚,基于概率从字典中取出生成词;基于生成词更新目标文本;根据新的目标文本计算多样性评价指标,并基于该多样性评价指标更新惩罚因子,并将新的目标文本输入预训练模型,不断迭代,直到取出的生成词为截止符,则将当前的目标文本确定为候选段落;基于任意主题句的候选段落确定最优段落。该发明专利主要利用知识库和文本预训练模型提取出与所写主题相关的内容片段、关键词,通过惩罚因子、文本计算多样性评价指标反复迭代出符合其指标标准的文本段落,即为文本生成内容,可较好地通过反复迭代出与所写主题相关的知识库文本内容,但缺点是无法适应新的专业领域风格的文本写作,内容多位原有知识库或预训练模型已固化的内容,扩展性和适应性较差。
4、公开号为“cn114492327a”的中国专利公开了一种公文智能写作方法,首先在指定网站自动获取海量公文数据,并利用nlp技术进行公文文本数据的自动筛选、清洗;再对gpt模型进行两阶段训练,使其对公文文本的深层语义信息进行捕捉,学习到公文的语句的表征特点,获得自动公文写作的能力;最后在智能写作过程中,利用训练好的bert模型,计算推荐文本集合中文本片段与用户自定义标题之间的关联分数,选取与用户标题语义最为匹配的推荐片段。该发明专利虽然能够学习公文部分文本风格,具有一定智能创作能力,但是因bert模型本身参数量为百万级别,无法完整的学习到公文类别的写作风格、语义理解,通过词向量计算的相似性存在一定文本内容偏差。
技术实现思路
1、本发明提供基于生成式文本大模型的写作方法、系统、设备和介质,旨在解决目前基于生成式文本大模型的写作在特定专业领域或任务上的应用受到较大限制、且对于特定领域的微调需求,现有技术缺乏有效的prompt指令模版或方法导致微调过程效率低下且不稳定的问题。
2、为解决上述技术问题,本发明提供一种基于生成式文本大模型的写作方法,包括以下步骤:
3、s1:为特定行业收集领域相关数据,包括文本数据、标签数据以及相关元数据,对收集的数据进行预处理。
4、s2:选择生成式文本大模型,利用行业专用文本语料的通用语料库,根据数据量和计算资源的情况使用文本大模型微调工具进行模型微调训练,在微调训练过程中,采用deepspeed训练工具加快模型收敛速度,进行多轮微调迭代,生成行业专用的生成式文本大模型。
5、s3:使用困惑度与相似度两个指标和评估方法对训练后的生成式文本大模型进行评估,根据评估结果,进行参数调整和优化。
6、s4:根据特定行业场景文件样式确定用户模板的内容和结构,包括文档的标题、段落结构、特定信息的插入位置以及语法约束,使用相应的prompt指令生成用户模板提示。
7、s5:基于用户输入的已有数据、用户模板提示,通过生成式文本大模型的推理得到对应的编撰文本内容。
8、优选的,所述步骤s3中使用的困惑度指标的计算公式具体为:
9、pp(w)=p(w1,w2,…,wn)-1/n
10、式中,w=(w1,w2,…,wn)为给定文本内容,pp(w)为w的困惑度指标,n为w的序列长度,p(w1,w2,…,wn)为生成式文本大模型根据训练数据得出的联合概率。
11、优选的,所述步骤s3中使用的相似度指标的计算公式具体为:
12、
13、式中,rouge-n为相似度指标,number of overlapping n-grams为生成文本内容与参考文本内容之间重叠的总文本内容相同字符序列数量,number of n-grams inreference summary为参考文本中的总文本内容相同字符序列数量。
14、优选的,所述写作方法还包括提供特定行业的专业信息数据检索,具体为:对已有的特定行业领域相关数据进行检索解析,根据用户模版提示,在用户需要引入私有、历史的专业数据时,通过已训练的生成式文本大模型给出对应参考的专业信息数据。
15、另一方面,本发明提供一种基于生成式文本大模型的写作系统,包括预处理模块、训练模块与写作模块。
16、预处理模块用于为特定行业收集领域相关数据,包括文本数据、标签数据以及其他相关元数据,对收集的数据进行预处理。
17、训练模块用于选择生成式文本大模型,利用行业专用文本语料的通用语料库,根据数据量和计算资源的情况使用文本大模型微调工具进行模型微调训练,在微调训练过程中,采用deepspeed训练工具加快模型收敛速度,进行多轮微调迭代,生成行业专用的生成式文本大模型。
18、使用困惑度与相似度两个指标和评估方法对训练后的生成式文本大模型进行评估,根据评估结果,进行参数调整和优化。
19、写作模块用于根据特定行业场景文件样式确定用户模板的内容和结构,包括文档的标题、段落结构、特定信息的插入位置以及语法约束,使用相应的prompt指令生成用户模板提示。
20、基于用户输入的已有数据、用户模板提示,通过生成式文本大模型的推理得到对应的编撰文本内容。
21、优选的,所述训练模块中使用的困惑度指标的计算公式具体为:
22、pp(w)=p(w1,w2,…,wn)-1/n
23、式中,w=(w1,w2,…,wn)为给定文本内容,pp(w)为w的困惑度指标,n为w的序列长度,p(w1,w2,…,wn)为生成式文本大模型根据训练数据得出的联合概率。
24、所述训练模块中使用的相似度指标的计算公式具体为:
25、
26、式中,rouge-n为相似度指标,number of overlapping n-grams为生成文本内容与参考文本内容之间重叠的总文本内容相同字符序列数量,number of n-grams inreference summary为参考文本中的总文本内容相同字符序列数量。
27、优选的,所述写作系统的写作模块还包括提供特定行业的专业信息数据检索,具体为:对已有的特定行业领域相关数据进行检索解析,根据用户模版提示,在用户需要引入私有、历史的专业数据时,通过已训练的生成式文本大模型给出对应参考的专业信息数据。
28、再一方面,本发明还提供一种电子设备,所述电子设备包括:存储器、处理器以及存储在所述存储器上并可在所述处理器上运行的计算机程序,所述处理器执行所述计算机程序时实现如本发明任一实施例所述的基于生成式文本大模型的写作方法。
29、再一方面,本发明还提供一种计算机可读存储介质,其上存储有计算机程序,所述计算机程序被处理器执行时实现如本发明任一实施例所述的基于生成式文本大模型的写作方法。
30、与现有技术相比,本发明具有以下技术效果:
31、1.本发明提出一种基于生成式文本大模型的智能写作方法,综合运用垂直领域生成式文本大模型、大模型微调工具、专业prompt指令模版、行业领域相关数据资源,基于垂直领域生成式文本大模型,将行业领域相关数据按照文本大模型微调所需数据结构进行训练,同时依托专业文档生成的prompt指令,构建适应专业领域写作的智能文档写作,大大提高专业文档写作效率,对于复杂专业需求的场景应用的具有灵活的开发方案。
32、2.本发明提出的智能写作系统通过新建文档写作模式,写作系统提供可视化界面和简易命令,用户可快速创建文档并自定义格式,节省排版时间;可选择模板和样式,满足个性化写作需求,提升用户体验和工作效率。利用上传文档写作模式中的文本大模型,写作系统可深度分析文档内容,提供语法错误检测与优化建议,从而提高文档的专业性和准确性;基于文本分析,写作系统提供个性化的语法优化和修改建议,提高用户写作水平和文档质量。快速写作模式基于语义理解与大量训练数据,快速生成大纲和段落,提供灵感来源,有效提升文章创作效率与质量。写作系统在模板写作模式结合相应行业领域相关数据和生成式文本大模型,为用户提供符合规范性要求的文本内容,提升文本质量与规范性,促进创作水平的提高。
1.基于生成式文本大模型的写作方法,其特征在于,包括以下步骤:
2.根据权利要求1所述的基于生成式文本大模型的写作方法,其特征在于,所述步骤s3中使用的困惑度指标的计算公式具体为:
3.根据权利要求1所述的基于生成式文本大模型的写作方法,其特征在于,所述写作方法还包括提供特定行业的专业信息数据检索,具体为:对已有的特定行业领域相关数据进行检索解析,根据用户模版提示,在用户需要引入私有、历史的专业数据时,通过已训练的生成式文本大模型给出对应参考的专业信息数据。
4.基于生成式文本大模型的写作系统,其特征在于,包括预处理模块、训练模块与写作模块;
5.根据权利要求4所述的基于生成式文本大模型的写作系统,其特征在于,所述训练模块中使用的困惑度指标的计算公式具体为:
6.根据权利要求4所述的基于生成式文本大模型的写作系统,其特征在于,所述写作系统的写作模块还包括提供特定行业的专业信息数据检索,具体为:对已有的特定行业领域相关数据进行检索解析,根据用户模版提示,在用户需要引入私有、历史的专业数据时,通过已训练的生成式文本大模型给出对应参考的专业信息数据。
7.一种电子设备,所述电子设备包括:存储器、处理器以及存储在所述存储器上并可在所述处理器上运行的计算机程序,其特征在于,所述处理器执行所述计算机程序时实现如权利要求1至3中任一项所述的基于生成式文本大模型的写作方法。
8.一种计算机可读存储介质,其上存储有计算机程序,其特征在于,所述计算机程序被处理器执行时实现如权利要求1至3中任一项所述的基于生成式文本大模型的写作方法。
