(19)国家知识产权局 (12)发明 专利申请 (10)申请公布号 (43)申请公布日 (21)申请 号 202211330512.5 (22)申请日 2022.10.28 (71)申请人 北京砍石高科技有限公司 地址 100080 北京市海淀区丹棱 街16号海 兴大厦9层903单元、 904单元、 905单 元、 906单元 (72)发明人 岳海纯 高兴龙  (74)专利代理 机构 北京市柳沈 律师事务所 11105 专利代理师 彭久云 (51)Int.Cl. G06F 40/117(2020.01) G06F 40/166(2020.01) G06F 40/284(2020.01) G10L 13/02(2013.01)G10L 25/18(2013.01) G10L 25/48(2013.01) G06N 3/04(2006.01) G06N 3/08(2006.01) (54)发明名称 多语种混合语料的生成方法及 装置、 训练方 法及装置 (57)摘要 一种多语种混合语料的生 成方法及装置、 训 练方法及装置。 该多语种混合语料的生成方法包 括: 获取多个第一文本语料和多个第二文本语 料; 对每个第一文本语料进行掩码处理, 得到每 个第一文本语料对应的至少一个掩码文本; 利用 语言模型对多个第一文本语料对应的多个掩码 文本进行处理, 得到每个掩码文本中至少一个掩 码标记分别对应的至少一个结果标签; 从答案空 间中确定每个结果标签对应的填充文本, 将填充 文本填充至结果标签对应的掩码标记的位置, 以 得到每个掩码文本对应的文本语料。 该生成方法 通过自动化合成的方式扩增混合语料, 为声学模 型训练提供更加充分的训练语料, 使得训练语料 的数量达 到训练所需的数量标准。 权利要求书4页 说明书21页 附图6页 CN 115392189 A 2022.11.25 CN 115392189 A 1.一种多语种混合语料的生成方法, 包括: 获取多个第一文本语料和多个第二文本语料, 其中, 所述多个第一文本语料由第一语 种编写, 所述多个第二文本语料由第二语种编写; 对每个第一文本语料进行掩码处理, 得到每个第一文本语料对应的至少一个掩码文 本, 其中, 每 个掩码文本包括至少一个掩码标记; 利用语言模型对所述多个第 一文本语料对应的多个掩码文本进行处理, 得到每个掩码 文本包括的至少一个掩码标记分别对应的至少一个结果标签; 从答案空间中确定每个结果标签对应的填充文本, 将所述填充文本填充至所述结果标 签对应的掩码标记的位置, 以得到每个掩码文本对应的文本语料, 其中, 所述答案空间基于 所述多个第二文本语料构建, 所述 填充文本的语种为所述第二语种。 2.根据权利要求1所述的生成方法, 其中, 对每个第一文本语料进行掩码处理, 得到每 个第一文本语料对应的至少一个掩码文本, 包括: 针对每个第一文本语料, 对所述第一文本语料进行第一预处理, 得到所述第一文本语 料对应的至少一个韵律 边界; 确定所述至少一个韵律边界中的目标韵律边界, 其中, 所述目标韵律边界为指示韵律 短语或语调短语的韵律 边界; 将位于所述目标韵律边界处的目标字符区域替换为掩码标记, 其中, 所述目标字符区 域基于将所述答案空间中的目标填充文本转换至所述第一语种后的文本确定, 所述目标字 符区域包括所述第一文本语料中按文本顺序位于所述目标韵律边界之前或之后且与所述 目标韵律 边界相邻的区域。 3.根据权利要求2所述的生成方法, 其中, 对所述第一文本语料进行第一预处理, 得到 所述第一文本语料对应的至少一个韵律 边界, 包括: 对所述第一文本语料进行文本预处理, 其中, 所述文本预处理至少包括分词和词性预 测; 根据所述分词和所述词性预测的结果, 预测所述第 一文本语料对应的至少一个韵律边 界。 4.根据权利要求1所述的生成方法, 其中, 利用语言模型对所述多个第 一文本语料对应 的多个掩码文本进行 处理, 得到每个掩码文本包括的至少一个掩码标记分别对应的至少一 个结果标签, 包括: 针对每个掩码文本, 利用所述语言模型对所述掩码文本进行处理, 得到所述掩码文本 中每个掩码标记对应的多个概率值, 所述多个概率值与所述答案空间包括的多个答案标签 一一对应; 从所述多个概率值中选择最大概率值, 将所述最大概率值对应的答案标签作为所述掩 码标记对应的结果标签。 5.根据权利要求4所述的生成方法, 其中, 所述多个答案标签与多个填充文本具有一对 一的映射关系, 从答案空间中确定每个结果标签对应的填充文本, 将所述填充文本填充至所述结果标 签对应的掩码标记的位置, 以得到每 个掩码文本对应的文本语料, 包括: 针对每个掩码文本, 确定所述掩码文本 中的每个掩码标记对应的结果标签在所述答案权 利 要 求 书 1/4 页 2 CN 115392189 A 2空间中所对应的填充 文本; 将所述掩码文本 中的所有掩码标记替换为对应的填充文本, 以得到所述掩码文本对应 的文本语料。 6.根据权利要求1所述的生成方法, 其中, 所述答案空间包括多个答案标签, 所述多个 答案标签与多个填充文本一一对应, 所述多个填充文本为语种为所述第二语种的单词或短 语形式, 所述生成方法还 包括: 基于所述多个第二文本语料构建所述 答案空间; 其中, 基于所述多个第二文本语料构建所述 答案空间, 包括: 对每个第二文本语料进行第二预处理, 以得到每个第二文本语料对应的多个填充文 本, 其中, 所述第二预处 理包括分词处 理和断句处 理; 依据所述多个第二文本语料分别对应的多个填充 文本, 构建所述 答案空间。 7.根据权利要求1所述的生成方法, 其中, 所述语言模型通过对预训练过的语言模型进 行基于提 示学习的微调训练得到 。 8.根据权利要求7 所述的生成方法, 其中, 所述基于提 示学习的微调训练包括: 构建至少一个训练模板及所述至少一个训练模板对应的标签, 其中, 每个训练模板包 括掩码标记和语种为所述第一语种的文本内容, 每个训练模板对应的标签用于指示在所述 训练模板包括的掩码标记处填充的、 且属于所述 答案空间的填充 文本; 根据所述至少一个训练模板和所述至少一个训练模板对应的标签, 对所述预训练过的 语言模型进行微调训练, 得到所述语言模型。 9.根据权利要求1 ‑8任一项所述的生成方法, 还 包括: 获取所述多个第一文本语料分别对应的多个第一语音和所述多个第二文本语料分别 对应的多个第二语音; 根据所述多个第 一语音、 所述多个第 二语音以及所述多个掩码文本分别对应的多个文 本语料, 得到所述多个文本语料分别对应的混合语音。 10.根据权利要求9所述的生成方法, 其中, 所述多个第一语音和所述多个第二语音具 有相同的声 音特性。 11.根据权利要求9所述的生成方法, 其中, 根据所述多个第 一语音、 所述多个第 二语音 以及所述多个掩码文本 分别对应的多个文本语料, 得到所述多个文本语料分别对应的混合 语音, 包括: 针对每个文本语料, 确定所述文本语料对应的目标第 一文本语料, 其中, 所述文本语料 由对所述目标第一文本语料进行处 理得到; 获取所述目标第一文本语料对应的第一语音; 根据所述多个第二语音, 获取 所述文本语料中的填充 文本对应的语音数据; 根据所述目标第一文本语料对应的第一语音、 所述语音数据和所述文本语料, 得到所 述文本语料对应的混合语音。 12.根据权利要求11所述的生成方法, 其中, 根据 所述目标第 一文本语料对应的第 一语 音、 所述语音数据和所述文本语料, 得到所述文本语料对应的混合语音, 包括: 确定所述文本语料中除所述 填充文本以外的其 他文本;权 利 要 求 书 2/4 页 3 CN 115392189 A 3

PDF文档 专利 多语种混合语料的生成方法及装置、训练方法及装置

文档预览
中文文档 32 页 50 下载 1000 浏览 0 评论 0 收藏 3.0分
温馨提示:本文档共32页,可预览 3 页,如浏览全部内容或当前文档出现乱码,可开通会员下载原始文档
专利 多语种混合语料的生成方法及装置、训练方法及装置 第 1 页 专利 多语种混合语料的生成方法及装置、训练方法及装置 第 2 页 专利 多语种混合语料的生成方法及装置、训练方法及装置 第 3 页
下载文档到电脑,方便使用
本文档由 SC 于 2024-02-18 22:24:07上传分享
站内资源均来自网友分享或网络收集整理,若无意中侵犯到您的权利,敬请联系我们微信(点击查看客服),我们将及时删除相关资源。