专利多语种混合语料的生成方法及装置、训练方法及装置 -在线下载 -pdf文件-bbs.720life.cn

(19)国家知识产权局 (12)发明专利申请 (10)申请公布号 (43)申请公布日 (21)申请号 202211330512.5 (22)申请日 2022.10.28 (71)申请人北京砍石高科技有限公司地址 100080 北京市海淀区丹棱街16号海兴大厦9层903单元、 904单元、 905单元、 906单元 (72)发明人岳海纯　高兴龙　 (74)专利代理机构北京市柳沈律师事务所 11105 专利代理师彭久云 (51)Int.Cl. G06F 40/117(2020.01) G06F 40/166(2020.01) G06F 40/284(2020.01) G10L 13/02(2013.01)G10L 25/18(2013.01) G10L 25/48(2013.01) G06N 3/04(2006.01) G06N 3/08(2006.01) (54)发明名称多语种混合语料的生成方法及装置、训练方法及装置 (57)摘要一种多语种混合语料的生成方法及装置、训练方法及装置。该多语种混合语料的生成方法包括：获取多个第一文本语料和多个第二文本语料；对每个第一文本语料进行掩码处理，得到每个第一文本语料对应的至少一个掩码文本；利用语言模型对多个第一文本语料对应的多个掩码文本进行处理，得到每个掩码文本中至少一个掩码标记分别对应的至少一个结果标签；从答案空间中确定每个结果标签对应的填充文本，将填充文本填充至结果标签对应的掩码标记的位置，以得到每个掩码文本对应的文本语料。该生成方法通过自动化合成的方式扩增混合语料，为声学模型训练提供更加充分的训练语料，使得训练语料的数量达到训练所需的数量标准。权利要求书4页说明书21页附图6页 CN 115392189 A 2022.11.25 CN 115392189 A 1.一种多语种混合语料的生成方法，包括：获取多个第一文本语料和多个第二文本语料，其中，所述多个第一文本语料由第一语种编写，所述多个第二文本语料由第二语种编写；对每个第一文本语料进行掩码处理，得到每个第一文本语料对应的至少一个掩码文本，其中，每个掩码文本包括至少一个掩码标记；利用语言模型对所述多个第一文本语料对应的多个掩码文本进行处理，得到每个掩码文本包括的至少一个掩码标记分别对应的至少一个结果标签；从答案空间中确定每个结果标签对应的填充文本，将所述填充文本填充至所述结果标签对应的掩码标记的位置，以得到每个掩码文本对应的文本语料，其中，所述答案空间基于所述多个第二文本语料构建，所述填充文本的语种为所述第二语种。 2.根据权利要求1所述的生成方法，其中，对每个第一文本语料进行掩码处理，得到每个第一文本语料对应的至少一个掩码文本，包括：针对每个第一文本语料，对所述第一文本语料进行第一预处理，得到所述第一文本语料对应的至少一个韵律边界；确定所述至少一个韵律边界中的目标韵律边界，其中，所述目标韵律边界为指示韵律短语或语调短语的韵律边界；将位于所述目标韵律边界处的目标字符区域替换为掩码标记，其中，所述目标字符区域基于将所述答案空间中的目标填充文本转换至所述第一语种后的文本确定，所述目标字符区域包括所述第一文本语料中按文本顺序位于所述目标韵律边界之前或之后且与所述目标韵律边界相邻的区域。 3.根据权利要求2所述的生成方法，其中，对所述第一文本语料进行第一预处理，得到所述第一文本语料对应的至少一个韵律边界，包括：对所述第一文本语料进行文本预处理，其中，所述文本预处理至少包括分词和词性预测；根据所述分词和所述词性预测的结果，预测所述第一文本语料对应的至少一个韵律边界。 4.根据权利要求1所述的生成方法，其中，利用语言模型对所述多个第一文本语料对应的多个掩码文本进行处理，得到每个掩码文本包括的至少一个掩码标记分别对应的至少一个结果标签，包括：针对每个掩码文本，利用所述语言模型对所述掩码文本进行处理，得到所述掩码文本中每个掩码标记对应的多个概率值，所述多个概率值与所述答案空间包括的多个答案标签一一对应；从所述多个概率值中选择最大概率值，将所述最大概率值对应的答案标签作为所述掩码标记对应的结果标签。 5.根据权利要求4所述的生成方法，其中，所述多个答案标签与多个填充文本具有一对一的映射关系，从答案空间中确定每个结果标签对应的填充文本，将所述填充文本填充至所述结果标签对应的掩码标记的位置，以得到每个掩码文本对应的文本语料，包括：针对每个掩码文本，确定所述掩码文本中的每个掩码标记对应的结果标签在所述答案权　利　要　求　书 1/4 页 2 CN 115392189 A 2空间中所对应的填充文本；将所述掩码文本中的所有掩码标记替换为对应的填充文本，以得到所述掩码文本对应的文本语料。 6.根据权利要求1所述的生成方法，其中，所述答案空间包括多个答案标签，所述多个答案标签与多个填充文本一一对应，所述多个填充文本为语种为所述第二语种的单词或短语形式，所述生成方法还包括：基于所述多个第二文本语料构建所述答案空间；其中，基于所述多个第二文本语料构建所述答案空间，包括：对每个第二文本语料进行第二预处理，以得到每个第二文本语料对应的多个填充文本，其中，所述第二预处理包括分词处理和断句处理；依据所述多个第二文本语料分别对应的多个填充文本，构建所述答案空间。 7.根据权利要求1所述的生成方法，其中，所述语言模型通过对预训练过的语言模型进行基于提示学习的微调训练得到。 8.根据权利要求7 所述的生成方法，其中，所述基于提示学习的微调训练包括：构建至少一个训练模板及所述至少一个训练模板对应的标签，其中，每个训练模板包括掩码标记和语种为所述第一语种的文本内容，每个训练模板对应的标签用于指示在所述训练模板包括的掩码标记处填充的、且属于所述答案空间的填充文本；根据所述至少一个训练模板和所述至少一个训练模板对应的标签，对所述预训练过的语言模型进行微调训练，得到所述语言模型。 9.根据权利要求1 ‑8任一项所述的生成方法，还包括：获取所述多个第一文本语料分别对应的多个第一语音和所述多个第二文本语料分别对应的多个第二语音；根据所述多个第一语音、所述多个第二语音以及所述多个掩码文本分别对应的多个文本语料，得到所述多个文本语料分别对应的混合语音。 10.根据权利要求9所述的生成方法，其中，所述多个第一语音和所述多个第二语音具有相同的声音特性。 11.根据权利要求9所述的生成方法，其中，根据所述多个第一语音、所述多个第二语音以及所述多个掩码文本分别对应的多个文本语料，得到所述多个文本语料分别对应的混合语音，包括：针对每个文本语料，确定所述文本语料对应的目标第一文本语料，其中，所述文本语料由对所述目标第一文本语料进行处理得到；获取所述目标第一文本语料对应的第一语音；根据所述多个第二语音，获取所述文本语料中的填充文本对应的语音数据；根据所述目标第一文本语料对应的第一语音、所述语音数据和所述文本语料，得到所述文本语料对应的混合语音。 12.根据权利要求11所述的生成方法，其中，根据所述目标第一文本语料对应的第一语音、所述语音数据和所述文本语料，得到所述文本语料对应的混合语音，包括：确定所述文本语料中除所述填充文本以外的其他文本；权　利　要　求　书 2/4 页 3 CN 115392189 A 3

专利 多语种混合语料的生成方法及装置、训练方法及装置

专利多语种混合语料的生成方法及装置、训练方法及装置