国家标准网
文库搜索
切换导航
首页
频道
仅15元无限下载
联系我们
首页
仅15元无限下载
联系我们
批量下载
(19)国家知识产权局 (12)发明 专利申请 (10)申请公布号 (43)申请公布日 (21)申请 号 202211330512.5 (22)申请日 2022.10.28 (71)申请人 北京砍石高科技有限公司 地址 100080 北京市海淀区丹棱 街16号海 兴大厦9层903单元、 904单元、 905单 元、 906单元 (72)发明人 岳海纯 高兴龙 (74)专利代理 机构 北京市柳沈 律师事务所 11105 专利代理师 彭久云 (51)Int.Cl. G06F 40/117(2020.01) G06F 40/166(2020.01) G06F 40/284(2020.01) G10L 13/02(2013.01)G10L 25/18(2013.01) G10L 25/48(2013.01) G06N 3/04(2006.01) G06N 3/08(2006.01) (54)发明名称 多语种混合语料的生成方法及 装置、 训练方 法及装置 (57)摘要 一种多语种混合语料的生 成方法及装置、 训 练方法及装置。 该多语种混合语料的生成方法包 括: 获取多个第一文本语料和多个第二文本语 料; 对每个第一文本语料进行掩码处理, 得到每 个第一文本语料对应的至少一个掩码文本; 利用 语言模型对多个第一文本语料对应的多个掩码 文本进行处理, 得到每个掩码文本中至少一个掩 码标记分别对应的至少一个结果标签; 从答案空 间中确定每个结果标签对应的填充文本, 将填充 文本填充至结果标签对应的掩码标记的位置, 以 得到每个掩码文本对应的文本语料。 该生成方法 通过自动化合成的方式扩增混合语料, 为声学模 型训练提供更加充分的训练语料, 使得训练语料 的数量达 到训练所需的数量标准。 权利要求书4页 说明书21页 附图6页 CN 115392189 A 2022.11.25 CN 115392189 A 1.一种多语种混合语料的生成方法, 包括: 获取多个第一文本语料和多个第二文本语料, 其中, 所述多个第一文本语料由第一语 种编写, 所述多个第二文本语料由第二语种编写; 对每个第一文本语料进行掩码处理, 得到每个第一文本语料对应的至少一个掩码文 本, 其中, 每 个掩码文本包括至少一个掩码标记; 利用语言模型对所述多个第 一文本语料对应的多个掩码文本进行处理, 得到每个掩码 文本包括的至少一个掩码标记分别对应的至少一个结果标签; 从答案空间中确定每个结果标签对应的填充文本, 将所述填充文本填充至所述结果标 签对应的掩码标记的位置, 以得到每个掩码文本对应的文本语料, 其中, 所述答案空间基于 所述多个第二文本语料构建, 所述 填充文本的语种为所述第二语种。 2.根据权利要求1所述的生成方法, 其中, 对每个第一文本语料进行掩码处理, 得到每 个第一文本语料对应的至少一个掩码文本, 包括: 针对每个第一文本语料, 对所述第一文本语料进行第一预处理, 得到所述第一文本语 料对应的至少一个韵律 边界; 确定所述至少一个韵律边界中的目标韵律边界, 其中, 所述目标韵律边界为指示韵律 短语或语调短语的韵律 边界; 将位于所述目标韵律边界处的目标字符区域替换为掩码标记, 其中, 所述目标字符区 域基于将所述答案空间中的目标填充文本转换至所述第一语种后的文本确定, 所述目标字 符区域包括所述第一文本语料中按文本顺序位于所述目标韵律边界之前或之后且与所述 目标韵律 边界相邻的区域。 3.根据权利要求2所述的生成方法, 其中, 对所述第一文本语料进行第一预处理, 得到 所述第一文本语料对应的至少一个韵律 边界, 包括: 对所述第一文本语料进行文本预处理, 其中, 所述文本预处理至少包括分词和词性预 测; 根据所述分词和所述词性预测的结果, 预测所述第 一文本语料对应的至少一个韵律边 界。 4.根据权利要求1所述的生成方法, 其中, 利用语言模型对所述多个第 一文本语料对应 的多个掩码文本进行 处理, 得到每个掩码文本包括的至少一个掩码标记分别对应的至少一 个结果标签, 包括: 针对每个掩码文本, 利用所述语言模型对所述掩码文本进行处理, 得到所述掩码文本 中每个掩码标记对应的多个概率值, 所述多个概率值与所述答案空间包括的多个答案标签 一一对应; 从所述多个概率值中选择最大概率值, 将所述最大概率值对应的答案标签作为所述掩 码标记对应的结果标签。 5.根据权利要求4所述的生成方法, 其中, 所述多个答案标签与多个填充文本具有一对 一的映射关系, 从答案空间中确定每个结果标签对应的填充文本, 将所述填充文本填充至所述结果标 签对应的掩码标记的位置, 以得到每 个掩码文本对应的文本语料, 包括: 针对每个掩码文本, 确定所述掩码文本 中的每个掩码标记对应的结果标签在所述答案权 利 要 求 书 1/4 页 2 CN 115392189 A 2空间中所对应的填充 文本; 将所述掩码文本 中的所有掩码标记替换为对应的填充文本, 以得到所述掩码文本对应 的文本语料。 6.根据权利要求1所述的生成方法, 其中, 所述答案空间包括多个答案标签, 所述多个 答案标签与多个填充文本一一对应, 所述多个填充文本为语种为所述第二语种的单词或短 语形式, 所述生成方法还 包括: 基于所述多个第二文本语料构建所述 答案空间; 其中, 基于所述多个第二文本语料构建所述 答案空间, 包括: 对每个第二文本语料进行第二预处理, 以得到每个第二文本语料对应的多个填充文 本, 其中, 所述第二预处 理包括分词处 理和断句处 理; 依据所述多个第二文本语料分别对应的多个填充 文本, 构建所述 答案空间。 7.根据权利要求1所述的生成方法, 其中, 所述语言模型通过对预训练过的语言模型进 行基于提 示学习的微调训练得到 。 8.根据权利要求7 所述的生成方法, 其中, 所述基于提 示学习的微调训练包括: 构建至少一个训练模板及所述至少一个训练模板对应的标签, 其中, 每个训练模板包 括掩码标记和语种为所述第一语种的文本内容, 每个训练模板对应的标签用于指示在所述 训练模板包括的掩码标记处填充的、 且属于所述 答案空间的填充 文本; 根据所述至少一个训练模板和所述至少一个训练模板对应的标签, 对所述预训练过的 语言模型进行微调训练, 得到所述语言模型。 9.根据权利要求1 ‑8任一项所述的生成方法, 还 包括: 获取所述多个第一文本语料分别对应的多个第一语音和所述多个第二文本语料分别 对应的多个第二语音; 根据所述多个第 一语音、 所述多个第 二语音以及所述多个掩码文本分别对应的多个文 本语料, 得到所述多个文本语料分别对应的混合语音。 10.根据权利要求9所述的生成方法, 其中, 所述多个第一语音和所述多个第二语音具 有相同的声 音特性。 11.根据权利要求9所述的生成方法, 其中, 根据所述多个第 一语音、 所述多个第 二语音 以及所述多个掩码文本 分别对应的多个文本语料, 得到所述多个文本语料分别对应的混合 语音, 包括: 针对每个文本语料, 确定所述文本语料对应的目标第 一文本语料, 其中, 所述文本语料 由对所述目标第一文本语料进行处 理得到; 获取所述目标第一文本语料对应的第一语音; 根据所述多个第二语音, 获取 所述文本语料中的填充 文本对应的语音数据; 根据所述目标第一文本语料对应的第一语音、 所述语音数据和所述文本语料, 得到所 述文本语料对应的混合语音。 12.根据权利要求11所述的生成方法, 其中, 根据 所述目标第 一文本语料对应的第 一语 音、 所述语音数据和所述文本语料, 得到所述文本语料对应的混合语音, 包括: 确定所述文本语料中除所述 填充文本以外的其 他文本;权 利 要 求 书 2/4 页 3 CN 115392189 A 3
专利 多语种混合语料的生成方法及装置、训练方法及装置
文档预览
中文文档
32 页
50 下载
1000 浏览
0 评论
0 收藏
3.0分
赞助2.5元下载(无需注册)
温馨提示:本文档共32页,可预览 3 页,如浏览全部内容或当前文档出现乱码,可开通会员下载原始文档
下载文档到电脑,方便使用
赞助2.5元下载
本文档由 SC 于
2024-02-18 22:24:07
上传分享
举报
下载
原文档
(871.0 KB)
分享
友情链接
GB/T 40581-2021 电力系统安全稳定计算规范.pdf
DB5304-T 038 蓝莓种植技术规程 玉溪市.pdf
SY-T 7617-2021 海相页岩地质力学评价规范.pdf
Fortify_TaxonomyofSoftwareSecurityErrors Foritfy 7种软件安全错误分类法 英文版 .pdf
YD-T 3907.3-2021 基于BB84协议的量子密钥分发(QKD)用关键器件和模块 第3部分:量子随机数发生器(QRNG).pdf
GB-T 1457-2022 夹层结构滚筒剥离强度试验方法.pdf
GB-T 24925-2019 低温阀门 技术条件.pdf
GB-T 30280-2013 信息安全技术 鉴别与授权 地理空间可扩展访问控制置标语言.pdf
GB-T 42467.8-2023 中医临床名词术语 第8部分:眼科学.pdf
GB-T 28420-2012 电子收费 OBE-SAM数据格式和技术要求.pdf
SY-T 5974-2020 钻井井场设备作业安全技术规程.pdf
GB-T 16838-2021 消防电子产品环境试验方法及严酷等级.pdf
GB-T 34079.3-2017 基于云计算的电子政务公共平台服务规范 第3部分:数据管理.pdf
DB3305-T 247-2022 银行信贷碳排放核算通则 湖州市.pdf
NY-T 3544-2020 烟粉虱测报技术规范 露地蔬菜.pdf
DB35-T 1764-2018 沿海地区金属屋面技术条件 福建省.pdf
T-ZQTX 002—2023 章丘铁锅.pdf
NB-T 10881—2021 水力发电厂火灾自动报警系统设计规范.pdf
GB-T 41798-2022 智能网联汽车 自动驾驶功能场地试验方法及要求.pdf
GB-T 40311-2021 钒渣 多元素的测定 波长色散X射线荧光光谱法 熔铸玻璃片法.pdf
1
/
32
评价文档
赞助2.5元 点击下载(871.0 KB)
回到顶部
×
微信扫码支付
2.5
元 自动下载
点击进入官方售后微信群
支付 完成后 如未跳转 点击这里下载
站内资源均来自网友分享或网络收集整理,若无意中侵犯到您的权利,敬请联系我们
微信(点击查看客服)
,我们将及时删除相关资源。