(19)国家知识产权局 (12)发明 专利申请 (10)申请公布号 (43)申请公布日 (21)申请 号 202211488054.8 (22)申请日 2022.11.25 (71)申请人 神州医疗科技股份有限公司 地址 100080 北京市海淀区北四环西路6 6 号16层1901室 (72)发明人 白焜太 杨雅婷 宋佳祥 刘硕  许娟 史文钊  (74)专利代理 机构 北京星通盈泰知识产权代理 有限公司 1 1952 专利代理师 夏晶 (51)Int.Cl. G06F 40/30(2020.01) G06F 40/211(2020.01) G06F 40/242(2020.01) G06F 40/284(2020.01)G06N 3/04(2006.01) G06N 3/08(2006.01) (54)发明名称 一种增强医疗语句语义向量表示的模型构 造方法及系统 (57)摘要 本发明涉及自然语 言处理技术领域, 且公开 了一种增强医疗语句语义向量表示的模型构造 方法, 包括收集医学领域的医疗数据, 并对所述 医疗数据进行预处理, 建构一份扩充医学词典; 基于所述医疗数据进行预处理结果, 保留Bert中 的MLM任务, 构建损失函数做全词掩码训练; 保存 训练后的Bert模型, 切分所述医疗数据中的每段 文本形成句子集合; 基于句子集合, 对每个句子 进行对比学习训练; 构建一个新的损失函数, 判 断当新的损失函数连续3次得出的数据不下降的 情况下,得出最终Bert模型作为最终的增强语义 向量表示的模 型。 本专利结合继续预训练和对比 学习来有效增强 医疗语句语义表 示的构造方法, 使医疗语句的表达更精确。 权利要求书3页 说明书9页 附图2页 CN 115545041 A 2022.12.30 CN 115545041 A 1.一种增强医疗语句语义向量表示的模型构造方法, 其特 征在于, 包括: 收集医学 领域的医疗数据, 并对所述医疗数据进行 预处理, 建构扩充医学词典; 基于收集 医学领域的医疗数据, 对初始B ert模型仅保留MLM任务, 对所述初始B ert模型 做全词掩码训练, 保存训练后的Ber t模型; 切分所述医疗数据中的每段文本形成句子集 合; 基于句子集 合, 对每个句子进行对比学习训练; 基于训练后的B ert模型, 获得句子的空间向量表征, 基于对比学习训练, 构 建新的损失 函数, 得出最终Ber t模型作为 最终的增强语义向量表示的模型。 2.根据权利要求1所述的一种增强医疗语句语义向量表示的模型构造方法, 其特征在 于, 所述保存训练后的Ber t模型, 包括: 构建损失函数, 判断当所述损失函数连续3次得出的数据不下降,则保存训练后的Bert 模型。 3.根据权利要求1所述的一种增强医疗语句语义向量表示的模型构造方法, 其特征在 于, 所述基于句子集 合, 对每个句子进行对比学习训练, 包括: 将同一个句子送入Ber t模型两次, 得到的两个向量 为正样本; 采用莱文斯坦距离的计算方式进行筛选,将莱文斯坦距离大于4的句子生成的向量作 为负样本。 4.根据权利要求1所述的一种增强医疗语句语义向量表示的模型构造方法, 其特征在 于, 所述建构扩充医学词典, 包括: 对所述医疗数据进行 预处理完的文本数据通过分词工具分词; 基于分词工具的分词结果, 若有词语不在这个词典里面, 记录不在这个词典里面的词 语并统计出现的次数, 作为 候选新词; 最后通过 人工核验,确定最终扩充医学词典用于后续的全词掩码。 5.根据权利要求1所述的一种增强医疗语句语义向量表示的模型构造方法, 其特征在 于, 所述新的损失函数为: 其中: 表示同一句话输入训练后的Ber t模型后生成的两个句向量; 表示为调节系数; 表示 两个向量之间的相似度, 用向量的余弦相似度 度量;权 利 要 求 书 1/3 页 2 CN 115545041 A 2表示 两个向量之间的相似度, N表示整个Batch中的句子总数, P表 示损失函数中的一个代数; 表示的是batc h中的某个负 样本输入到训练后的Ber t模型后生成的句向量; 表示句子i和句子j的莱文斯 坦距离。 6.一种增强医疗语句语义向量表示的模型构造系统, 其特 征在于, 包括: 数据预处理模块, 用于收集医学领域的医疗数据, 并对所述医疗数据进行预处理, 建构 一份扩充医学词典; 继续预训练模块, 用于基于收集医学领域的医疗数据中, 对初始B ert模型仅保留MLM任 务, 对所述初始Ber t模型做全词掩码训练, 保存训练后的Ber t模型; 切分数据集模块, 用于切分所述医疗数据中的每段文本形成句子集 合; 对比学习训练模块, 用于基于句子集 合, 对每个句子进行对比学习训练; 最终语义向量表示模块, 用于基于训练后的B ert模型, 获得句子的空间向量表征, 基于 对比学习训练, 构建新的损失函数, 得出最终Bert模型作为最终的增强语义向量表示的模 型。 7.根据权利要求6所述的一种增强医疗语句语义向量表示的模型构造系统, 其特征在 于, 继续预训练模块, 包括: 训练后的B ert模型生成单元, 用于构建损失函数, 判断当所述损失函数连续3次得出的 数据不下降,则保存训练后的Ber t模型。 8.根据权利要求6所述的一种增强医疗语句语义向量表示的模型构造系统, 其特征在 于, 对比学习训练模块, 包括: 正样本生成单 元, 用于将同一句话送入Ber t模型两次, 得到的两个向量 为正样本; 莱文斯坦计算单元, 用于采用莱文斯坦距离的计算方式进行筛选,将莱文斯坦距离大 于4的句子生成的向量作为负 样本。 9.根据权利要求6所述的一种增强医疗语句语义向量表示的模型构造系统, 其特征在 于, 数据预处 理模块, 包括: 扩充医学词典单元, 用于对所述医疗数据进行预处理完的文本数据通过分词工具分 词; 基于分词工具的分词结果, 若有词语不在这个词典里面, 记录不在这个词典里面的词语 并统计出现的次数, 作为候选新词; 最后通过人工核验,确定最 终扩充医学词典用于后续的 全词掩码。 10.根据权利要求6所述的一种增强医疗语句语义向量表示的模型构造系统, 其特征在 于, 所述新的损失函数为: 其中:权 利 要 求 书 2/3 页 3 CN 115545041 A 3

PDF文档 专利 一种增强医疗语句语义向量表示的模型构造方法及系统

文档预览
中文文档 15 页 50 下载 1000 浏览 0 评论 0 收藏 3.0分
温馨提示:本文档共15页,可预览 3 页,如浏览全部内容或当前文档出现乱码,可开通会员下载原始文档
专利 一种增强医疗语句语义向量表示的模型构造方法及系统 第 1 页 专利 一种增强医疗语句语义向量表示的模型构造方法及系统 第 2 页 专利 一种增强医疗语句语义向量表示的模型构造方法及系统 第 3 页
下载文档到电脑,方便使用
本文档由 SC 于 2024-02-18 22:23:44上传分享
站内资源均来自网友分享或网络收集整理,若无意中侵犯到您的权利,敬请联系我们微信(点击查看客服),我们将及时删除相关资源。