(19)国家知识产权局
(12)发明 专利申请
(10)申请公布号
(43)申请公布日
(21)申请 号 202211488054.8
(22)申请日 2022.11.25
(71)申请人 神州医疗科技股份有限公司
地址 100080 北京市海淀区北四环西路6 6
号16层1901室
(72)发明人 白焜太 杨雅婷 宋佳祥 刘硕
许娟 史文钊
(74)专利代理 机构 北京星通盈泰知识产权代理
有限公司 1 1952
专利代理师 夏晶
(51)Int.Cl.
G06F 40/30(2020.01)
G06F 40/211(2020.01)
G06F 40/242(2020.01)
G06F 40/284(2020.01)G06N 3/04(2006.01)
G06N 3/08(2006.01)
(54)发明名称
一种增强医疗语句语义向量表示的模型构
造方法及系统
(57)摘要
本发明涉及自然语 言处理技术领域, 且公开
了一种增强医疗语句语义向量表示的模型构造
方法, 包括收集医学领域的医疗数据, 并对所述
医疗数据进行预处理, 建构一份扩充医学词典;
基于所述医疗数据进行预处理结果, 保留Bert中
的MLM任务, 构建损失函数做全词掩码训练; 保存
训练后的Bert模型, 切分所述医疗数据中的每段
文本形成句子集合; 基于句子集合, 对每个句子
进行对比学习训练; 构建一个新的损失函数, 判
断当新的损失函数连续3次得出的数据不下降的
情况下,得出最终Bert模型作为最终的增强语义
向量表示的模 型。 本专利结合继续预训练和对比
学习来有效增强 医疗语句语义表 示的构造方法,
使医疗语句的表达更精确。
权利要求书3页 说明书9页 附图2页
CN 115545041 A
2022.12.30
CN 115545041 A
1.一种增强医疗语句语义向量表示的模型构造方法, 其特 征在于, 包括:
收集医学 领域的医疗数据, 并对所述医疗数据进行 预处理, 建构扩充医学词典;
基于收集 医学领域的医疗数据, 对初始B ert模型仅保留MLM任务, 对所述初始B ert模型
做全词掩码训练, 保存训练后的Ber t模型;
切分所述医疗数据中的每段文本形成句子集 合;
基于句子集 合, 对每个句子进行对比学习训练;
基于训练后的B ert模型, 获得句子的空间向量表征, 基于对比学习训练, 构 建新的损失
函数, 得出最终Ber t模型作为 最终的增强语义向量表示的模型。
2.根据权利要求1所述的一种增强医疗语句语义向量表示的模型构造方法, 其特征在
于, 所述保存训练后的Ber t模型, 包括:
构建损失函数, 判断当所述损失函数连续3次得出的数据不下降,则保存训练后的Bert
模型。
3.根据权利要求1所述的一种增强医疗语句语义向量表示的模型构造方法, 其特征在
于, 所述基于句子集 合, 对每个句子进行对比学习训练, 包括:
将同一个句子送入Ber t模型两次, 得到的两个向量 为正样本;
采用莱文斯坦距离的计算方式进行筛选,将莱文斯坦距离大于4的句子生成的向量作
为负样本。
4.根据权利要求1所述的一种增强医疗语句语义向量表示的模型构造方法, 其特征在
于, 所述建构扩充医学词典, 包括:
对所述医疗数据进行 预处理完的文本数据通过分词工具分词;
基于分词工具的分词结果, 若有词语不在这个词典里面, 记录不在这个词典里面的词
语并统计出现的次数, 作为 候选新词;
最后通过 人工核验,确定最终扩充医学词典用于后续的全词掩码。
5.根据权利要求1所述的一种增强医疗语句语义向量表示的模型构造方法, 其特征在
于, 所述新的损失函数为:
其中:
表示同一句话输入训练后的Ber t模型后生成的两个句向量;
表示为调节系数;
表示
两个向量之间的相似度, 用向量的余弦相似度 度量;权 利 要 求 书 1/3 页
2
CN 115545041 A
2表示
两个向量之间的相似度, N表示整个Batch中的句子总数, P表
示损失函数中的一个代数;
表示的是batc h中的某个负 样本输入到训练后的Ber t模型后生成的句向量;
表示句子i和句子j的莱文斯 坦距离。
6.一种增强医疗语句语义向量表示的模型构造系统, 其特 征在于, 包括:
数据预处理模块, 用于收集医学领域的医疗数据, 并对所述医疗数据进行预处理, 建构
一份扩充医学词典;
继续预训练模块, 用于基于收集医学领域的医疗数据中, 对初始B ert模型仅保留MLM任
务, 对所述初始Ber t模型做全词掩码训练, 保存训练后的Ber t模型;
切分数据集模块, 用于切分所述医疗数据中的每段文本形成句子集 合;
对比学习训练模块, 用于基于句子集 合, 对每个句子进行对比学习训练;
最终语义向量表示模块, 用于基于训练后的B ert模型, 获得句子的空间向量表征, 基于
对比学习训练, 构建新的损失函数, 得出最终Bert模型作为最终的增强语义向量表示的模
型。
7.根据权利要求6所述的一种增强医疗语句语义向量表示的模型构造系统, 其特征在
于, 继续预训练模块, 包括:
训练后的B ert模型生成单元, 用于构建损失函数, 判断当所述损失函数连续3次得出的
数据不下降,则保存训练后的Ber t模型。
8.根据权利要求6所述的一种增强医疗语句语义向量表示的模型构造系统, 其特征在
于, 对比学习训练模块, 包括:
正样本生成单 元, 用于将同一句话送入Ber t模型两次, 得到的两个向量 为正样本;
莱文斯坦计算单元, 用于采用莱文斯坦距离的计算方式进行筛选,将莱文斯坦距离大
于4的句子生成的向量作为负 样本。
9.根据权利要求6所述的一种增强医疗语句语义向量表示的模型构造系统, 其特征在
于, 数据预处 理模块, 包括:
扩充医学词典单元, 用于对所述医疗数据进行预处理完的文本数据通过分词工具分
词; 基于分词工具的分词结果, 若有词语不在这个词典里面, 记录不在这个词典里面的词语
并统计出现的次数, 作为候选新词; 最后通过人工核验,确定最 终扩充医学词典用于后续的
全词掩码。
10.根据权利要求6所述的一种增强医疗语句语义向量表示的模型构造系统, 其特征在
于, 所述新的损失函数为:
其中:权 利 要 求 书 2/3 页
3
CN 115545041 A
3
专利 一种增强医疗语句语义向量表示的模型构造方法及系统
文档预览
中文文档
15 页
50 下载
1000 浏览
0 评论
0 收藏
3.0分
温馨提示:本文档共15页,可预览 3 页,如浏览全部内容或当前文档出现乱码,可开通会员下载原始文档
本文档由 SC 于 2024-02-18 22:23:44上传分享