专利一种增强医疗语句语义向量表示的模型构造方法及系统 -在线下载 -pdf文件-bbs.720life.cn

(19)国家知识产权局 (12)发明专利申请 (10)申请公布号 (43)申请公布日 (21)申请号 202211488054.8 (22)申请日 2022.11.25 (71)申请人神州医疗科技股份有限公司地址 100080 北京市海淀区北四环西路6 6 号16层1901室 (72)发明人白焜太　杨雅婷　宋佳祥　刘硕　许娟　史文钊　 (74)专利代理机构北京星通盈泰知识产权代理有限公司 1 1952 专利代理师夏晶 (51)Int.Cl. G06F 40/30(2020.01) G06F 40/211(2020.01) G06F 40/242(2020.01) G06F 40/284(2020.01)G06N 3/04(2006.01) G06N 3/08(2006.01) (54)发明名称一种增强医疗语句语义向量表示的模型构造方法及系统 (57)摘要本发明涉及自然语言处理技术领域，且公开了一种增强医疗语句语义向量表示的模型构造方法，包括收集医学领域的医疗数据，并对所述医疗数据进行预处理，建构一份扩充医学词典；基于所述医疗数据进行预处理结果，保留Bert中的MLM任务，构建损失函数做全词掩码训练；保存训练后的Bert模型，切分所述医疗数据中的每段文本形成句子集合；基于句子集合，对每个句子进行对比学习训练；构建一个新的损失函数，判断当新的损失函数连续3次得出的数据不下降的情况下,得出最终Bert模型作为最终的增强语义向量表示的模型。本专利结合继续预训练和对比学习来有效增强医疗语句语义表示的构造方法，使医疗语句的表达更精确。权利要求书3页说明书9页附图2页 CN 115545041 A 2022.12.30 CN 115545041 A 1.一种增强医疗语句语义向量表示的模型构造方法，其特征在于，包括：收集医学领域的医疗数据，并对所述医疗数据进行预处理，建构扩充医学词典；基于收集医学领域的医疗数据，对初始B ert模型仅保留MLM任务，对所述初始B ert模型做全词掩码训练，保存训练后的Ber t模型；切分所述医疗数据中的每段文本形成句子集合；基于句子集合，对每个句子进行对比学习训练；基于训练后的B ert模型，获得句子的空间向量表征，基于对比学习训练，构建新的损失函数，得出最终Ber t模型作为最终的增强语义向量表示的模型。 2.根据权利要求1所述的一种增强医疗语句语义向量表示的模型构造方法，其特征在于，所述保存训练后的Ber t模型，包括：构建损失函数，判断当所述损失函数连续3次得出的数据不下降,则保存训练后的Bert 模型。 3.根据权利要求1所述的一种增强医疗语句语义向量表示的模型构造方法，其特征在于，所述基于句子集合，对每个句子进行对比学习训练，包括：将同一个句子送入Ber t模型两次，得到的两个向量为正样本；采用莱文斯坦距离的计算方式进行筛选,将莱文斯坦距离大于4的句子生成的向量作为负样本。 4.根据权利要求1所述的一种增强医疗语句语义向量表示的模型构造方法，其特征在于，所述建构扩充医学词典，包括：对所述医疗数据进行预处理完的文本数据通过分词工具分词；基于分词工具的分词结果，若有词语不在这个词典里面，记录不在这个词典里面的词语并统计出现的次数，作为候选新词；最后通过人工核验,确定最终扩充医学词典用于后续的全词掩码。 5.根据权利要求1所述的一种增强医疗语句语义向量表示的模型构造方法，其特征在于，所述新的损失函数为：其中：表示同一句话输入训练后的Ber t模型后生成的两个句向量；表示为调节系数；表示两个向量之间的相似度，用向量的余弦相似度度量；权　利　要　求　书 1/3 页 2 CN 115545041 A 2表示两个向量之间的相似度， N表示整个Batch中的句子总数， P表示损失函数中的一个代数；表示的是batc h中的某个负样本输入到训练后的Ber t模型后生成的句向量；表示句子i和句子j的莱文斯坦距离。 6.一种增强医疗语句语义向量表示的模型构造系统，其特征在于，包括：数据预处理模块，用于收集医学领域的医疗数据，并对所述医疗数据进行预处理，建构一份扩充医学词典；继续预训练模块，用于基于收集医学领域的医疗数据中，对初始B ert模型仅保留MLM任务，对所述初始Ber t模型做全词掩码训练，保存训练后的Ber t模型；切分数据集模块，用于切分所述医疗数据中的每段文本形成句子集合；对比学习训练模块，用于基于句子集合，对每个句子进行对比学习训练；最终语义向量表示模块，用于基于训练后的B ert模型，获得句子的空间向量表征，基于对比学习训练，构建新的损失函数，得出最终Bert模型作为最终的增强语义向量表示的模型。 7.根据权利要求6所述的一种增强医疗语句语义向量表示的模型构造系统，其特征在于，继续预训练模块，包括：训练后的B ert模型生成单元，用于构建损失函数，判断当所述损失函数连续3次得出的数据不下降,则保存训练后的Ber t模型。 8.根据权利要求6所述的一种增强医疗语句语义向量表示的模型构造系统，其特征在于，对比学习训练模块，包括：正样本生成单元，用于将同一句话送入Ber t模型两次，得到的两个向量为正样本；莱文斯坦计算单元，用于采用莱文斯坦距离的计算方式进行筛选,将莱文斯坦距离大于4的句子生成的向量作为负样本。 9.根据权利要求6所述的一种增强医疗语句语义向量表示的模型构造系统，其特征在于，数据预处理模块，包括：扩充医学词典单元，用于对所述医疗数据进行预处理完的文本数据通过分词工具分词；基于分词工具的分词结果，若有词语不在这个词典里面，记录不在这个词典里面的词语并统计出现的次数，作为候选新词；最后通过人工核验,确定最终扩充医学词典用于后续的全词掩码。 10.根据权利要求6所述的一种增强医疗语句语义向量表示的模型构造系统，其特征在于，所述新的损失函数为：其中：权　利　要　求　书 2/3 页 3 CN 115545041 A 3

专利 一种增强医疗语句语义向量表示的模型构造方法及系统

专利一种增强医疗语句语义向量表示的模型构造方法及系统