(19)国家知识产权局 (12)发明 专利申请 (10)申请公布号 (43)申请公布日 (21)申请 号 202211322130.8 (22)申请日 2022.10.27 (71)申请人 北京中科汇联科技股份有限公司 地址 100094 北京市海淀区东北旺西路8号 9号楼二区3 05 (72)发明人 王丙栋 游世学 张晓东  (74)专利代理 机构 北京鑫瑞森知识产权代理有 限公司 1 1961 专利代理师 马云华 (51)Int.Cl. G06F 40/126(2020.01) G06F 40/295(2020.01) G06F 40/30(2020.01) G06F 16/903(2019.01) G06N 3/04(2006.01)G06N 3/08(2006.01) (54)发明名称 一种混合神经网络和字符信息的文本编码 方法及系统 (57)摘要 本发明提供了一种混合神经网络和字符信 息的文本编码方法及系统, 方法包括: 获取待编 码文本, 使用预训练神经网络根据细粒度分词对 待编码文本编码, 得到第一词序列编码和第一文 本编码; 使用SimHash根据粗粒度分词对待编码 文本进行编码, 得到第二词序列编码和第二文本 编码; 使用SimHash根据词和文本的标签对待编 码文本编码, 得到第三词序列编码和第三文本编 码; 混合第一词序列编码、 第一文本编码、 第二词 序列编码、 第二文本编码、 第三词序列编码和第 三文本编码, 得到最终词序列编码和最终文本编 码。 本发明消除了单纯使用神经网络预训练模型 带来的数据偏见和 信息丢失问题, 提高了下游模 型的训练收敛速度和推理泛化能力, 加快了应用 落地的工程迭代速度。 权利要求书2页 说明书5页 附图3页 CN 115392192 A 2022.11.25 CN 115392192 A 1.一种混合神经网络和字符信息的文本编码方法, 其特 征在于, 包括: 获取待编码文本, 使用预训练神经网络根据细粒度分词对所述待编码文本编码, 得到 第一词序列编码和第一文本编码; 使用SimHash根据粗粒度分词对所述待编码文本进行编码, 得到第二词序列编码和第 二文本编码; 使用SimHash根据词和文本的标签对所述待编码文本编码, 得到第三词序列编码和第 三文本编码; 混合第一词序列编码、 第一文本编码、 第二词序列编码、 第二文本编码、 第三词序列编 码和第三文本编码, 得到最终词序列编码和最终文本编码。 2.根据权利要求1所述的一种混合神经网络和字符信 息的文本编码方法, 其特征在于, 所述使用预训练神经网络根据细粒度分词对所述文本编 码, 得到第一词 序列编码和第一文 本编码, 包括: 使用预训练模型的分词器对所述待编码文本进行分词, 得到细粒度分词; 根据所述细粒度分词, 使用预训练神经网络对所述待编码文本进行编码, 得到所述第 一词序列编码和所述第一文本编码。 3.根据权利要求1所述的一种混合神经网络和字符信 息的文本编码方法, 其特征在于, 所述使用SimHash根据粗粒度分词对所述待编码文本进行编码, 得到第二词序列编码和第 二文本编码, 包括: 使用传统粗粒度分词器对所述文本分词, 得到粗粒度分词; 计算每个粗粒度词的SimHash, 得到粗粒度词的SimHash 字符信息编码; 将所述粗粒度词的SimHash字符信息编码赋予所述细粒度词, 得到所述第二词序列编 码; 根据所述 粗粒度分词, 计算待所述编码文本的SimHash, 得到第二文本编码。 4.根据权利要求1所述的一种混合神经网络和字符信 息的文本编码方法, 其特征在于, 所述使用SimHash根据词和文本的标签对所述待编码文本编码, 得到第三词序列编码和第 三文本编码, 包括: 使用实体提取 方法从所述文本中提取实体词, 并用实体名对所述实体词打上 标签; 计算实体词的标签的SimHash, 得到实体词的标签的SimHash编码; 将所述实体词的标签的SimHash编码赋予所述细粒度词得到第三词序列编码; 计算所述待编码文本标签的SimHash得到所述第三文本编码。 5.根据权利要求4所述的一种混合神经网络和字符信 息的文本编码方法, 其特征在于, 所述实体提取 方法包括: 基于词库的方法和基于正则表达式的方法。 6.根据权利要求1所述的一种混合神经网络和字符信 息的文本编码方法, 其特征在于, 所述混合第一词序列编码、 第一文本编码、 第二词序列编码、 第二文本编码、 第三词序列编 码和第三文本编码, 得到最终词序列编码和最终文本编码, 包括: 拼接所述第 一词序列编码中对应所述细粒度词的向量、 所述第 二词序列编码中对应所 述细粒度词的向量和所述第三词序列编码中对应所述细粒度词的向量得到所述细粒度词 的最终向量; 将所述细粒度词的最终向量 排成矩阵, 得到所述 最终词序列编码;权 利 要 求 书 1/2 页 2 CN 115392192 A 2拼接所述第 一文本编码向量、 所述第 二文本编码向量、 所述第三文本编码向量, 得到文 本整体的最终文本编码向量。 7.一种混合神经网络和字符信息的文本编码系统, 其特 征在于, 包括: 获取模块, 用于获取待编码文本; 第一编码模块, 用于使用预训练神经网络根据细粒度分词对所述待编码文本编码, 得 到第一词序列编码和第一文本编码; 第二编码模块, 用于使用SimHash根据粗粒度分词对所述待编码文本进行编码, 得到第 二词序列编码和第二文本编码; 第三编码模块, 用于使用SimHash根据词和文本的标签对所述待编码文本编码, 得到第 三词序列编码和第三文本编码; 第四编码模块, 用于混合第一词序列编码、 第一文本编码、 第二词序列编码、 第二文本 编码、 第三词序列编码和第三文本编码, 得到最终词序列编码和最终文本编码。权 利 要 求 书 2/2 页 3 CN 115392192 A 3

PDF文档 专利 一种混合神经网络和字符信息的文本编码方法及系统

文档预览
中文文档 11 页 50 下载 1000 浏览 0 评论 0 收藏 3.0分
温馨提示:本文档共11页,可预览 3 页,如浏览全部内容或当前文档出现乱码,可开通会员下载原始文档
专利 一种混合神经网络和字符信息的文本编码方法及系统 第 1 页 专利 一种混合神经网络和字符信息的文本编码方法及系统 第 2 页 专利 一种混合神经网络和字符信息的文本编码方法及系统 第 3 页
下载文档到电脑,方便使用
本文档由 SC 于 2024-02-18 22:24:10上传分享
站内资源均来自网友分享或网络收集整理,若无意中侵犯到您的权利,敬请联系我们微信(点击查看客服),我们将及时删除相关资源。