国家标准网
文库搜索
切换导航
首页
频道
仅15元无限下载
联系我们
首页
仅15元无限下载
联系我们
批量下载
(19)国家知识产权局 (12)发明 专利申请 (10)申请公布号 (43)申请公布日 (21)申请 号 202211322130.8 (22)申请日 2022.10.27 (71)申请人 北京中科汇联科技股份有限公司 地址 100094 北京市海淀区东北旺西路8号 9号楼二区3 05 (72)发明人 王丙栋 游世学 张晓东 (74)专利代理 机构 北京鑫瑞森知识产权代理有 限公司 1 1961 专利代理师 马云华 (51)Int.Cl. G06F 40/126(2020.01) G06F 40/295(2020.01) G06F 40/30(2020.01) G06F 16/903(2019.01) G06N 3/04(2006.01)G06N 3/08(2006.01) (54)发明名称 一种混合神经网络和字符信息的文本编码 方法及系统 (57)摘要 本发明提供了一种混合神经网络和字符信 息的文本编码方法及系统, 方法包括: 获取待编 码文本, 使用预训练神经网络根据细粒度分词对 待编码文本编码, 得到第一词序列编码和第一文 本编码; 使用SimHash根据粗粒度分词对待编码 文本进行编码, 得到第二词序列编码和第二文本 编码; 使用SimHash根据词和文本的标签对待编 码文本编码, 得到第三词序列编码和第三文本编 码; 混合第一词序列编码、 第一文本编码、 第二词 序列编码、 第二文本编码、 第三词序列编码和第 三文本编码, 得到最终词序列编码和最终文本编 码。 本发明消除了单纯使用神经网络预训练模型 带来的数据偏见和 信息丢失问题, 提高了下游模 型的训练收敛速度和推理泛化能力, 加快了应用 落地的工程迭代速度。 权利要求书2页 说明书5页 附图3页 CN 115392192 A 2022.11.25 CN 115392192 A 1.一种混合神经网络和字符信息的文本编码方法, 其特 征在于, 包括: 获取待编码文本, 使用预训练神经网络根据细粒度分词对所述待编码文本编码, 得到 第一词序列编码和第一文本编码; 使用SimHash根据粗粒度分词对所述待编码文本进行编码, 得到第二词序列编码和第 二文本编码; 使用SimHash根据词和文本的标签对所述待编码文本编码, 得到第三词序列编码和第 三文本编码; 混合第一词序列编码、 第一文本编码、 第二词序列编码、 第二文本编码、 第三词序列编 码和第三文本编码, 得到最终词序列编码和最终文本编码。 2.根据权利要求1所述的一种混合神经网络和字符信 息的文本编码方法, 其特征在于, 所述使用预训练神经网络根据细粒度分词对所述文本编 码, 得到第一词 序列编码和第一文 本编码, 包括: 使用预训练模型的分词器对所述待编码文本进行分词, 得到细粒度分词; 根据所述细粒度分词, 使用预训练神经网络对所述待编码文本进行编码, 得到所述第 一词序列编码和所述第一文本编码。 3.根据权利要求1所述的一种混合神经网络和字符信 息的文本编码方法, 其特征在于, 所述使用SimHash根据粗粒度分词对所述待编码文本进行编码, 得到第二词序列编码和第 二文本编码, 包括: 使用传统粗粒度分词器对所述文本分词, 得到粗粒度分词; 计算每个粗粒度词的SimHash, 得到粗粒度词的SimHash 字符信息编码; 将所述粗粒度词的SimHash字符信息编码赋予所述细粒度词, 得到所述第二词序列编 码; 根据所述 粗粒度分词, 计算待所述编码文本的SimHash, 得到第二文本编码。 4.根据权利要求1所述的一种混合神经网络和字符信 息的文本编码方法, 其特征在于, 所述使用SimHash根据词和文本的标签对所述待编码文本编码, 得到第三词序列编码和第 三文本编码, 包括: 使用实体提取 方法从所述文本中提取实体词, 并用实体名对所述实体词打上 标签; 计算实体词的标签的SimHash, 得到实体词的标签的SimHash编码; 将所述实体词的标签的SimHash编码赋予所述细粒度词得到第三词序列编码; 计算所述待编码文本标签的SimHash得到所述第三文本编码。 5.根据权利要求4所述的一种混合神经网络和字符信 息的文本编码方法, 其特征在于, 所述实体提取 方法包括: 基于词库的方法和基于正则表达式的方法。 6.根据权利要求1所述的一种混合神经网络和字符信 息的文本编码方法, 其特征在于, 所述混合第一词序列编码、 第一文本编码、 第二词序列编码、 第二文本编码、 第三词序列编 码和第三文本编码, 得到最终词序列编码和最终文本编码, 包括: 拼接所述第 一词序列编码中对应所述细粒度词的向量、 所述第 二词序列编码中对应所 述细粒度词的向量和所述第三词序列编码中对应所述细粒度词的向量得到所述细粒度词 的最终向量; 将所述细粒度词的最终向量 排成矩阵, 得到所述 最终词序列编码;权 利 要 求 书 1/2 页 2 CN 115392192 A 2拼接所述第 一文本编码向量、 所述第 二文本编码向量、 所述第三文本编码向量, 得到文 本整体的最终文本编码向量。 7.一种混合神经网络和字符信息的文本编码系统, 其特 征在于, 包括: 获取模块, 用于获取待编码文本; 第一编码模块, 用于使用预训练神经网络根据细粒度分词对所述待编码文本编码, 得 到第一词序列编码和第一文本编码; 第二编码模块, 用于使用SimHash根据粗粒度分词对所述待编码文本进行编码, 得到第 二词序列编码和第二文本编码; 第三编码模块, 用于使用SimHash根据词和文本的标签对所述待编码文本编码, 得到第 三词序列编码和第三文本编码; 第四编码模块, 用于混合第一词序列编码、 第一文本编码、 第二词序列编码、 第二文本 编码、 第三词序列编码和第三文本编码, 得到最终词序列编码和最终文本编码。权 利 要 求 书 2/2 页 3 CN 115392192 A 3
专利 一种混合神经网络和字符信息的文本编码方法及系统
文档预览
中文文档
11 页
50 下载
1000 浏览
0 评论
0 收藏
3.0分
赞助2.5元下载(无需注册)
温馨提示:本文档共11页,可预览 3 页,如浏览全部内容或当前文档出现乱码,可开通会员下载原始文档
下载文档到电脑,方便使用
赞助2.5元下载
本文档由 SC 于
2024-02-18 22:24:10
上传分享
举报
下载
原文档
(554.8 KB)
分享
友情链接
GB-T 34953.2-2018 信息技术 安全技术匿名.pdf
深圳经济特区科技创新条例.pdf
GB-T 30428.4-2016 数字化城市管理信息系统 第4部分:绩效评价.pdf
GB-T 33356-2022 新型智慧城市评价指标.pdf
GB-T 4240-2019 不锈钢丝.pdf
GB-T 28159-2011 电子级磷酸.pdf
T-CSAE 119—2019 绿色设计产品评价技术规范 纯电动乘用车.pdf
GoogleCloud 自动化安全运营中心soc建设指南 OfficeofCISO AutonomicSecurityOperations 10x 英文 .pdf
GB-T 43236-2023 城市生态风险评价技术指南.pdf
GB-T 31348-2014 节能量测量和验证技术要求 照明系统.pdf
T-CSA -TR008—2019 类太阳光LED术语定义及相关问题研究.pdf
DB15-T 1878—2020 沙化草地治理技术规范 内蒙古自治区.pdf
DB51-T 2621-2019 机关事务信息化建设指南 四川省.pdf
GB-T 32286.1-2015 软磁合金 第1部分:铁镍合金.pdf
GM-T 0091-2020 基于口令的密钥派生规范.pdf
GB-T 32918.1-2016 信息安全技术 SM2椭圆曲线公钥密码算法 第1部分:总则.pdf
GB-T 25781-2010 1-萘胺.pdf
ISO IEC 27033-6-2016.pdf
GB 9706.205-2020 医用电气设备 第2-5部分:超声理疗设备的基本安全和基本性能专用要求.pdf
T-IPCAC 1—2024 AIGC登记服务规范.pdf
1
/
11
评价文档
赞助2.5元 点击下载(554.8 KB)
回到顶部
×
微信扫码支付
2.5
元 自动下载
点击进入官方售后微信群
支付 完成后 如未跳转 点击这里下载
站内资源均来自网友分享或网络收集整理,若无意中侵犯到您的权利,敬请联系我们
微信(点击查看客服)
,我们将及时删除相关资源。