(19)国家知识产权局
(12)发明 专利申请
(10)申请公布号
(43)申请公布日
(21)申请 号 202211439921.9
(22)申请日 2022.11.17
(71)申请人 荣耀终端 有限公司
地址 518040 广东省深圳市福田区香蜜湖
街道东海社区红荔西路8089号深业中
城6号楼A单元3401
(72)发明人 李胜超 曹熠炜 汤泳 卢志超
余强
(74)专利代理 机构 北京中博世 达专利商标代理
有限公司 1 1274
专利代理师 申健
(51)Int.Cl.
G06F 40/126(2020.01)
G06F 40/279(2020.01)
G06F 40/30(2020.01)G06N 3/04(2006.01)
G06N 3/08(2006.01)
(54)发明名称
一种词语提取方法及计算机设备
(57)摘要
本申请提供一种词语提取方法及计算机设
备, 应用于文本处理领域; 用于解决提取的候选
词语不准确, 进而导致利用这些候选词语无法达
到舆情监控、 分析产品发展趋势等目的问题。 该
方法应用于计算机设备, 包括: 获取与目标对象
关联的多个第一文本数据。 基于第一预设神经网
络模型提取多个第一文本数据中每两个字符之
间的字符关系向量;其中, 字符关系向量用于表
征两个字符之间的字符关系类型。 根据得到的字
符关系向量, 查找多个第一文本数据中包含的属
性词语和观 点词语, 并确定每个属性词语和每个
观点词语 之间的词语关系类型。 若词语 关系类型
表征第一属性词语和第一观点词语属于同一个
候选词语, 则组合第一属性词语和第一观点词
语, 得到第一 候选词语 。
权利要求书3页 说明书22页 附图13页
CN 115496039 A
2022.12.20
CN 115496039 A
1.一种词语提取 方法, 其特 征在于, 所述方法应用计算机设备, 所述方法包括:
获取多个第一文本数据; 所述多个第一文本数据与目标对象关联;
基于第一预设神经网络模型提取所述多个第一文本数据中每两个字符之间的字符关
系向量;其中, 所述字符关系向量用于表征两个字符之 间的字符关系类型, 所述字符关系类
型包括以下四种: 所述两个字符属于同一属性词语, 所述两个字符属于同一观 点词语, 所述
两个字符中的一个字符属于属 性词语、 另一个字符属于观点词语、 且所述两个字符属于同
一个候选词语, 所述两个字符之间的关系不属于以上三种关系类型; 所述第一预设神经网
络模型是基于第一初始神经网络模型训练确定的;
根据得到的字符关系向量, 查找所述多个第一文本数据中包含的属性词语和观点词
语, 并确定每个属性词语和每个观点词语之 间的词语 关系类型; 其中, 所述词语关系类型用
于表征对应属性词语和观点词语是否属于同一个候选词语;
在词语关系类型表征第 一属性词语和第 一观点词语属于同一个候选词语时, 组合所述
第一属性词语和所述第一观点词语, 得到与所述目标对象关联的第一 候选词语;
其中, 所述第一属性词语为所述多个第一文本数据中的任一个属性词语, 所述第一观
点词语为所述多个第一文本数据中的任一个观点词语。
2.根据权利要求1所述的方法, 其特征在于, 所述根据得到的字符关系向量, 查找所述
多个第一文本数据中包含的属性词语和观点词语, 并确定每个属性词语和每个观点词语之
间的词语关系类型, 包括:
生成目标字对网格, 所述目标字对网格包括n行n列, n为所述多个第一文本数据中的字
符的个数, 每行对应所述多个第一文本数据中的一个字符, 每列对应所述多个第一文本数
据中的一个字符;
将字符关系向量rij填充至所述目标字对网格的第i行第j列; 其中, 所述字符关系向量
rij是所述多个第一文本数据中第i个字符与第j个字符之间的字符关系向量; i和j在{1,
2,……, n}中取值;
根据填充了所述字符关系向量rij的目标字对网格, 确定每个属性词语和每个观点词语
之间的词语关系类型。
3.根据权利要求2 所述的方法, 其特征在于, 所述根据填充了所述字符关系向量rij的目
标字对网格, 确定每 个属性词语和每 个观点词语之间的词语关系类型, 包括:
将填充了所述字符关系向量rij的目标字对网格中、 所述字符关系类型均为第一字符关
系类型的相邻字符拼接, 得到所述属 性词语; 所述第一字符关系类型用于指示两个字符属
于同一属性词语;
将填充了所述字符关系向量rij的目标字对网格中、 所述字符关系类型均为第二字符关
系类型的连续相邻字符拼接, 得到所述观点词语; 所述第二字符关系类型用于指示两个字
符属于同一观点词语;
根据所述目标字对 网格中、 第 二属性词语包含的每个字符与第 二观点词语包含的每个
字符之间的字符关系类型, 确定所述第二属性词语和所述第二观点词语之 间的词语关系类
型;
其中, 所述第二属性词语为所述目标字对网格中的任一个属性词语, 所述第二观点词
语为所述目标字对网格中的任一个观点词语。权 利 要 求 书 1/3 页
2
CN 115496039 A
24.根据权利要求3所述的方法, 其特征在于, 所述根据所述目标字对网格中、 第二属性
词语包含的每个字符与第二观点词语包含的每个字符之 间的字符关系类型, 确定所述第二
属性词语和所述第二观点词语之间的词语关系类型, 包括:
在所述第二属性词语与所述第二观点词语分别所包含的字符之间的字符关系类型为
第三字符关系类型的数量大于预设数量阈值时, 确定所述第二属性词语和所述第二观点词
语之间的词语关系类型属于同一候选词语; 所述第三字符关系类型用于指示两个字符中的
一个字符属于属性词语、 另一个字符属于观点词语、 且所述两个字符属于同一个候选词语;
在所述第二属性词语与所述第二观点词语分别所包含的字符之间的字符关系类型为
第三字符关系类型的数量小于或者等于所述预设数量阈值时, 确定所述第二属性词语和所
述第一观点词语之间的词语关系类型不属于同一 候选词语。
5.根据权利要求1 ‑4中任一项所述的方法, 其特征在于, 所述基于第 一预设神经网络模
型提取所述多个第一文本数据中每两个字符 之间的字符关系向量, 包括:
对所述多个第 一文本数据进行特征提取, 得到所述多个第 一文本数据中各字符的语义
特征向量; 其中, 所述语义特征向量用于表征各字符在所述多个第一文本数据中的词语含
义;
分别对所述多个第 一文本数据中任意两个字符的语义特征向量进行向量运算, 得到所
述多个第一文本数据中的每两个字符对应的第一向量;
获取预设字符关系权重矩阵; 所述预设字符关系权重矩阵是基于初始字符关系权重矩
阵经过训练确定的;
分别基于各所述第 一向量与 所述预设字符关系权重矩阵, 确定所述多个第 一文本数据
中每两个字符 之间的字符关系向量。
6.根据权利要求5所述的方法, 其特征在于, 所述对所述多个第 一文本数据进行特征提
取, 得到所述多个第一文本数据中各字符的语义特 征向量, 包括:
对所述多个第一文本数据进行编码, 得到第一矩阵;
将所述第一矩阵输入预设自注意力 机制模块; 所述预设 自注意力 机制模块是基于初始
自注意力机制模块训练确定的;
获取所述预设 自注意力 机制模块输出的第 二矩阵; 所述第 二矩阵中包含所述多个第 一
文本数据中每 个字符对应的字符向量;
基于第二预设神经网络模型对所述第 二矩阵进行特征提取, 得到所述多个第 一文本数
据中各字符的语义特征向量; 所述第二预设神经网络模型是基于第二初始神经网络模型进
行训练确定的; 所述初始神经网络包括线性神经网络或多层感知机 。
7.根据权利要求6所述的方法, 其特征在于, 所述对所述多个第一文本数据进行编码,
得到第一矩阵, 包括:
基于预设位置编码矩阵, 对所述多个第一文本数据进行位置编码得到第三矩阵; 所述
预设位置编码矩阵是对初始位置编码矩阵训练确定的;
基于预设语义编码矩阵, 对所述多个第一文本数据进行语义编码得到第 四矩阵; 所述
预设语义编码矩阵是对初始语义编码矩阵训练确定的;
对所述第三矩阵和所述第四矩阵进行矩阵运 算, 得到所述第一矩阵。
8.根据权利要求1 ‑4中任一项所述的方法, 其特征在于, 所述获取多个第一文本数据,权 利 要 求 书 2/3 页
3
CN 115496039 A
3
专利 一种词语提取方法及计算机设备
文档预览
中文文档
39 页
50 下载
1000 浏览
0 评论
0 收藏
3.0分
温馨提示:本文档共39页,可预览 3 页,如浏览全部内容或当前文档出现乱码,可开通会员下载原始文档
本文档由 SC 于 2024-02-18 22:23:46上传分享