专利一种词语提取方法及计算机设备 -在线下载 -pdf文件-bbs.720life.cn

(19)国家知识产权局 (12)发明专利申请 (10)申请公布号 (43)申请公布日 (21)申请号 202211439921.9 (22)申请日 2022.11.17 (71)申请人荣耀终端有限公司地址 518040 广东省深圳市福田区香蜜湖街道东海社区红荔西路8089号深业中城6号楼A单元3401 (72)发明人李胜超　曹熠炜　汤泳　卢志超　余强　 (74)专利代理机构北京中博世达专利商标代理有限公司 1 1274 专利代理师申健 (51)Int.Cl. G06F 40/126(2020.01) G06F 40/279(2020.01) G06F 40/30(2020.01)G06N 3/04(2006.01) G06N 3/08(2006.01) (54)发明名称一种词语提取方法及计算机设备 (57)摘要本申请提供一种词语提取方法及计算机设备，应用于文本处理领域；用于解决提取的候选词语不准确，进而导致利用这些候选词语无法达到舆情监控、分析产品发展趋势等目的问题。该方法应用于计算机设备，包括：获取与目标对象关联的多个第一文本数据。基于第一预设神经网络模型提取多个第一文本数据中每两个字符之间的字符关系向量;其中，字符关系向量用于表征两个字符之间的字符关系类型。根据得到的字符关系向量，查找多个第一文本数据中包含的属性词语和观点词语，并确定每个属性词语和每个观点词语之间的词语关系类型。若词语关系类型表征第一属性词语和第一观点词语属于同一个候选词语，则组合第一属性词语和第一观点词语，得到第一候选词语。权利要求书3页说明书22页附图13页 CN 115496039 A 2022.12.20 CN 115496039 A 1.一种词语提取方法，其特征在于，所述方法应用计算机设备，所述方法包括：获取多个第一文本数据；所述多个第一文本数据与目标对象关联；基于第一预设神经网络模型提取所述多个第一文本数据中每两个字符之间的字符关系向量;其中，所述字符关系向量用于表征两个字符之间的字符关系类型，所述字符关系类型包括以下四种：所述两个字符属于同一属性词语，所述两个字符属于同一观点词语，所述两个字符中的一个字符属于属性词语、另一个字符属于观点词语、且所述两个字符属于同一个候选词语，所述两个字符之间的关系不属于以上三种关系类型；所述第一预设神经网络模型是基于第一初始神经网络模型训练确定的；根据得到的字符关系向量，查找所述多个第一文本数据中包含的属性词语和观点词语，并确定每个属性词语和每个观点词语之间的词语关系类型；其中，所述词语关系类型用于表征对应属性词语和观点词语是否属于同一个候选词语；在词语关系类型表征第一属性词语和第一观点词语属于同一个候选词语时，组合所述第一属性词语和所述第一观点词语，得到与所述目标对象关联的第一候选词语；其中，所述第一属性词语为所述多个第一文本数据中的任一个属性词语，所述第一观点词语为所述多个第一文本数据中的任一个观点词语。 2.根据权利要求1所述的方法，其特征在于，所述根据得到的字符关系向量，查找所述多个第一文本数据中包含的属性词语和观点词语，并确定每个属性词语和每个观点词语之间的词语关系类型，包括：生成目标字对网格，所述目标字对网格包括n行n列， n为所述多个第一文本数据中的字符的个数，每行对应所述多个第一文本数据中的一个字符，每列对应所述多个第一文本数据中的一个字符；将字符关系向量rij填充至所述目标字对网格的第i行第j列；其中，所述字符关系向量 rij是所述多个第一文本数据中第i个字符与第j个字符之间的字符关系向量； i和j在{1, 2，……， n}中取值；根据填充了所述字符关系向量rij的目标字对网格，确定每个属性词语和每个观点词语之间的词语关系类型。 3.根据权利要求2 所述的方法，其特征在于，所述根据填充了所述字符关系向量rij的目标字对网格，确定每个属性词语和每个观点词语之间的词语关系类型，包括：将填充了所述字符关系向量rij的目标字对网格中、所述字符关系类型均为第一字符关系类型的相邻字符拼接，得到所述属性词语；所述第一字符关系类型用于指示两个字符属于同一属性词语；将填充了所述字符关系向量rij的目标字对网格中、所述字符关系类型均为第二字符关系类型的连续相邻字符拼接，得到所述观点词语；所述第二字符关系类型用于指示两个字符属于同一观点词语；根据所述目标字对网格中、第二属性词语包含的每个字符与第二观点词语包含的每个字符之间的字符关系类型，确定所述第二属性词语和所述第二观点词语之间的词语关系类型；其中，所述第二属性词语为所述目标字对网格中的任一个属性词语，所述第二观点词语为所述目标字对网格中的任一个观点词语。权　利　要　求　书 1/3 页 2 CN 115496039 A 24.根据权利要求3所述的方法，其特征在于，所述根据所述目标字对网格中、第二属性词语包含的每个字符与第二观点词语包含的每个字符之间的字符关系类型，确定所述第二属性词语和所述第二观点词语之间的词语关系类型，包括：在所述第二属性词语与所述第二观点词语分别所包含的字符之间的字符关系类型为第三字符关系类型的数量大于预设数量阈值时，确定所述第二属性词语和所述第二观点词语之间的词语关系类型属于同一候选词语；所述第三字符关系类型用于指示两个字符中的一个字符属于属性词语、另一个字符属于观点词语、且所述两个字符属于同一个候选词语；在所述第二属性词语与所述第二观点词语分别所包含的字符之间的字符关系类型为第三字符关系类型的数量小于或者等于所述预设数量阈值时，确定所述第二属性词语和所述第一观点词语之间的词语关系类型不属于同一候选词语。 5.根据权利要求1 ‑4中任一项所述的方法，其特征在于，所述基于第一预设神经网络模型提取所述多个第一文本数据中每两个字符之间的字符关系向量，包括：对所述多个第一文本数据进行特征提取，得到所述多个第一文本数据中各字符的语义特征向量；其中，所述语义特征向量用于表征各字符在所述多个第一文本数据中的词语含义；分别对所述多个第一文本数据中任意两个字符的语义特征向量进行向量运算，得到所述多个第一文本数据中的每两个字符对应的第一向量；获取预设字符关系权重矩阵；所述预设字符关系权重矩阵是基于初始字符关系权重矩阵经过训练确定的；分别基于各所述第一向量与所述预设字符关系权重矩阵，确定所述多个第一文本数据中每两个字符之间的字符关系向量。 6.根据权利要求5所述的方法，其特征在于，所述对所述多个第一文本数据进行特征提取，得到所述多个第一文本数据中各字符的语义特征向量，包括：对所述多个第一文本数据进行编码，得到第一矩阵；将所述第一矩阵输入预设自注意力机制模块；所述预设自注意力机制模块是基于初始自注意力机制模块训练确定的；获取所述预设自注意力机制模块输出的第二矩阵；所述第二矩阵中包含所述多个第一文本数据中每个字符对应的字符向量；基于第二预设神经网络模型对所述第二矩阵进行特征提取，得到所述多个第一文本数据中各字符的语义特征向量；所述第二预设神经网络模型是基于第二初始神经网络模型进行训练确定的；所述初始神经网络包括线性神经网络或多层感知机。 7.根据权利要求6所述的方法，其特征在于，所述对所述多个第一文本数据进行编码，得到第一矩阵，包括：基于预设位置编码矩阵，对所述多个第一文本数据进行位置编码得到第三矩阵；所述预设位置编码矩阵是对初始位置编码矩阵训练确定的；基于预设语义编码矩阵，对所述多个第一文本数据进行语义编码得到第四矩阵；所述预设语义编码矩阵是对初始语义编码矩阵训练确定的；对所述第三矩阵和所述第四矩阵进行矩阵运算，得到所述第一矩阵。 8.根据权利要求1 ‑4中任一项所述的方法，其特征在于，所述获取多个第一文本数据，权　利　要　求　书 2/3 页 3 CN 115496039 A 3

专利 一种词语提取方法及计算机设备

专利一种词语提取方法及计算机设备