(19)国家知识产权局 (12)发明 专利申请 (10)申请公布号 (43)申请公布日 (21)申请 号 202211398068.0 (22)申请日 2022.11.09 (71)申请人 东南大学 地址 210096 江苏省南京市玄武区四牌楼 2 号 (72)发明人 曹玖新 贾疏桐 曹碧薇 高庆清  刘波  (74)专利代理 机构 南京众联专利代理有限公司 32206 专利代理师 杜静静 (51)Int.Cl. G06F 16/36(2019.01) G06F 16/332(2019.01) G06F 16/35(2019.01) G06F 40/30(2020.01)G06N 3/04(2006.01) G06N 3/08(2006.01) (54)发明名称 一种基于自然语言问答的知识图谱三元组 显著性评估方法 (57)摘要 本发明公开了一种基于自然语言问答的知 识图谱三元组显著性评估方法, 其步骤为: 首先 对于给定的知识图谱三元组, 提取其所包含的关 系; 然后根据预先设置的不同关系类型所对应的 问句生成模板将该三元组转化为自然语言问句 的形式; 基于所生成的问句序列, 可将原始的知 识图谱三元组显著性评估任务转化为自然语言 问答任务, 然后通过本发明所提出的方法进一步 微调已有的大型预训练语言模型, 最终输出对知 识图谱三元 组显著性评估结果。 该方法在不借助 于任何外部知识库和图表示学习的情况下显著 提高了知识图谱三元组显著性评估的准确率。 权利要求书1页 说明书3页 附图2页 CN 115525777 A 2022.12.27 CN 115525777 A 1.一种基于自然语言问答的知识图谱三元组显著性评估方法, 其特征在于, 根据不同 的关系类型设置特定的问句生成模板从而将其转化为自然语言问答任务, 然后通过微调大 规模预训练语言模型评估知识图谱三元组的显著性, 包括如下步骤: 1)对于给定带有真实标签(即标明知识图谱三元组是否显著)的知识图谱三元组集合, 提取该集合中所包 含的关系类别; 2)根据步骤1)提取到的关系集合, 并根据不同关系设置特定的问句生成模板, 模板主 要形式有两种分别为 “[T]头实体[T]关系[T]尾实体[T] ”和“[T]头实体[T]尾实体[T]关系 [T]”, 其中“[T]”为触发词或提示词, 具体数量和形式根据关系的实际类型来决定, 从而将 原始的知识图谱三元组显著性评估 任务转化为自然语言问答任务; 3)基于步骤2)得到的特定于关系的问句模板, 重新构建原有的知识图谱三元组集合, 即将原始的知识图谱三元组结构<头实体, 关系, 尾实体>通过问句生成模板转化为自然语 言问句的形式, 从而得到一个新的自然语言问句序列集 合; 4)基于步骤3)生成的自然语言问句序列集合, 对大规模预训练语言模型进行微调, 最 终输出对知识图谱三元组显著性的评估结果。 2.根据权利要求1所述的一种基于自然语言问答的知识图谱三元组显著性评估方法, 其特征在于, 所述步骤1)中关系提取的具体方法为: 根据知识图谱的三元组格式, 提取原始 的知识图谱三元组所含有的关系类别。 3.根据权利要求1所述的一种基于自然语言问答的知识图谱三元组显著性评估方法, 其特征在于, 所述步骤2)中任务转化的具体方法为: 根据提取到的三元组关系类别生成不 含重复元 素的三元组关系集 合, 并根据不同关系设置特定的问句生成模板 。 4.根据权利要求1所述的一种基于自然语言问答的知识图谱三元组显著性评估方法其 特征在于, 所述步骤3)中自然语言问句序列集合构建的具体方法为将原始的知识图谱三元 组结构通过问句生成模板转 化为自然语言问句的形式。 5.根据权利要求1所述的一种基于自然语言问答的知识图谱三元组显著性评估方法, 其特征在于, 所述步骤4)中根据所生成的自然语言问句序列, 对大规模预训练语言模型进 行微调, 最终输出知识图谱三元组显著性的评估结果。权 利 要 求 书 1/1 页 2 CN 115525777 A 2一种基于自然语言问答的知识图谱三元组显著性评估方 法 技术领域 [0001]本发明涉及到自然语言处 理领域中知识图谱三元组显著性的评估方法。 背景技术 [0002]如今大规模知识库(知识图谱)的构建为许多人工智能任务的研究提供了重要支 持。 但随着互联网信息技术的迅猛发展, 从海量的原始数据提取到的知识图谱三元组往往 存在不完整性问题。 知识图谱的完整性问题主要包括包含两个方面: 知识图谱三元组的显 著性评估和链路预测。 其中知识图谱三元组的显著 性评估主要目的是判断提取到三元组是 否符合常理, 可以有效地减少人工筛选成本, 极大地降低现有 大规模知识库的噪声 水平, 具 有重要的现实意 义。 [0003]目前现有的研究方法高度依赖于外部知识库重新训练语言模型或者基于现有数 据集构建知识图谱来完成该任务。 然而, 一方面, 外部知识库的构建需要大量的人力和时 间, 而且由于人为主观因素 的存在, 很难判断现有知识库的噪声水平。 另一方面, 在利用现 有的数据集构建知识图谱时, 往往难以处理不同领域之 间所存在的知识差异 性问题。 此外, 基于外部知识库从头训练模型所要花费的设备成本和时间也很昂贵。 而像Tr ansE、 TransH 和RotateE此类模 型, 虽未借助于外部知识库, 但 其仅仅依赖于知识图谱三元 组的结构相似 性来评估知识图谱三元组的显著性水平, 存在一定的局限性。 因此如何充分挖掘现有大型 预训练语言模型所蕴含的丰富的通用知识来弥补不同领域之间的差异, 是一个亟待解决的 问题。 发明内容 [0004]本发明所要解决的技术问题是: 提供一种可以评估知识图谱三元组显著性水平的 一种基于自然语言问答的知识图谱三元组显著性评估方法。 [0005]为解决上述技术问题, 本发明采用的技术方案为: 一种基于自然语言问答的知识 图谱三元组显著 性评估方法, 利用提示学习的思想通过特定问句生成将该任务转换为自然 语言问答任务, 从而 充分挖掘蕴含于大 型预训练语言模型的隐式知识, 包括如下步骤: [0006]1)根据知识图谱三元组的特有结构提取知识图谱三元组所包 含的关系; [0007]2)根据步骤1)提取到的关系组成不含重复元素的关系集合, 根据不同关系设置特 定的问句生成模板, 从而将原始的知识图谱三元 组显著性评估任务转化为自然语言问答任 务; [0008]3)根据步骤2)的问句生成模板, 重新构建原有的知识图谱三元组集合, 即将原始 的知识图谱三元组格式转化为自然语言问句的形式, 从而得到一个新的自然语言问句序列 集合; [0009]4)基于步骤3)得到的自然语言问句序列集合, 对大规模预训练语言模型进行微 调, 最终输出其对原知识图谱三元组的显著性的评估结果。 [0010]所述步骤1)的检测和提取知识图谱三元组的关系具体方法为: 针对给定的原始知说 明 书 1/3 页 3 CN 115525777 A 3

PDF文档 专利 一种基于自然语言问答的知识图谱三元组显著性评估方法

文档预览
中文文档 7 页 50 下载 1000 浏览 0 评论 0 收藏 3.0分
温馨提示:本文档共7页,可预览 3 页,如浏览全部内容或当前文档出现乱码,可开通会员下载原始文档
专利 一种基于自然语言问答的知识图谱三元组显著性评估方法 第 1 页 专利 一种基于自然语言问答的知识图谱三元组显著性评估方法 第 2 页 专利 一种基于自然语言问答的知识图谱三元组显著性评估方法 第 3 页
下载文档到电脑,方便使用
本文档由 SC 于 2024-02-18 22:23:51上传分享
站内资源均来自网友分享或网络收集整理,若无意中侵犯到您的权利,敬请联系我们微信(点击查看客服),我们将及时删除相关资源。