国家标准网
文库搜索
切换导航
首页
频道
仅15元无限下载
联系我们
首页
仅15元无限下载
联系我们
批量下载
(19)国家知识产权局 (12)发明 专利申请 (10)申请公布号 (43)申请公布日 (21)申请 号 202211398068.0 (22)申请日 2022.11.09 (71)申请人 东南大学 地址 210096 江苏省南京市玄武区四牌楼 2 号 (72)发明人 曹玖新 贾疏桐 曹碧薇 高庆清 刘波 (74)专利代理 机构 南京众联专利代理有限公司 32206 专利代理师 杜静静 (51)Int.Cl. G06F 16/36(2019.01) G06F 16/332(2019.01) G06F 16/35(2019.01) G06F 40/30(2020.01)G06N 3/04(2006.01) G06N 3/08(2006.01) (54)发明名称 一种基于自然语言问答的知识图谱三元组 显著性评估方法 (57)摘要 本发明公开了一种基于自然语言问答的知 识图谱三元组显著性评估方法, 其步骤为: 首先 对于给定的知识图谱三元组, 提取其所包含的关 系; 然后根据预先设置的不同关系类型所对应的 问句生成模板将该三元组转化为自然语言问句 的形式; 基于所生成的问句序列, 可将原始的知 识图谱三元组显著性评估任务转化为自然语言 问答任务, 然后通过本发明所提出的方法进一步 微调已有的大型预训练语言模型, 最终输出对知 识图谱三元 组显著性评估结果。 该方法在不借助 于任何外部知识库和图表示学习的情况下显著 提高了知识图谱三元组显著性评估的准确率。 权利要求书1页 说明书3页 附图2页 CN 115525777 A 2022.12.27 CN 115525777 A 1.一种基于自然语言问答的知识图谱三元组显著性评估方法, 其特征在于, 根据不同 的关系类型设置特定的问句生成模板从而将其转化为自然语言问答任务, 然后通过微调大 规模预训练语言模型评估知识图谱三元组的显著性, 包括如下步骤: 1)对于给定带有真实标签(即标明知识图谱三元组是否显著)的知识图谱三元组集合, 提取该集合中所包 含的关系类别; 2)根据步骤1)提取到的关系集合, 并根据不同关系设置特定的问句生成模板, 模板主 要形式有两种分别为 “[T]头实体[T]关系[T]尾实体[T] ”和“[T]头实体[T]尾实体[T]关系 [T]”, 其中“[T]”为触发词或提示词, 具体数量和形式根据关系的实际类型来决定, 从而将 原始的知识图谱三元组显著性评估 任务转化为自然语言问答任务; 3)基于步骤2)得到的特定于关系的问句模板, 重新构建原有的知识图谱三元组集合, 即将原始的知识图谱三元组结构<头实体, 关系, 尾实体>通过问句生成模板转化为自然语 言问句的形式, 从而得到一个新的自然语言问句序列集 合; 4)基于步骤3)生成的自然语言问句序列集合, 对大规模预训练语言模型进行微调, 最 终输出对知识图谱三元组显著性的评估结果。 2.根据权利要求1所述的一种基于自然语言问答的知识图谱三元组显著性评估方法, 其特征在于, 所述步骤1)中关系提取的具体方法为: 根据知识图谱的三元组格式, 提取原始 的知识图谱三元组所含有的关系类别。 3.根据权利要求1所述的一种基于自然语言问答的知识图谱三元组显著性评估方法, 其特征在于, 所述步骤2)中任务转化的具体方法为: 根据提取到的三元组关系类别生成不 含重复元 素的三元组关系集 合, 并根据不同关系设置特定的问句生成模板 。 4.根据权利要求1所述的一种基于自然语言问答的知识图谱三元组显著性评估方法其 特征在于, 所述步骤3)中自然语言问句序列集合构建的具体方法为将原始的知识图谱三元 组结构通过问句生成模板转 化为自然语言问句的形式。 5.根据权利要求1所述的一种基于自然语言问答的知识图谱三元组显著性评估方法, 其特征在于, 所述步骤4)中根据所生成的自然语言问句序列, 对大规模预训练语言模型进 行微调, 最终输出知识图谱三元组显著性的评估结果。权 利 要 求 书 1/1 页 2 CN 115525777 A 2一种基于自然语言问答的知识图谱三元组显著性评估方 法 技术领域 [0001]本发明涉及到自然语言处 理领域中知识图谱三元组显著性的评估方法。 背景技术 [0002]如今大规模知识库(知识图谱)的构建为许多人工智能任务的研究提供了重要支 持。 但随着互联网信息技术的迅猛发展, 从海量的原始数据提取到的知识图谱三元组往往 存在不完整性问题。 知识图谱的完整性问题主要包括包含两个方面: 知识图谱三元组的显 著性评估和链路预测。 其中知识图谱三元组的显著 性评估主要目的是判断提取到三元组是 否符合常理, 可以有效地减少人工筛选成本, 极大地降低现有 大规模知识库的噪声 水平, 具 有重要的现实意 义。 [0003]目前现有的研究方法高度依赖于外部知识库重新训练语言模型或者基于现有数 据集构建知识图谱来完成该任务。 然而, 一方面, 外部知识库的构建需要大量的人力和时 间, 而且由于人为主观因素 的存在, 很难判断现有知识库的噪声水平。 另一方面, 在利用现 有的数据集构建知识图谱时, 往往难以处理不同领域之 间所存在的知识差异 性问题。 此外, 基于外部知识库从头训练模型所要花费的设备成本和时间也很昂贵。 而像Tr ansE、 TransH 和RotateE此类模 型, 虽未借助于外部知识库, 但 其仅仅依赖于知识图谱三元 组的结构相似 性来评估知识图谱三元组的显著性水平, 存在一定的局限性。 因此如何充分挖掘现有大型 预训练语言模型所蕴含的丰富的通用知识来弥补不同领域之间的差异, 是一个亟待解决的 问题。 发明内容 [0004]本发明所要解决的技术问题是: 提供一种可以评估知识图谱三元组显著性水平的 一种基于自然语言问答的知识图谱三元组显著性评估方法。 [0005]为解决上述技术问题, 本发明采用的技术方案为: 一种基于自然语言问答的知识 图谱三元组显著 性评估方法, 利用提示学习的思想通过特定问句生成将该任务转换为自然 语言问答任务, 从而 充分挖掘蕴含于大 型预训练语言模型的隐式知识, 包括如下步骤: [0006]1)根据知识图谱三元组的特有结构提取知识图谱三元组所包 含的关系; [0007]2)根据步骤1)提取到的关系组成不含重复元素的关系集合, 根据不同关系设置特 定的问句生成模板, 从而将原始的知识图谱三元 组显著性评估任务转化为自然语言问答任 务; [0008]3)根据步骤2)的问句生成模板, 重新构建原有的知识图谱三元组集合, 即将原始 的知识图谱三元组格式转化为自然语言问句的形式, 从而得到一个新的自然语言问句序列 集合; [0009]4)基于步骤3)得到的自然语言问句序列集合, 对大规模预训练语言模型进行微 调, 最终输出其对原知识图谱三元组的显著性的评估结果。 [0010]所述步骤1)的检测和提取知识图谱三元组的关系具体方法为: 针对给定的原始知说 明 书 1/3 页 3 CN 115525777 A 3
专利 一种基于自然语言问答的知识图谱三元组显著性评估方法
文档预览
中文文档
7 页
50 下载
1000 浏览
0 评论
0 收藏
3.0分
赞助2.5元下载(无需注册)
温馨提示:本文档共7页,可预览 3 页,如浏览全部内容或当前文档出现乱码,可开通会员下载原始文档
下载文档到电脑,方便使用
赞助2.5元下载
本文档由 SC 于
2024-02-18 22:23:51
上传分享
举报
下载
原文档
(412.4 KB)
分享
友情链接
民航 MH-T 6050-2009 行李处理系统 带式输送机.pdf
DB13-T 5387-2021 水库库容曲线修测及特征值复核 修正技术导则 河北省.pdf
DB34-T 5037-2022 船闸工程施工安全检查标准 安徽省.pdf
TTAF 077.6-2020 APP收集使用个人信息最小必要评估规范 软件列表.pdf
GB-T 42201-2022 智能制造 工业大数据时间序列数据采集与存储管理.pdf
悬镜SDL-DevSecOps安全开发建设v6.pdf
GB-T 16945-2009 电子工业用气体 氩.pdf
艾瑞咨询 中国医疗信息化行业研究报告 2022.pdf
T-CCCTA 0040—2023 3PE耐蚀钢制管件.pdf
GB-T 28181-2011 安全防范视频监控联网系统信息传输、交换、控制技术要求.pdf
DB13-T 5372-2021 社会工作服务项目监测与 评估规范 河北省.pdf
DB52-T 1636.3-2021 机关事务云 第3部分:国有资产(房地产)管理数据 贵州省.pdf
T-CSAE 194—2021 汽车外饰件用PVD 涂层技术条件.pdf
MZ-T 157-2020 手动移位车.pdf
GB-T 30976.2-2014 工业控制系统信息安全 第2部分:验收规范.pdf
GB-T 36950-2018 信息安全技术 智能卡安全技术要求(EAL4+).pdf
GB-T 33565-2024 网络安全技术 无线局域网接入系统安全技术要求.pdf
GB-T 11835-2016 绝热用岩棉、矿渣棉及其制品.pdf
火绒安全 2021终端安全情报年鉴.pdf
GB-T 30558-2014 产业用纺织品分类.pdf
1
/
7
评价文档
赞助2.5元 点击下载(412.4 KB)
回到顶部
×
微信扫码支付
2.5
元 自动下载
点击进入官方售后微信群
支付 完成后 如未跳转 点击这里下载
站内资源均来自网友分享或网络收集整理,若无意中侵犯到您的权利,敬请联系我们
微信(点击查看客服)
,我们将及时删除相关资源。