(19)国家知识产权局
(12)发明 专利申请
(10)申请公布号
(43)申请公布日
(21)申请 号 202211409735.0
(22)申请日 2022.11.11
(71)申请人 中国电子科技 集团公司第十五研究
所
地址 100083 北京市海淀区北四环中路21 1
号
(72)发明人 岳一峰 张昊 任祥辉
(74)专利代理 机构 北京惟专知识产权代理事务
所(普通合伙) 16074
专利代理师 赵星
(51)Int.Cl.
G06F 16/35(2019.01)
G06F 16/34(2019.01)
G06F 40/30(2020.01)
G06F 40/289(2020.01)G06F 40/216(2020.01)
G06F 40/242(2020.01)
G06N 3/04(2006.01)
G06N 3/08(2006.01)
(54)发明名称
一种基于小样本学习的情 报信息压缩系统
(57)摘要
本发明涉及一种基于小样本学习的情报信
息压缩系统, 属于自然语言处理技术领域, 该系
统包括用于获取自动文本摘要模型的离线训练
模块、 用于生成主题摘要的异步处理模块以及用
于为用户提供交互服务的在 线服务模块。 本申请
提供的系统构建基于小样本学习的自动文本摘
要模型对文本内容进行概括, 加快了对情报报文
的阅读速度; 同时, 从主题、 事件、 文档、 词语四个
层级进行语义关联分析, 在保留了各主题信息的
层次性的同时, 避免深度学习技术大规模数据集
的限制, 通过分级聚类的方法对报文进行归纳与
总结, 从篇数上大幅减少了情报工作者的阅读
量, 可在实现信息压缩的同时, 尽可能的减少军
事数据领域数据集标注成本及难度高的问题。
权利要求书3页 说明书8页 附图7页
CN 115525764 A
2022.12.27
CN 115525764 A
1.一种基于小样本学习的情 报信息压缩系统, 其特 征在于, 所述系统包括:
离线训练模块, 用于获取部分本地数据库中的情报数据并对其标注, 将标注结果分为
训练集和测试集, 对训练集进行预处理, 通过引入了Bert预训练模型的Word Embedding层
对预处理的结果进 行向量化处理, 并将向量化处理结果作为输入, 对Bi ‑LSTM神经网络训练
得到自动文本摘要模型, 通过自动文本摘要模型对经过预处理的测试集进行处理生成摘
要, 并通过ROUGE对生 成的摘要进行评估, 重复以上步骤直到得到符合条件的自动文本摘要
模型;
异步处理模块, 用于通过对自动文本摘要模型本地数据库中的情报数据对应的原始报
文进行相关处理提取原始报文对应的主题信息, 根据提取的主题信息提取原始报文对应的
事件信息, 根据提取 的事件信息获取原始报文对应的标题信息, 并通过相似度计算将新的
主题信息与已有的主题信息进 行整合, 通过相似度计算将新的事件信息与已有的事件信息
进行整合, 以及通过自动文本摘要模型根据经过整合的事件信息生成事件摘要, 根据经过
整合的主题信息 以及生成的事件摘要生成主题摘要, 将生成的主题摘要存储至本地数据
库;
在线服务模块, 用于通过UI界面为用户提供主题摘要信息, 并接受用户发送的反馈信
息。
2.根据权利要求1所述的基于小样本学习的情报信 息压缩系统, 其特征在于, 所述对训
练集进行预处理包括去除训练集文本中的停用 词、 表情, 并去除文本中质量评分低于预设
评分的语句, 得到文本集 合, 并对文本集 合进行分字处 理。
3.根据权利要求1所述的基于小样本学习的情报信 息压缩系统, 其特征在于, 所述将向
量化处理结果作为输入, 对Bi ‑LSTM神经网络训练得到自动文本摘要模型包括: 构建Bi ‑
LSTM神经网络, 通过 向量化处理结果分别对Bi ‑LSTM编码器和Bi ‑LSTM解码器进行训练, 得
到自动文本摘要模型。
4.根据权利要求1所述的基于小样本学习的情报信 息压缩系统, 其特征在于, 所述通过
对本地数据库中的情报数据对应的原始报文进行相关处理提取原始报文对应的主题信息
包括:
对本地数据库中的情报数据对应的原始报文进行数据预处理, 以篇为单位对每篇报文
进行词频的筛 选与统计;
提取每篇报文的所属主题, 将所属主题对应的报文作为主题事件, 并获取每篇报文的
词语向量;
通过CGS算法获取LDA主题模型的相应参数, 并得到主题 ‑报文之间的关联矩阵和每篇
报文中词语的分布 矩阵;
对各个主题事件采用K ‑means聚类算法进行主题事件的聚类获取主题聚类, 统计各主
题对应的词语的词频, 根据统计结果获得 各主题的关键词。
5.根据权利要求4所述的基于小样本学习的情报信 息压缩系统, 其特征在于, 所述根据
提取的主题信息提取原 始报文对应的事 件信息包括:
对主题事件进行分词处理, 对分词处理结果进行词性标注, 筛选出主题事件中的动词、
名词、 事件词以及量词作为主题事 件的词典;
通过计算词典中各词的TF ‑IDF值抽取 各主题事 件的关键词;权 利 要 求 书 1/3 页
2
CN 115525764 A
2对主题事件向量化处理, 对每个主题事件下的各事件集进行聚类处理, 并通过主题事
件的关键词对聚类结果进行描述。
6.根据权利要求5所述的基于小样本学习的情报信 息压缩系统, 其特征在于, 所述根据
提取的事 件信息获取原 始报文对应的标题信息包括:
对各主题事件进行划分获取多个子分组, 将各子分组中的关键词按照词频进行排序,
根据排序结果获取 各子分组中的关键高频词;
根据关键高频词对各子分组的主旨句进行 预选, 获取句子候选集 合;
通过Text Rank算法对句子候选集合中的句子进行打分, 将打分结果作 为句子候选集合
中各句子的权 重, 根据得到 权重获取各子分组对应的标题信息 。
7.根据权利要求4所述的基于小样本学习的情报信 息压缩系统, 其特征在于, 所述通过
相似度计算将新的主题信息与已有的主题信息进行整合包括:
对新入库的报文进行聚类, 获取包括主题、 类 中心向量与主题关键词的新的主题信 息,
通过第一 Jaccard相似度计算 公式计算新的主题信息中的主题关键词 与提取的主题信息中
的主题关键词的重合度;
将重合度与重合度阈值进行比较, 在重合度小于等于重合度阈值时, 过滤掉对应的提
取的主题信息;
在重合度 大于重合度阈值 时, 通过第 一余弦相似度计算公式计算新的主题信 息中的类
中心向量与提取的主题信息中主题聚类的类中心向量之间的余弦相似度;
将余弦相似度与余弦相似度阈值进行比较, 在余弦相似度小于等于余弦相似度阈值
时, 过滤掉对应的提取的主题信息;
在余弦相似度大于余弦相似度阈值时, 将对应的提取的主题信息记录在候选集中;
选择候选集中余弦相似度与重合度最高的主题作为最匹配的主题与新的主题信息进
行主题信息整合, 并重新计算整合的主题信息的类中心向量, 并进行事 件信息整合;
在候选集 为空时, 将新的主题信息作为 新的主题存 入至对应的主题集 合。
8.根据权利要求5所述的基于小样本学习的情报信 息压缩系统, 其特征在于, 通过相似
度计算将新的事 件信息与已有的事 件信息进行整合包括:
通过新入库的报文获取包括事件关键词、 事件的类中心向量的新的事件信息, 通过第
二Jaccard相似度计算公式计算新的事件信息中的关键词与提取的事件信息中的关键词的
重合度;
将重合度与重合度阈值进行比较, 在重合度小于等于重合度阈值时, 过滤掉对应的提
取的事件信息;
在Jaccard相似度大于Jaccard相似度阈值时, 通过第二余弦相似度计算公式计算新的
事件信息中的类中心向量与提取的事 件信息中的类中心向量之间的余弦相似度;
将余弦相似度与余弦相似度阈值进行比较, 在余弦相似度小于等于余弦相似度阈值
时, 过滤掉对应的提取的事 件信息;
在余弦相似度大于余弦相似度阈值时, 将对应的提取的事 件信息记录在候选集中;
选择候选集中余弦相似度与Jaccard相似度最高的事件作为最匹配的事件与新的事件
信息进行事件信息整合, 并重新生成事件的标题与类中心向量, 更新事件的关键词与主题
层的关联关系, 将两事 件关联的报文 进行合并;权 利 要 求 书 2/3 页
3
CN 115525764 A
3
专利 一种基于小样本学习的情报信息压缩系统
文档预览
中文文档
19 页
50 下载
1000 浏览
0 评论
0 收藏
3.0分
温馨提示:本文档共19页,可预览 3 页,如浏览全部内容或当前文档出现乱码,可开通会员下载原始文档
本文档由 SC 于 2024-02-18 22:23:49上传分享