专利一种基于小样本学习的情报信息压缩系统 -在线下载 -pdf文件-bbs.720life.cn

(19)国家知识产权局 (12)发明专利申请 (10)申请公布号 (43)申请公布日 (21)申请号 202211409735.0 (22)申请日 2022.11.11 (71)申请人中国电子科技集团公司第十五研究所地址 100083 北京市海淀区北四环中路21 1 号 (72)发明人岳一峰　张昊　任祥辉　 (74)专利代理机构北京惟专知识产权代理事务所(普通合伙) 16074 专利代理师赵星 (51)Int.Cl. G06F 16/35(2019.01) G06F 16/34(2019.01) G06F 40/30(2020.01) G06F 40/289(2020.01)G06F 40/216(2020.01) G06F 40/242(2020.01) G06N 3/04(2006.01) G06N 3/08(2006.01) (54)发明名称一种基于小样本学习的情报信息压缩系统 (57)摘要本发明涉及一种基于小样本学习的情报信息压缩系统，属于自然语言处理技术领域，该系统包括用于获取自动文本摘要模型的离线训练模块、用于生成主题摘要的异步处理模块以及用于为用户提供交互服务的在线服务模块。本申请提供的系统构建基于小样本学习的自动文本摘要模型对文本内容进行概括，加快了对情报报文的阅读速度；同时，从主题、事件、文档、词语四个层级进行语义关联分析，在保留了各主题信息的层次性的同时，避免深度学习技术大规模数据集的限制，通过分级聚类的方法对报文进行归纳与总结，从篇数上大幅减少了情报工作者的阅读量，可在实现信息压缩的同时，尽可能的减少军事数据领域数据集标注成本及难度高的问题。权利要求书3页说明书8页附图7页 CN 115525764 A 2022.12.27 CN 115525764 A 1.一种基于小样本学习的情报信息压缩系统，其特征在于，所述系统包括：离线训练模块，用于获取部分本地数据库中的情报数据并对其标注，将标注结果分为训练集和测试集，对训练集进行预处理，通过引入了Bert预训练模型的Word Embedding层对预处理的结果进行向量化处理，并将向量化处理结果作为输入，对Bi ‑LSTM神经网络训练得到自动文本摘要模型，通过自动文本摘要模型对经过预处理的测试集进行处理生成摘要，并通过ROUGE对生成的摘要进行评估，重复以上步骤直到得到符合条件的自动文本摘要模型；异步处理模块，用于通过对自动文本摘要模型本地数据库中的情报数据对应的原始报文进行相关处理提取原始报文对应的主题信息，根据提取的主题信息提取原始报文对应的事件信息，根据提取的事件信息获取原始报文对应的标题信息，并通过相似度计算将新的主题信息与已有的主题信息进行整合，通过相似度计算将新的事件信息与已有的事件信息进行整合，以及通过自动文本摘要模型根据经过整合的事件信息生成事件摘要，根据经过整合的主题信息以及生成的事件摘要生成主题摘要，将生成的主题摘要存储至本地数据库；在线服务模块，用于通过UI界面为用户提供主题摘要信息，并接受用户发送的反馈信息。 2.根据权利要求1所述的基于小样本学习的情报信息压缩系统，其特征在于，所述对训练集进行预处理包括去除训练集文本中的停用词、表情，并去除文本中质量评分低于预设评分的语句，得到文本集合，并对文本集合进行分字处理。 3.根据权利要求1所述的基于小样本学习的情报信息压缩系统，其特征在于，所述将向量化处理结果作为输入，对Bi ‑LSTM神经网络训练得到自动文本摘要模型包括：构建Bi ‑ LSTM神经网络，通过向量化处理结果分别对Bi ‑LSTM编码器和Bi ‑LSTM解码器进行训练，得到自动文本摘要模型。 4.根据权利要求1所述的基于小样本学习的情报信息压缩系统，其特征在于，所述通过对本地数据库中的情报数据对应的原始报文进行相关处理提取原始报文对应的主题信息包括：对本地数据库中的情报数据对应的原始报文进行数据预处理，以篇为单位对每篇报文进行词频的筛选与统计；提取每篇报文的所属主题，将所属主题对应的报文作为主题事件，并获取每篇报文的词语向量；通过CGS算法获取LDA主题模型的相应参数，并得到主题 ‑报文之间的关联矩阵和每篇报文中词语的分布矩阵；对各个主题事件采用K ‑means聚类算法进行主题事件的聚类获取主题聚类，统计各主题对应的词语的词频，根据统计结果获得各主题的关键词。 5.根据权利要求4所述的基于小样本学习的情报信息压缩系统，其特征在于，所述根据提取的主题信息提取原始报文对应的事件信息包括：对主题事件进行分词处理，对分词处理结果进行词性标注，筛选出主题事件中的动词、名词、事件词以及量词作为主题事件的词典；通过计算词典中各词的TF ‑IDF值抽取各主题事件的关键词；权　利　要　求　书 1/3 页 2 CN 115525764 A 2对主题事件向量化处理，对每个主题事件下的各事件集进行聚类处理，并通过主题事件的关键词对聚类结果进行描述。 6.根据权利要求5所述的基于小样本学习的情报信息压缩系统，其特征在于，所述根据提取的事件信息获取原始报文对应的标题信息包括：对各主题事件进行划分获取多个子分组，将各子分组中的关键词按照词频进行排序，根据排序结果获取各子分组中的关键高频词；根据关键高频词对各子分组的主旨句进行预选，获取句子候选集合；通过Text Rank算法对句子候选集合中的句子进行打分，将打分结果作为句子候选集合中各句子的权重，根据得到权重获取各子分组对应的标题信息。 7.根据权利要求4所述的基于小样本学习的情报信息压缩系统，其特征在于，所述通过相似度计算将新的主题信息与已有的主题信息进行整合包括：对新入库的报文进行聚类，获取包括主题、类中心向量与主题关键词的新的主题信息，通过第一 Jaccard相似度计算公式计算新的主题信息中的主题关键词与提取的主题信息中的主题关键词的重合度；将重合度与重合度阈值进行比较，在重合度小于等于重合度阈值时，过滤掉对应的提取的主题信息；在重合度大于重合度阈值时，通过第一余弦相似度计算公式计算新的主题信息中的类中心向量与提取的主题信息中主题聚类的类中心向量之间的余弦相似度; 将余弦相似度与余弦相似度阈值进行比较，在余弦相似度小于等于余弦相似度阈值时，过滤掉对应的提取的主题信息；在余弦相似度大于余弦相似度阈值时，将对应的提取的主题信息记录在候选集中；选择候选集中余弦相似度与重合度最高的主题作为最匹配的主题与新的主题信息进行主题信息整合，并重新计算整合的主题信息的类中心向量，并进行事件信息整合；在候选集为空时，将新的主题信息作为新的主题存入至对应的主题集合。 8.根据权利要求5所述的基于小样本学习的情报信息压缩系统，其特征在于，通过相似度计算将新的事件信息与已有的事件信息进行整合包括：通过新入库的报文获取包括事件关键词、事件的类中心向量的新的事件信息，通过第二Jaccard相似度计算公式计算新的事件信息中的关键词与提取的事件信息中的关键词的重合度；将重合度与重合度阈值进行比较，在重合度小于等于重合度阈值时，过滤掉对应的提取的事件信息；在Jaccard相似度大于Jaccard相似度阈值时，通过第二余弦相似度计算公式计算新的事件信息中的类中心向量与提取的事件信息中的类中心向量之间的余弦相似度; 将余弦相似度与余弦相似度阈值进行比较，在余弦相似度小于等于余弦相似度阈值时，过滤掉对应的提取的事件信息；在余弦相似度大于余弦相似度阈值时，将对应的提取的事件信息记录在候选集中；选择候选集中余弦相似度与Jaccard相似度最高的事件作为最匹配的事件与新的事件信息进行事件信息整合，并重新生成事件的标题与类中心向量，更新事件的关键词与主题层的关联关系，将两事件关联的报文进行合并；权　利　要　求　书 2/3 页 3 CN 115525764 A 3

专利 一种基于小样本学习的情报信息压缩系统

专利一种基于小样本学习的情报信息压缩系统