(19)国家知识产权局
(12)发明 专利申请
(10)申请公布号
(43)申请公布日
(21)申请 号 202211478845.2
(22)申请日 2022.11.24
(71)申请人 闪捷信息科技有限公司
地址 311100 浙江省杭州市余杭区五常街
道文一西路9 98号9幢101室
(72)发明人 张黎 陈广辉 穆新宇 程树华
(74)专利代理 机构 北京超凡宏宇专利代理事务
所(特殊普通 合伙) 11463
专利代理师 何明伦
(51)Int.Cl.
G06F 16/335(2019.01)
G06F 16/35(2019.01)
G06F 40/194(2020.01)
G06F 40/279(2020.01)
G06F 40/30(2020.01)G06N 3/04(2006.01)
G06N 3/08(2006.01)
(54)发明名称
文本类敏感信息识别方法、 装置、 电子设备
和存储介质
(57)摘要
本发明提供一种文本类敏感信息识别方法、
装置、 电子设备和存储介质, 其中方法包括: 对候
选识别文本集合中的各个候选识别文本进行聚
类, 得到各个文本类集合, 并基于各个文本类集
合中各个候选识别文本的文本特征, 确定进行敏
感信息识别的待识别文本类集合; 对任一待识别
文本的待识别句进行语义信息提取, 得到待识别
句的句语义向量 以及待识别句中每一分词的词
语义向量; 任一分词的词语义向量是基于对应分
词的预训练词向量 以及待识别句的句语义向量
确定得到的; 结合待识别句的句语义向量以及待
识别句中每一分词的词语义向量, 识别待识别句
中的敏感信息以及敏感信息的描述信息。 本发明
提升了海量数据的敏感数据识别效率 以及敏感
信息的识别率。
权利要求书3页 说明书13页 附图3页
CN 115544240 A
2022.12.30
CN 115544240 A
1.一种文本类敏感信息识别方法, 其特 征在于, 包括:
对候选识别文本集合中的各个候选识别文本进行聚类, 得到各个文本类集合, 并基于
各个文本类集合中各个候选识别文本的文本特征, 确定进 行敏感信息识别的待识别文本类
集合;
针对所述待识别文本类集合中的任一待识别文本进行句切分, 得到所述任一待识别文
本的待识别句;
基于敏感信 息识别模型中的语义信 息提取层, 对所述任一待识别文本的待识别句进行
语义信息提取, 得到所述待识别句的句语义向量以及所述待识别句中每一分词的词语义向
量; 任一分词的词语义向量是基于对应分词的预训练词向量以及所述待识别句的句语义向
量确定得到的;
基于所述敏感信 息识别模型中的敏感实体识别层, 结合所述待识别句的句语义向量以
及所述待识别句中每一分词的词语义向量, 识别所述待识别句中的敏感信息以及所述敏感
信息的描述信息 。
2.根据权利要求1所述的文本类敏感信 息识别方法, 其特征在于, 所述基于敏感信 息识
别模型中的语义信息提取层, 对所述任一待识别文本的待识别句进行语义信息提取, 得到
所述待识别句的句语义向量以及所述待识别句中每一分词的词语义向量, 具体包括:
基于所述语义信 息提取层中的第 一双向长短时记忆网络, 对所述任一待识别文本的待
识别句进行语义 提取, 得到所述待识别句的句语义向量;
将所述待识别句中各个分词的预训练词向量分别与所述待识别句的句语义向量进行
融合, 得到所述待识别句中各个分词的融合向量;
基于所述语义信息提取层中的第二双向长短时记忆网络对所述待识别句中各个分词
的融合向量进行语义 提取, 得到所述待识别句中每一分词的词语义向量。
3.根据权利要求2所述的文本类敏感信 息识别方法, 其特征在于, 所述基于所述语义信
息提取层中的第一双向长短时记忆网络, 对所述任一待识别文本的待识别句进行语义提
取, 得到所述待识别句的句语义向量, 具体包括:
基于所述第 一双向长短时记忆网络, 对所述任一待识别文本的待识别句中各个分词的
预训练词向量进行语义 提取, 得到所述待识别句中各个分词的上 下文词向量;
确定所述待识别句中任一分词的上下文词向量与各类敏感信息对应标签的标签向量
之间的相似度, 并将最大相似度作为所述任一分词的权 重;
基于所述待识别句中各个分词的上下文词向量与 各个分词的权重, 确定所述待识别句
的句语义向量。
4.根据权利要求1所述的文本类敏感信 息识别方法, 其特征在于, 所述基于所述敏感信
息识别模型中的敏感实体识别 层, 结合所述待识别句的句语义向量以及所述待识别句中每
一分词的词语义向量, 识别所述待识别句中的敏感信息以及所述敏感信息的描述信息, 具
体包括:
获取与所述待识别句属于同一文档且 包含所述待识别句的有效分词的参 考识别句;
基于敏感信息识别模型中的语义信息提取层, 对所述参考识别句进行语义信息提取,
得到所述 参考识别句的句语义向量以及所述 参考识别句中各个分词的词语义向量;
基于所述参考识别句的句语义向量和所述待识别句的句语义向量之间的相似度, 融合权 利 要 求 书 1/3 页
2
CN 115544240 A
2所述参考识别句和所述待识别句中相同分词的词语义向量, 得到所述相同分词的融合向
量;
基于所述敏感信 息识别模型中的敏感实体识别层, 结合所述待识别句中所述相同分词
的融合向量和其余分词的词语义向量, 识别所述待识别句中的敏感信息以及所述敏感信息
的描述信息 。
5.根据权利要求1所述的文本类敏感信 息识别方法, 其特征在于, 所述基于各个文本类
集合中各个候选识别文本的文本特征, 确定进行敏感信息识别的待识别文本类集合, 具体
包括:
对所述各个文本类集合中的候选识别文本分别进行随机抽 样, 得到所述各个文本类集
合的抽样文本;
基于所述各个文本类集合的抽 样文本的文本特征, 确定进行敏感信 息识别的待识别文
本类集合。
6.根据权利要求5所述的文本类敏感信 息识别方法, 其特征在于, 所述基于所述各个文
本类集合的抽样文本的文本特 征, 确定进行 敏感信息识别的待识别文本类集 合, 具体包括:
获取各类敏感信 息对应的样本文本集合, 并提取各类敏感信 息对应的样本文本集合中
各个样本文本的文本特 征;
确定任一文本类集合的抽样文本的文本特征与任一类敏感信息对应的样本文本集合
中各个样本文本的文本特征之 间的相似度, 并将最大相似度作为所述任一文本类集合与所
述任一类敏感信息之间的匹配程度;
若所述任一文本类集合与至少一类敏感信 息之间的匹配程度大于预设阈值, 则将所述
任一文本类集 合作为待识别文本类集 合。
7.根据权利要求1至6任一项所述的文本类敏感信息识别方法, 其特征在于, 所述敏感
信息识别模型 是基于如下步骤训练得到的:
基于所述敏感信息识别模型对各类敏感信息对应的样本文本集合中的样本文本进行
敏感信息识别, 得到所述样本文本的敏感信息识别结果;
基于所述样本文本的敏感信 息识别结果以及所述样本文本 中的敏感信 息的标签, 计算
所述样本文本对应的交叉熵损失和合页损失;
基于所述样本文本对应的交叉熵损失和合页损失, 调整所述敏感信息识别模型的参
数。
8.一种文本类敏感信息识别装置, 其特 征在于, 包括:
文本筛选单元, 用于对候选识别文本集合中的各个候选识别文本进行聚类, 得到各个
文本类集合, 并基于各个文本类集合中各个候选识别文本的文本特征, 确定进行敏感信息
识别的待识别文本类集 合;
文本切分单元, 用于针对所述待识别文本类集合中的任一待识别文本进行句切分, 得
到所述任一待识别文本的待识别句;
语义信息提取单元, 用于基于敏感信息识别模型中的语义信息提取层, 对所述任一待
识别文本的待识别句进行语义信息提取, 得到所述待识别句的句语义向量以及所述待识别
句中每一分词的词语义向量; 任一分词的词语义向量是基于对应分词的预训练词向量以及
所述待识别句的句语义向量确定得到的;权 利 要 求 书 2/3 页
3
CN 115544240 A
3
专利 文本类敏感信息识别方法、装置、电子设备和存储介质
文档预览
中文文档
20 页
50 下载
1000 浏览
0 评论
0 收藏
3.0分
温馨提示:本文档共20页,可预览 3 页,如浏览全部内容或当前文档出现乱码,可开通会员下载原始文档
本文档由 SC 于 2024-02-18 22:23:44上传分享