(19)国家知识产权局 (12)发明 专利申请 (10)申请公布号 (43)申请公布日 (21)申请 号 202211283079.4 (22)申请日 2022.10.20 (71)申请人 国网天津市电力公司培训中心 地址 300181 天津市河东区中山门二 号路6 号 申请人 天津天源电力工程有限公司   天津市城西广源电力工程有限公司   天津市宁河区宁东盛 源电力工程有 限公司  国网天津市电力公司   国家电网有限公司 (72)发明人 孟庆霖 穆健 戴斐斐 赵宝国  王霞 崔霞 宋岩 葛晓舰  吕元旭 赵战云 唐厚燕 王瑞  许良 徐业朝 徐晓萱 马剑  李常春 郭保伟 李婧 (74)专利代理 机构 北京知联天下知识产权代理 事务所(普通 合伙) 11594 专利代理师 张迎新 (51)Int.Cl. G06F 16/35(2019.01) G06F 16/36(2019.01) G06F 40/284(2020.01) G06N 3/04(2006.01) G06Q 50/06(2012.01) (54)发明名称 基于改进BERT模型的电力审计文本分类方 法及装置 (57)摘要 本发明公开一种基于改进BERT模型的电力 审计文本分类方法及装置, 其中分类方法包括: 获取电力文本; 构建EPAT ‑BERT模型; 将电力文本 输入EPAT ‑BERT模型进行预训练, 获得预训练后 的EPAT‑BERT模型; 其中, 预训练包括 分别进行字 粒度掩码语言模型训练和实体粒度的掩码语言 模型训练; 对预训练后的EPAT ‑BERT模型进行微 调后开展性能评价, 确定文本分类EPAT ‑BERT模 型; 将待分类的电力审计文本输入文本分类 EPAT‑BERT模型, 输 出电力审计文本的类别标签。 本发明提出的两种预训练任务, 以大规模电力文 本作为训练语料, 把握电力文本中的词法、 语法 以及相关知识, 实现电力审计文本的高效自动分 类。 权利要求书4页 说明书11页 附图3页 CN 115357719 A 2022.11.18 CN 115357719 A 1.一种基于改进BERT模型的电力审计文本分类方法, 其特 征在于, 包括以下步骤: 获取电力文本; 构建EPAT ‑BERT模型, 其中, EPAT ‑BERT模型包括字粒度掩码语言模型和实体粒度的掩 码语言模型; 将电力文本输入EPAT ‑BERT模型进行预训练, 获得预训练后的EPAT ‑BERT模型; 其中, 预 训练包括分别进行字粒度掩码语言模型训练和实体粒度的掩码语言模型训练; 对预训练后的EPAT ‑BERT模型进行微调后开展性能评价, 确定文本分类EPAT ‑BERT模 型; 将待分类的电力审计文本输入文本分类EPAT ‑BERT模型, 输出电力审计文本的类别标 签。 2.根据权利要求1所述的基于改进BERT模型的电力审计文本分类方法, 其特征在于, 获 取电力文本具体为: 将电力领域的专业词 汇整理为词 表V, 在Web数据集中搜索包含词 表V中词汇的网页, 获 得集合W; 使用基于正则表达式的抽取算法, 抽取集 合W中的文本, 获得 预训练语料库C 。 3.根据权利要求2所述的基于改进BERT模型的电力审计文本分类方法, 其特征在于, 进 行字粒度掩码语言模型 预训练具体如下: 标示预训练语料库C中每 个字对应的位置 输入向量, 获得向量 化的输入文本; 通过字粒度码语言模型对向量化的输入文本 中的句子前后添加标识符, 进行句子分割 获得数据集A; 将数据集A按照设定比例划分为预训练数据集和第一验证集; 将预训练数据集和第一验证集分别输入字粒度掩码语言模型进行分类预训练。 4.根据权利要求3所述的基于改进BERT模型的电力审计文本分类方法, 其特征在于, 进 行实体粒度的掩码语言模型 预训练具体如下: 引入电力相关的知识图谱标记出 预训练数据集和第一验证集中包 含的实体; 实体粒度的掩码语言模型将对应实体中的每个字替换为掩码标记, 每个掩码标记位置 对应一个隐含层向量, 通过 连接一个全连接层, 预测每 个掩码标记对应位置的字; 采用损失函数衡量预测值和真实值之间的差异, 使用预训练数据集对实体粒度的掩码 语言模型预训练达到设定训练轮次后, 在第一验证集上计算损失函数值, 当损失函数值不 再下降时, 停止实体粒度的掩码语言模型 预训练。 5.根据权利要求1所述的基于改进BERT模型的电力审计文本分类方法, 其特征在于, 对 预训练后的EPAT ‑BERT模型进行微调, 具体如下: 抽取一定量电力审计文本形成数据集, 采用字的向量表示、 字的位置编码以及字的分 段标示数据集中的每 个字, 获得向量 化文本T; 采用设定比例将向量 化文本T划分为微调数据集、 第二验证集和 测试集; EPAT‑BERT模型在向量化文本 T的开头加入一个特殊标记, 将特殊标记输出位置的向量 作为整个输入文本的向量表示; 在EAPT‑BERT上层 添加一个全连接层, 添加全连接层后的EPAT ‑BERT模型在微调数据集 的每个训练轮次后在验证集上计算F1值, 当验证集上的F1值出现下降时, 停止训练, 完成权 利 要 求 书 1/4 页 2 CN 115357719 A 2EPAT‑BERT模型的微调。 6.根据权利要求5所述的基于改进BERT模型的电力审计文本分类方法, 其特征在于, 对 微调后的EPAT ‑BERT模型开展性能评价, 确定文本分类EPAT ‑BERT模型 具体如下: 计算微调后的EPAT ‑BERT模型在测试集下的分类准确度; 比对EPAT ‑BERT模型和其他预训练语言模型在测试集下的各类评价指标, 若比对结果 符合设定要求, 即确定训练好的EPAT ‑BERT模型为文本分类EPAT ‑BERT模型, 其中, 各类评价 指标包括分类准确度。 7.根据权利要求3所述的基于改进BERT模型的电力审计文本分类方法, 其特征在于, 将 预训练数据集和第一验证集分别输入字粒度掩码语言模型进行分类预训练具体如下: 字粒度掩码语言模型将预训练数据集的每个句子中的汉字随机按照设定比例进行掩 码, 通过掩码位置对应的输出向量预测被掩码的汉字, 采用损失函数衡量预测值和真实值 之间的差异, 使用预训练数据集对字粒度掩码语言模型预训练达到设定训练轮次后, 在第 一验证集上计算损失函数值, 当损失函数值 不再下降时, 停止 字粒度掩码语言模型 预训练。 8.根据权利 要求3、 4或7任一所述的基于改进BERT模型的电力审计文本分类方法, 其特 征在于, 标示预训练语料库C中每 个字对应的位置 输入向量具体如下: 采用字的向量、 字的绝对位置编码和分段编码, 标示每个字 w对应的位置输入向量V w, 具体如下: 式中, Ww表示字的向量, 即字的初始词向量, 用来区分不同汉字; Pw表示字的位置, 使用 绝对位置编码, 来向输入数据中 融入序列位置信息; Sw表示分段编码。 9.根据权利要求6所述的基于改进BERT模型的电力审计文本分类方法, 其特征在于, 还 包括以下步骤: 对文本分类EPAT ‑BERT模型进行消融实验, 通过各类评价指标评价实验 结果 确定预训练效果。 10.根据权利要求6或9所述的基于改进BERT模型的电力审计文本分类方法, 其特征在 于, 各类评价指标还 包括精准 率、 召回率和F1值。 11.根据权利要求5所述的基于改进BERT模型的电力审计文本分类方法, 其特征在于, F1值根据EPAT ‑BERT模型在验证集上的精准 率和召回率确定 。 12.根据权利要求4所述的基于改进BERT模型的电力审计文本分类方法, 其特征在于, 实体部分为与电力领域的专业词汇 表以及语法分析工具包中相近或相同的词汇、 语法。 13.一种基于改进BERT模型的电力审计文本分类装置, 其特 征在于, 包括: 文本处理模块, 用于获取电力文本; 模型构建模块, 用于构建EPAT ‑BERT模型, 其中, EPAT ‑BERT模型包括字粒度掩码语言模 型和实体粒度的掩码语言模型; 模型预训 练模块, 用于将电力文本输入EPAT ‑BERT模型进行预训练, 获得预训 练后的 EPAT‑BERT模型; 其中, 预训练包括分别进 行字粒度掩码语 言模型训练和实体粒度的掩码语 言模型训练; 模型微调模块, 用于对预训练后的EPAT ‑BERT模型进行微调后开展性能评价, 确定文本 分类EPAT ‑BERT模型;权 利 要 求 书 2/4 页 3 CN 115357719 A 3

PDF文档 专利 基于改进BERT模型的电力审计文本分类方法及装置

文档预览
中文文档 19 页 50 下载 1000 浏览 0 评论 0 收藏 3.0分
温馨提示:本文档共19页,可预览 3 页,如浏览全部内容或当前文档出现乱码,可开通会员下载原始文档
专利 基于改进BERT模型的电力审计文本分类方法及装置 第 1 页 专利 基于改进BERT模型的电力审计文本分类方法及装置 第 2 页 专利 基于改进BERT模型的电力审计文本分类方法及装置 第 3 页
下载文档到电脑,方便使用
本文档由 SC 于 2024-02-18 22:24:25上传分享
友情链接
站内资源均来自网友分享或网络收集整理,若无意中侵犯到您的权利,敬请联系我们微信(点击查看客服),我们将及时删除相关资源。