国家标准网
文库搜索
切换导航
首页
频道
仅15元无限下载
联系我们
首页
仅15元无限下载
联系我们
批量下载
(19)国家知识产权局 (12)发明 专利申请 (10)申请公布号 (43)申请公布日 (21)申请 号 202211283553.3 (22)申请日 2022.10.20 (71)申请人 暨南大学 地址 510632 广东省广州市黄埔大道西6 01 号 (72)发明人 黄斐然 刘文骁 支庭荣 (74)专利代理 机构 广州汇盈知识产权代理事务 所(普通合伙) 44603 专利代理师 邓有才 (51)Int.Cl. G06F 16/35(2019.01) G06N 3/04(2006.01) G06F 16/31(2019.01) G06F 40/30(2020.01) (54)发明名称 基于BERT的多 任务新闻分类方法及装置 (57)摘要 本发明实施例涉及 文本分类技术领域, 公开 了一种基于BERT的多任务新闻分类方法, 包括: 获取新闻的原始文本数据; 将所述原始文本数据 进行数据清洗; 将所述待分类文本信息输入编码 层, 得到所述原始文本数据的特征向量; 将所述 特征向量输入注意力层; 将所述特征向量与超参 数作点乘, 得到注意力层输出结果; 将所述注意 力层输出结果输入前馈神经网络层进行归一化 处理, 得到各类新闻文本的独有特征向量; 将所 述独有特征向量进行联合学习, 得到各类新闻任 务的联合损失函数结果; 根据联合损失函数结果 输出新闻分类结果。 本发明通过BERT模型对新闻 文本数据进行处理, 采用多任务新闻分类任务进 行联合训练, 提高新闻分类的准确度和适用性。 权利要求书2页 说明书7页 附图4页 CN 115357720 A 2022.11.18 CN 115357720 A 1.一种基于BERT的多任务 新闻分类方法, 其特 征在于, 包括: 获取新闻的原 始文本数据; 将所述原 始文本数据进行 数据清洗, 得到待分类文本信息; 将所述待分类文本信息 输入编码层, 得到所述原 始文本数据的特 征向量; 将所述特征向量输入注意力层; 将所述特征向量与超参数作点乘, 得到注意力层输出 结果; 将所述注意力层输出结果输入前馈神经网络层进行归一化处理, 得到各类新闻文本的 独有特征向量; 将所述独有特 征向量进行 联合学习, 得到各类新闻任务的联合损失函数 结果; 根据联合损失函数 结果输出新闻分类结果。 2.如权利要求1所述的基于BERT的多任务新闻分类方法, 其特征在于: 所述将所述原始 文本数据进行 数据清洗, 包括: 将所述原 始文本数据拆分成若干条长度小于预设值的子文本; 将长度小于预设值的所述原 始文本数据利用特殊符号进行补齐; 将所述原 始文本数据中的特殊字符和标签元 素进行去除; 将所述原 始文本数据中的表情符号 转换成相应的中文释义。 3.如权利要求1所述的基于BERT的多任务新闻分类方法, 其特征在于: 所述将所述特征 向量与所述超参数作点乘, 得到注意力层输出 结果, 包括: 将所述特 征向量与超参数进行点乘运 算, 生成向量 Query、 向量K ey和向量Value; 将所述向量 Query、 向量K ey和向量Value输入注意力函数, 得到Value相似度的权 重; 注意力函数表示如下: , 其中T表示矩阵的转置操作, 表示矩阵向量的维度, Q表示向量Query, K表示向量Key, V表示向量Value。 4.如权利要求1所述的基于BERT的多任务新闻分类方法, 其特征在于: 所述将所述注意 力层输出结果输入前馈神经网络层进行归一化处理, 得到各类新闻文本的独有特征向量, 包括: 将所述注意力层输出 结果利用L2范 数进行归一 化处理; 通过残差模块缓解网络退化, 更新浅层网络参数, 得到 输入结果; 将所述输入结果 集成到语义特 征向量中; 获取所述语义特征向量中的信 息, 将其中的新闻文本类别和对应种类的新闻文本语料 进行下游微调, 得到各类新闻文本的独有特 征向量。 5.如权利要求4所述的基于BERT的多任务新闻分类方法, 其特征在于: 所述新闻文本类 别包括: 动态新闻类、 典型新闻类、 综合 新闻类和述评新闻类。 6.如权利要求1所述的基于BERT的多任务 新闻分类方法, 其特 征在于: 还 包括: 对带遮罩的语言任务进行 预训练; 对次句预测任务进行 预训练;权 利 要 求 书 1/2 页 2 CN 115357720 A 2所述对带遮罩的语言任务进行 预训练, 包括: 在BERT模型中将样本序列中以15%的概率随机遮蔽一些原有符号, 并将所述原有符号 分别以80%、 10%和10%的概 率替换成特殊标记、 随机标记和原有符号; 将多头自注意力机制层里的向量矩阵进行混淆; 所述对次句预测任务进行 预训练, 包括: 输入新闻文本句子对 (第一句子,第二句子) , 将第二句子以预设概率替换成语料库中 的其他子句, 其 余的保持不变; 通过语义特征向量输出一个全局特征表示标签, 判断第 二句子是否是第 一句子的下一 句。 7.如权利要求1所述的基于BERT的多任务新闻分类方法, 其特征在于: 所述根据 联合损 失函数结果输出新闻分类结果, 包括: 设定一个损失阈值; 判断所述联合损失函数结果是否超过所述损失阈值; 若是, 则继续迭代, 重新计算联合 损失函数 结果; 若否, 输出新闻分类结果。 8.一种基于BERT的多任务 新闻分类方法的装置, 其特 征在于, 包括: 文本提取模块: 用于获取新闻的原 始文本数据; 文本清洗模块: 用于多原始文本数据进行清洗, 包括对长文本进行截断、 对短文本进行 补齐、 清除特殊字符以及将表情符号 转换成中文释义; 数据处理模块: 用于将已经进行数据清洗的文本数据通过BERT模型进行数据处理, 并 得到联合损失函数 结果; 分类判断模块: 用于根据联合损失函数 结果判断并输出新闻的类型。 9.一种电子设备, 其特征在于, 包括: 存储有可执行程序代码的存储器; 与所述存储器 耦合的处理器; 所述处理器调用所述存储器中存储的所述可执行程序代码, 用于执行权利 要求1至7任一项所述的基于BERT的多任务 新闻分类方法。 10.一种计算机可读存储介质, 其特征在于, 所述计算机可读存储介质存储计算机程 序, 其中, 所述计算机程序使得计算机执行权利要求1至7任一项所述的基于BERT的多任务 新闻分类方法。权 利 要 求 书 2/2 页 3 CN 115357720 A 3
专利 基于BERT的多任务新闻分类方法及装置
文档预览
中文文档
14 页
50 下载
1000 浏览
0 评论
0 收藏
3.0分
赞助2.5元下载(无需注册)
温馨提示:本文档共14页,可预览 3 页,如浏览全部内容或当前文档出现乱码,可开通会员下载原始文档
下载文档到电脑,方便使用
赞助2.5元下载
本文档由 SC 于
2024-02-18 22:24:23
上传分享
举报
下载
原文档
(950.7 KB)
分享
友情链接
GB-T 20277-2015 信息安全技术 网络和终端隔离产品测试评价方法.pdf
T-CNHAW 0011—2024 干眼诊疗中心分级建设要求.pdf
GB-T 37433-2019 低功率燃油燃烧器通用技术要求.pdf
GM-T 0003.4-2012 SM2椭圆曲线公钥密码算法第4部分:公钥加密算法.pdf
GB-T 8061-2022 杠杆千分尺.pdf
CSA 零信任安全理念.pdf
DB14-T 2989—2024 山西电子政务外网电子认证数字证书管理规范 山西省.pdf
GB-T 42456-2023 工业自动化和控制系统信息安全 IACS组件的安全技术要求 IEC 62443-4-2-2019.pdf
GB-T 31506-2015 信息安全技术 政府门户网站系统安全技术指南.pdf
DB33-T 2499-2022 气象地理分区 浙江省.pdf
GB-T 18305-2016 质量管理体系 汽车生产件及相关服务件组织应用GB-T 19001—2008的特别要求.pdf
GA-T 1980-2022 道路交通事故与违法地点表述规范.pdf
T-WCGH 002—2022 武夷岩茶冲泡品鉴茶具.pdf
DB1331-T 028-2022 公路工程施工质量保证资料标准化导则 雄安新区.pdf
GB-T 20239-2023 体育馆用木质地板.pdf
GB-T 34310-2017 运动竞赛场所基本术语.pdf
T-CSPSTC 78—2021 顶管法管道工程技术规程.pdf
T-CIECCPA 035—2023 浮选磷尾矿基生态修复基质土规范.pdf
GB-T 16903.2-2023 标志用图形符号表示规则 第2部分:公共信息图形符号的通用符号要素.pdf
GB-T 2261.1-2003 个人基本信息分类与代码 第1部分人的性别代码.pdf
1
/
14
评价文档
赞助2.5元 点击下载(950.7 KB)
回到顶部
×
微信扫码支付
2.5
元 自动下载
点击进入官方售后微信群
支付 完成后 如未跳转 点击这里下载
站内资源均来自网友分享或网络收集整理,若无意中侵犯到您的权利,敬请联系我们
微信(点击查看客服)
,我们将及时删除相关资源。