(19)国家知识产权局 (12)发明 专利申请 (10)申请公布号 (43)申请公布日 (21)申请 号 202211281783.6 (22)申请日 2022.10.19 (71)申请人 北京医院 地址 100730 北京市东城区东单 大华路1号 (72)发明人 肖飞 李畅 李贺鑫 邹丽辉  汤小琨 许思源 张丽丽 孙高远  李亦菲 张兰馨  (74)专利代理 机构 北京集佳知识产权代理有限 公司 11227 专利代理师 刘翠香 (51)Int.Cl. G16B 20/20(2019.01) G16B 20/50(2019.01) G16B 15/00(2019.01) G16B 30/00(2019.01)G16B 40/20(2019.01) G06K 9/62(2022.01) G06N 3/04(2006.01) G06N 3/08(2006.01) (54)发明名称 基于卷积神经网络的变异临床效应分析识 别方法及设备 (57)摘要 本申请提出了一种基于卷积神经网络的变 异临床效应分析识别方法及设备, 通过对任意变 体即目标样 本的突变信息进行处理, 生成目标结 构域变异后的氨 基酸序列后, 据此预测对应的蛋 白质三级结构, 构建对应的氨基酸相互作用网 络, 提取目标样本的三维数据矩阵, 输入包含多 个基于卷积神经网络对训练样本集包含的数据 平衡的正负样本进行训练所得到的基分类器的 分类模型, 可以准确得到针对该目标样本的多个 致病性预测概率, 从而根据最可靠致病性预测概 率, 实现对目标样本的可靠分类识别, 据此实现 变异临床效应分析识别。 权利要求书3页 说明书16页 附图11页 CN 115482879 A 2022.12.16 CN 115482879 A 1.一种基于卷积神经网络的变异临床效应分析识别方法, 其特 征在于, 所述方法包括: 获得目标样本的突变信息; 对所述突变信息进行处 理, 生成目标 结构域变异后的氨基酸序列; 将所述氨基酸序列输入蛋白质结构预测模型, 预测对应的蛋白质三级结构; 基于所述蛋白质三级结构, 构建氨基酸相互作用网络; 对所述氨基酸相互作用网络的网络信息进行转 化处理, 得到三维数据矩阵; 将所述三维数据矩阵输入分类模型进行致病性识别, 得到针对所述目标样本的多个致 病性预测 概率; 其中, 所述分类模型包括多个基于卷积神经网络对训练样本集包含的正负 样本进行训练得到的基分类 器; 所述训练样本集包 含的正样本数量与负 样本数量平衡; 基于所述多个致病性预测概 率的比较结果, 获得 所述目标样本的变异分类结果。 2.根据权利要求1所述的方法, 其特征在于, 所述基于卷积神经网络对训练样本集包含 的正负样本进行训练得到的基分类 器, 包括: 获得初始样本集; 基于预处理模型, 剔除所述初始样本集的干扰样本, 得到候选训练样本集和测试样本 集; 所述预处理模型基于卷积神经网络训练得到, 所述干扰样本包括困难样 本和/或分类错 误样本; 所述测试样本集用于实现训练的所述分类模型的准确性验证; 基于所述候选训练样本集包含的第 一类样本数量, 对所述候选训练样本集包含的第 二 类样本进行随机下采样, 得到用于训练基分类器的训练样本集; 所述训练样本集包含的正 负样本数量相同; 基于交叉熵损失函数, 利用所述训练样本集包含的正负样本对初始卷积神经网络进行 训练学习, 得到多个 基分类器。 3.根据权利要求1所述的方法, 其特征在于, 所述对所述突变信息进行处理, 生成目标 结构域变异后的氨基酸序列, 包括: 提取所述突变信息中的原 氨基酸、 替换氨基酸以及氨基酸变异位 点; 将三氨基酸表示的所述原氨基酸和所述替换氨基酸, 转化为单氨基酸表示的原氨基酸 和替换氨基酸; 检测到所述氨基酸变异位点位于目标结构域, 利用所述单氨基酸表示的原氨基酸和替 换氨基酸, 生成所述目标 结构域变异后的氨基酸序列。 4.根据权利要求1 ‑3任一项所述的方法, 其特征在于, 所述基于所述蛋白质三级结构, 构建氨基酸相互作用网络, 包括: 获得所述蛋白质三级结构中的原子三维坐标信息; 基于所述原子三维坐标信 息, 对所述蛋白质三级结构中蛋白质分子的氨基酸残基之间 的多种相互作用进行量 化分析, 构建氨基酸相互作用网络; 其中, 所述氨基酸相互作用网络属于无向加权网络, 构成所述无向加权网络的节点表 示所述氨基酸残基, 连接不同所述节点之 间的边可以表示对应氨基酸残基之间的非共价相 互作用。 5.根据权利要求1 ‑3任一项所述的方法, 其特征在于, 所述对所述氨基酸相互作用网络 的网络信息进行转 化处理, 得到三维数据矩阵, 包括: 获得所述氨基酸相互作用网络 中氨基酸残基之间的多种相互作用, 以及所述相互作用权 利 要 求 书 1/3 页 2 CN 115482879 A 2包含的子类相互作用; 提取所述多种相互作用和所述子类相互作用各自的强度, 确定为氨基酸二维矩阵对应 通道的元素值, 构成三维数据矩阵; 所述氨基酸二维矩阵由所述氨基酸相互作用网络中不 同位置处的氨基酸构成。 6.根据权利要求1 ‑3任一项所述的方法, 其特征在于, 所述将所述三维数据矩阵输入分 类模型进行致病性识别, 得到针对所述目标样本的多个致病性预测概 率, 包括: 将所述三维数据矩阵转换为 三维张量; 将所述三维张量输入多个基分类器前向传播, 分别对所述目标样本进行致病性识别, 得到对应的致病性预测概 率; 所述基于所述多个致病性预测概率的比较结果, 获得所述目标样本的致病性分类结 果, 包括: 将得到的针对所述目标样本的多个所述 致病性预测概 率进行比较; 利用比较确定的满足预测要求的所述致病性预测概率, 得到所述目标样本的致病性分 类结果。 7.根据权利要求2所述的方法, 其特征在于, 所述初始卷积神经网络包括残差神经网络 ResNet‑18; 所述蛋白质预测模型基于AlphaFo ld2训练得到; 所述困难样本和所述分类错误样本是指所述预处理模型的变异样本识别错误且具有 极端识别分数的样本; 所述极端识别分数是指大于第一分数阈值或小于第二分数阈值的识 别分数; 所述候选训练样本集中的第一类样本为正样本, 第二类样本为负样本, 且所述正负样 本是依据已知临床信息, 对具有属于目标 结构域的氨基酸序列的变异样本分类确定; 在所述基分类 器训练过程中, 检测到所统计的训练迭代次数达 到预设次数停止训练。 8.一种基于卷积神经网络的变异临床效应分析识别装置, 其特 征在于, 所述装置包括: 突变信息获得模块, 用于获得目标样本的突变信息; 氨基酸序列生成模块, 用于对所述突变信息进行处理, 生成目标结构域变异后的氨基 酸序列; 蛋白质结构预测模块, 用于将所述氨基酸序列输入蛋白质结构预测模型, 预测对应的 蛋白质三级结构; 氨基酸相互作用网络构建模块, 用于基于所述蛋白质三级结构, 构建氨基酸相互作用 网络; 三维数据矩阵获得模块, 用于对所述氨基酸相互作用网络的网络信息进行转化处理, 得到三维数据矩阵; 致病性识别模块, 用于将所述三维数据矩阵输入分类模型进行致病性识别, 得到针对 所述目标样本的多个致病性预测概率; 其中, 所述分类模型包括多个基于卷积神经网络对 训练样本集包含的正负样本进 行训练得到的基分类器; 所述训练样本集包含的正样本数量 与负样本数量平衡; 变异分类结果获得模块, 用于基于所述多个致病性预测概率的比较结果, 获得所述目 标样本的变异分类结果。 9.一种计算机设备, 其特 征在于, 所述计算机设备包括:权 利 要 求 书 2/3 页 3 CN 115482879 A 3

PDF文档 专利 基于卷积神经网络的变异临床效应分析识别方法及设备

文档预览
中文文档 31 页 50 下载 1000 浏览 0 评论 0 收藏 3.0分
温馨提示:本文档共31页,可预览 3 页,如浏览全部内容或当前文档出现乱码,可开通会员下载原始文档
专利 基于卷积神经网络的变异临床效应分析识别方法及设备 第 1 页 专利 基于卷积神经网络的变异临床效应分析识别方法及设备 第 2 页 专利 基于卷积神经网络的变异临床效应分析识别方法及设备 第 3 页
下载文档到电脑,方便使用
本文档由 SC 于 2024-02-18 22:24:26上传分享
站内资源均来自网友分享或网络收集整理,若无意中侵犯到您的权利,敬请联系我们微信(点击查看客服),我们将及时删除相关资源。