(19)国家知识产权局
(12)发明 专利申请
(10)申请公布号
(43)申请公布日
(21)申请 号 202211273721.0
(22)申请日 2022.10.18
(71)申请人 陕西欧拉数 学研究院有限公司
地址 710000 陕西省西安市雁塔区西安交
大博源科技广场C座四层413室
申请人 西安君能清洁能源 有限公司
(72)发明人 杨端 孙建永 薛江 韩志英
孙曼 王鑫 谭金鑫 谢国庆
石唯怡 徐代
(74)专利代理 机构 西安通大专利代理有限责任
公司 6120 0
专利代理师 高博
(51)Int.Cl.
G06V 20/40(2022.01)
G06N 3/04(2006.01)G06N 3/08(2006.01)
G06V 10/25(2022.01)
G06V 10/764(2022.01)
G06V 10/774(2022.01)
G06V 10/82(2022.01)
(54)发明名称
一种新能源电站用深度视频检测方法及系
统
(57)摘要
本发明公开了一种新能源电站用深度视频
检测方法及系统, 根据异常行为从AVA数据集中
获取数据构建异常行为数据集, 并对异常行为数
据集进行扩充与标注; 设计基于交互聚合结构的
AlphAction模型; 根据不同迭代步的损失函数调
节超参数, 利用异常行为数据集对基于交互聚合
结构的AlphA ction模型进行训练; 利用训练好的
基于交互聚合结构的AlphAction模型实现深度
视频检测; 本发 明能够及时有效的对新能源发电
站的8种异常行为进行检测和预警分析, 在提高
企业运行效率的同时降低了生产安全。
权利要求书2页 说明书12页 附图5页
CN 115546696 A
2022.12.30
CN 115546696 A
1.一种新能源电站用深度视频检测方法, 其特 征在于, 包括以下步骤:
S1、 对新能源电站的视频数据中的异常行为进行标注和扩充, 再与AVA数据集中的异常
行为数据合并构建异常行为数据集;
S2、 设计基于交互聚合结构的AlphAction模型, 用于提取视频中人 ‑人交互、 人 ‑物交互
和人‑物‑人交互;
S3、 根据不同迭代步的损失函数调节超参数, 利用步骤S1得到的异常行为数据集对步
骤S2得到的基于交 互聚合结构的AlphActi on模型进行训练;
S4、 利用步骤S3训练好的基于交 互聚合结构的AlphActi on模型实现深度视频检测。
2.根据权利要求1所述的新能源电站用深度视频检测方法, 其特征在于, 步骤S1中, 构
建异常行为数据集具体如下:
S1011、 对AVA数据 集中的类别进行编号, 生成包含80个动作类别的动作词汇表, 动作词
汇表中包括14个姿态类别, 49个人物交 互类别, 17个人与人交 互类别;
S1012、 筛选步骤S1011得到的动作词汇表中包含file和television, 且时长超过30分
钟的视频信息, 删掉 黑白、 分辨 率小于等于 360p和动画的视频;
S1013、 从步骤S1012得到的视频中截选15~30分钟的视频, 并采用1FPS的频率进行采
样, 每个视频获得900个关键帧; 关键帧中每个人分别采用候选包围框进行定位, 再使用
Faster RCNN中候选框提取的RPN网络对关键帧生成初始包围框, 再采用标注工具label
image对关键帧中遗漏的边界框进行手工标注, 得到关键帧中人的包围框位置坐标;
S1014、 对步骤S1013采样得到 的15~30分钟连续视频片段, 连接相邻帧中的异常行为
人, 获得行为人的真实轨迹; 再使用人嵌入计算相 邻关键帧中边界框的成对相似度, 用匈牙
利算法求 解最优匹配, 对标注遗漏或不 正确的进行 人为修改, 得到关键帧中人的id信息;
S1015、 由3个注释者分别对步骤S1013中每个视频的900个关键帧进行注释, 当一个动
作标签至少被两个人验证通过时为正确, 每个人标注的标签包括1个姿势标签, 3个人物交
互标签和3个人 ‑物‑人交互标签, 得到关键帧中人的行为的类别编号, 与步骤S1012得到的
视频信息、 步骤S1013得到的包围框位置坐标和步骤S1014得到的id信息共同构成异常行为
数据集。
3.根据权利要求2所述的新能源电站用深度视频检测方法, 其特征在于, 异常行为包括
打架、 翻越、 奔跑、 徘徊、 摔倒、 跳跃、 抽烟和站立。
4.根据权利要求1所述的新能源电站用深度视频检测方法, 其特征在于, 步骤S2具体
为:
S201、 采用Yolov3网络提取关键帧中的人体框和物体框, 采用SlowFast网络提取视频
片段特征;
S202、 基于步骤S201中的视频片段特征和关键帧中的人体框和物体框, 采用ROIAlign
提取视频中人和物的短期特 征;
S203、 利用记 忆存储池存储步骤S202中人的短期特 征, 提取原 始输入视频的长期特 征;
S204、 基于步骤S202得到 的人和物的短期特征, 以及步骤S203得到的原始输入视频的
长期特征, 采用交互聚合结构将连续的时间相关行为特征进行级联, 提取视频中人 ‑人交
互、 人‑物交互和人‑物‑人交互;
S205、 基于步骤S204得到的视频中人 ‑人交互、 人 ‑物交互和人 ‑物‑人交互, 采用权 利 要 求 书 1/2 页
2
CN 115546696 A
2Sigmoid函数和Softmax函数进行异常行为分类, 分类后得到对视频信息预测的行为类别,
给定不同的人类行为特征Pt、 物体对象特征Ot和行为历史记忆特征Mt, 交互聚合结构利用
人与人的交互P ‑Block, 人与对象之间O ‑Block和行为历史的内存 特性M‑Block, 采用并联方
式输出形成输入视频的动作特征, 然后将特征传递给最终分类器Sigmoid函数和Softmax函
数中进行最终异常行为预测。
5.根据权利要求4所述的新能源电站用深度视频检测方法, 其特征在于, 步骤S201中,
提取剪辑视频的中间帧作为关键帧, 采用YOLOv3模型检测并识别关键帧中人体框和物体
框, 采用两通道的Sl owFast网络提取剪辑视频的特 征。
6.根据权利要求4所述的新能源电站用深度视频检测方法, 其特征在于, 采用注意力 机
制模型提取步骤S204得到的剪辑视频中每一帧中异常行为的特 征和物的特 征。
7.根据权利要求6所述的新能源电站用深度视频检测方法, 其特征在于, 步骤S204中,
利用交互聚合结构的输出动作特 征At进行最终的预测, 输出动作特 征At具体为:
At= ε(Pt,Ot,Mt,Φε)
其中, Φε是模型参数, Mt是从特征记忆池中得到的时间交互表达, Pt, Ot, Mt分别为人、 物
体和行为人的记 忆特征, ε为基于注意力机制的交 互聚合结构。
8.根据权利要求4所述的新能源电站用深度视频检测方法, 其特征在于, 步骤S205中,
采用66个sigmo id函数和14个softmax函数判断人物交 互类别以及人与人交 互类别。
9.根据权利要求1所述的新能源电站用深度视频检测方法, 其特征在于, 采用随机抖动
对步骤S1得到的异常行为数据集进行数据增强; 训练时采用批量为64的SGD算法训练步骤
S2得到的基于交 互聚合结构的AlphActi on模型, 共进行27.5k次迭代, 基准学习率 为0.004。
10.一种新能源电站用深度视频检测系统, 其特 征在于, 包括:
数据模块, 对新能源电站的视频数据中的异常行为进行标注和扩充, 再与AVA数据集中
的异常行为数据合并构建异常行为数据集;
网络模块, 设计基于交互聚合结构的AlphAction模型, 用于提取视频中人 ‑人交互、 人 ‑
物交互和人‑物‑人交互;
训练模块, 根据不同迭代步的损 失函数调节超参数, 利用数据模块得到的异常行为数
据集对网络模块得到的基于交 互聚合结构的AlphActi on模型进行训练;
检测模块, 利用训练模块训练好的基于交互聚合结构的AlphAction模型实现深度视频
检测。权 利 要 求 书 2/2 页
3
CN 115546696 A
3
专利 一种新能源电站用深度视频检测方法及系统
文档预览
中文文档
20 页
50 下载
1000 浏览
0 评论
0 收藏
3.0分
温馨提示:本文档共20页,可预览 3 页,如浏览全部内容或当前文档出现乱码,可开通会员下载原始文档
本文档由 SC 于 2024-02-18 22:24:31上传分享