(19)中华 人民共和国 国家知识产权局
(12)发明 专利申请
(10)申请公布号
(43)申请公布日
(21)申请 号 202210077976.3
(22)申请日 2022.01.24
(71)申请人 中国第一汽车股份有限公司
地址 130011 吉林省长 春市汽车 经济技术
开发区新红旗大街1号
(72)发明人 张彤 高洪伟 吕贵林 张文权
闫明毅 富文泰 马剑桥
(74)专利代理 机构 北京远智汇知识产权代理有
限公司 1 1659
代理人 鲁艳萍
(51)Int.Cl.
G06F 16/35(2019.01)
G06F 16/383(2019.01)
G06F 40/30(2020.01)
G06N 3/04(2006.01)G06N 3/08(2006.01)
(54)发明名称
一种数据处 理方法、 装置、 设备及存 储介质
(57)摘要
本发明实施例公开了一种数据处理方法、 装
置、 设备及存储介质。 该方法包括: 获取由车辆适
配层采集的多模态数据; 根据多模态数据确定至
少一个车载场景, 确定与各车载场景对应的标签
数据集; 对每一个标签数据集中各标签数据进行
组合, 确定与标签数据集对应的至少一条描述性
语句; 根据各描述性语句确定各标签数据集对应
的目的特征参数, 通过各目的特征参数对各描述
性语句进行标注, 根据标注后的各描述性语句生
成结构化数据集合。 本发明实施例的技术方案,
解决了针对多模态数据处理时需要进行大量数
据运算, 耗费大量人力物力成本的问题, 提升了
数据运算速度, 降低了计算设备内存占用率和
CPU使用率, 降低了数据处 理成本。
权利要求书2页 说明书13页 附图4页
CN 114416996 A
2022.04.29
CN 114416996 A
1.一种数据处 理方法, 其特 征在于, 包括:
获取由车辆适配层采集的多模态数据; 其中, 所述多模态数据至少包括车辆信 息、 云端
信息、 用户信息和行为信息;
根据所述多模态数据确定至少一个车载场景, 确定与 各所述车载场景对应的标签数据
集;
对每一个所述标签数据集中各标签数据进行组合, 确定与所述标签数据集对应的至少
一条描述 性语句;
根据各所述描述性语句确定各所述标签数据集对应的目的特征参数, 通过各所述目的
特征参数对各所述描述性语句进 行标注, 根据标注后的各所述描述性语句生成结构化数据
集合。
2.根据权利要求1所述的方法, 其特征在于, 所述根据所述多模态数据确定至少一个车
载场景, 确定与各 所述车载场景对应的标签数据集, 包括:
对所述多模态数据进行聚类, 确定 至少一种场景 标签信息;
根据各所述场景标签信息将所述多模态数据划分为与各所述场景标签信息对应的场
景标签数据集;
由各所述场景标签数据集中各提取一个场景标签数据, 将各所述场景标签数据对应的
场景确定为一个车载场景, 并将各所述场景标签数据的集合确定为与所述车载场景对应的
标签数据集。
3.根据权利要求2所述的方法, 其特征在于, 所述根据各所述场景标签信 息将所述多模
态数据划分为与各 所述场景 标签信息对应的场景 标签数据集, 包括:
针对每一个所述场景标签信 息, 由所述多模态数据中提取与 所述场景标签信 息对应的
至少一个原 始数据;
根据预设标签转写规则将所述原始数据与 所述场景标签信 息进行转写组合, 并将组合
后的所述原 始数据与所述场景 标签信息确定为场景 标签数据;
将各所述场景 标签数据的集 合确定为与所述场景 标签信息对应的场景 标签数据集。
4.根据权利要求1所述的方法, 其特征在于, 所述对每一个所述标签数据集中各标签数
据进行组合, 确定与所述标签数据集对应的至少一条描述 性语句, 包括:
将每一个所述标签数据集中各标签数据按照 不同顺序排列, 生成大于第 一预设数量的
标签数据组合;
根据预设数据扩写规则对各所述标签数据组合进行扩写, 生成与各所述标签数据组合
对应的描述 性语句, 并将所述描述 性语句确定为与所述标签数据集对应的描述 性语句。
5.根据权利要求1所述的方法, 其特征在于, 所述根据各所述描述性语句确定各所述标
签数据集对应的目的特 征参数, 包括:
确定同一标签数据集中各 所述描述 性语句的语义特 征;
根据预设置信度设置规则确定各所述语义特征的置信度, 并根据置信度对各所述语义
特征进行排序;
将排序位于前第二预设数量的语义特征确定为与所述标签数据集对应的目的特征参
数。
6.根据权利要求5所述的方法, 其特征在于, 所述根据预设置信度设置规则确定各所述权 利 要 求 书 1/2 页
2
CN 114416996 A
2语义特征的置信度, 包括:
对各所述语义特 征进行聚类, 确定语义特 征群;
确定各所述语义特征群在所有语义特征中所占的比重, 并将比重小于预设阈值的语义
特征群确定为待处 理语义特 征群;
若所述待处理语义特征群的语义特征含义与比重大于预设阈值的语义特征群相反, 则
删除与所述待处 理语义特 征群对应的语义特 征;
将剩余语义特征根据词频与逆文本频率指数进行权重排序, 根据权重排序结果确定各
所述语义特 征的置信度。
7.根据权利要求1所述的方法, 其特征在于, 在所述根据标注后的各所述描述性语句生
成结构化数据集 合之后, 还 包括:
根据所述结构化数据集合, 以及未标注的各所述描述性语句对初始目的特征确定网络
模型进行训练, 直到满足预设收敛 条件获得目的特 征确定网络模型。
8.一种数据处 理装置, 其特 征在于, 包括:
数据获取模块, 用于获取由车辆适配层采集的多模态数据; 其中, 所述多模态数据至少
包括车辆信息、 云端信息、 用户信息和行为信息;
数据集确定模块, 用于根据所述多模态数据确定至少一个车载场景, 确定与各所述车
载场景对应的标签数据集;
语句确定模块, 用于对每一个所述标签数据集中各标签数据进行组合, 确定与所述标
签数据集对应的至少一条描述 性语句;
集合生成模块, 用于根据各所述描述性语句确定各所述标签数据集对应的目的特征参
数, 通过各所述目的特征参数对各所述描述性语句进行标注, 根据标注后的各所述描述性
语句生成结构化数据集 合。
9.一种数据处 理设备, 其特 征在于, 包括: 存 储装置以及一个或多个处 理器;
所述存储装置, 用于存 储一个或多个程序;
当所述一个或多个程序被所述一个或多个处理器执行, 使得所述一个或多个处理器实
现如权利要求1 ‑7中任一项所述的数据处 理方法。
10.一种包含计算机可执行指令的存储介质, 其特征在于, 所述计算机可执行指令在由
计算机处 理器执行时用于执 行如权利要求1 ‑7中任一项所述的数据处 理方法。权 利 要 求 书 2/2 页
3
CN 114416996 A
3
专利 一种数据处理方法、装置、设备及存储介质
文档预览
中文文档
20 页
50 下载
1000 浏览
0 评论
0 收藏
3.0分
温馨提示:本文档共20页,可预览 3 页,如浏览全部内容或当前文档出现乱码,可开通会员下载原始文档
本文档由 SC 于 2024-02-18 22:24:26上传分享