基于深度卷积-Tokens降维优化视觉Transformer的分心驾驶行为实时检测期刊界 All Journals 搜尽天下杂志传播学术成果专业期刊搜索期刊信息化学术搜索

按检索

基于深度卷积-Tokens降维优化视觉Transformer的分心驾驶行为实时检测

引用本文：	赵霞,李朝,付锐,葛振振,王畅.基于深度卷积-Tokens降维优化视觉Transformer的分心驾驶行为实时检测[J].汽车工程,2023(6):974-988+1009.

作者姓名：	赵霞李朝付锐葛振振王畅

作者单位：	长安大学汽车学院

基金项目：	国家重点研发计划项目（2019YFB1600500）资助；

摘要：	针对基于端到端深度卷积神经网络的驾驶行为检测模型缺乏全局特征提取能力以及视觉Transformer(vision transformer,ViT)模型不擅长捕捉底层特征和模型参数量较大的问题，本文提出一种基于深度卷积和Tokens降维的ViT模型用于驾驶人分心驾驶行为实时检测，并通过开展与其他模型的对比试验、所提模型的消融试验和模型注意力区域的可视化试验充分验证了所提模型的优越性。本文所提模型的平均分类准确率和精确率分别为96.93%和96.95%，模型参数量为21.22 M，基于真实车辆平台在线推理速度为23.32 fps，表明所提模型能够实现实时分心驾驶行为检测。研究结果有利于人机共驾系统的控制策略制定和分心预警。
关键词：	汽车工程分心驾驶行为检测模型视觉Transformer 多头注意力机制卷积神经网络 Tokens降维