摘 要: | 针对基于端到端深度卷积神经网络的驾驶行为检测模型缺乏全局特征提取能力以及视觉Transformer(vision transformer,ViT)模型不擅长捕捉底层特征和模型参数量较大的问题,本文提出一种基于深度卷积和Tokens降维的ViT模型用于驾驶人分心驾驶行为实时检测,并通过开展与其他模型的对比试验、所提模型的消融试验和模型注意力区域的可视化试验充分验证了所提模型的优越性。本文所提模型的平均分类准确率和精确率分别为96.93%和96.95%,模型参数量为21.22 M,基于真实车辆平台在线推理速度为23.32 fps,表明所提模型能够实现实时分心驾驶行为检测。研究结果有利于人机共驾系统的控制策略制定和分心预警。
|