4500字干货！5个章节帮你掌握智能汽车上的多模态设计

随着多模态大模型 GPT-4 的发布，“多模态”这个词语走进了大家视野中。然而多模态并不是新兴概念，近年来它已作为一种人机交互的方式运用在了智能汽车中。车机交互是怎样发展至今的？多模态到底是什么？又如何合理的进行多模态设计？

本文将通过介绍汽车与车载系统发展和多模态背景，浅述多模态交互在智能车机发展的原因，并将总结车内的多模态设计应用现状，最后尝试为多模态设计提供可供参考的建议。

7000字干货！电动汽车仪表盘设计指南

当一辆电动汽车驶来时，人们最先注意到的可能是它那极具未来感的外观设计。

一、汽车与车载系统的发展

1886 年，卡尔·本茨发明了世界上第一辆获得“汽车制造专利”的三轮汽车。同年 7 月，戴姆勒发明了第一辆四轮汽车。至今一百多年，随着技术、社会和人文环境的发展，汽车已从传统的单一代步工具发展为当下具有多种功能的智慧座舱——可以帮助我们在路上掌握实时交通和新闻，提供音乐和电影流，甚至具有自动驾驶和自动泊车功能。而未来也将进一步朝着人机交互、情感交互的移动载体方向发展。

车载界面与系统也在随之变化，1923 年的福特 T 型车——最早的批量生产的汽车之一，有一个用于监控充电系统的单仪表。1986 年，别克为第七代 Riviera 配备了触摸感应屏幕，这也是第一辆配备触摸屏显示器的量产车。该屏幕可以控制音量、无线电台或调整温度和风扇速度，但这种概念仅在几年后就又被机械按键所取代。

4500字干货！5个章节帮你掌握智能汽车上的多模态设计

1986 年的别克 Riviera

直到 2010 年初，触摸屏显示器成为一种常见的车内配件。2014 年，苹果推出了集成 iPhone 和汽车仪表屏幕的智能车载系统 CarPlay，Google 也相继推出对标产品 Android Auto，以上两种系统核心都是将手机系统平移到车载屏幕上，让驾驶员可以使用车载屏幕来与手机上的应用互动，以此拓宽系统使用场景、丰富汽车驾驶体验。如今，汽车厂商纷纷在车内嵌入越来越大的电子屏幕，越来越多地取代传统的机械按钮布局，以此来凸显车辆的科技与高端。

4500字干货！5个章节帮你掌握智能汽车上的多模态设计

2023 年的奔驰 EQS

随着车内集成的功能模块越来越多，智能化提升也给驾驶员带来了更多的操作负担。逐渐增加的信息内容会带来认知过载、分心等问题，驾驶员也从仅需操纵机械按键转变到现在的屏幕触控、语音交流、手势交互……人车之间的交互途径增加并且更加多样化，智能汽车交互不再仅是手机系统在另一个界面的延展，如何在车内实现高效、安全、易用的人机交互是设计师们需要针对性思考的。

二、多模态是什么

“模态”（modality）一词是由德国物理与生理学家赫尔姆霍兹提出的生物学概念，即生物凭借感知器官与经验来接收信息的通道，例如人类通过五感来获取外界信息。模态的概念一开始在人文学科领域运用，后来被引申到计算机科学领域，指计算机与物理世界联系的通道。

多模态就是多种通道的结合。即人通过多种感官、综合使用手势、眼动、图文、音视频等不同信息载体与机器进行交流的形式。

例如十几年前的音乐播放器，人们只能通过单一的物理按键来操纵。而现在市面上流行的智能音箱，人们可以通过触摸屏、语音、甚至是手势来与其互动。

4500字干货！5个章节帮你掌握智能汽车上的多模态设计

左：sony 磁带机右：小度 x8 智能音箱

近期 OpenAI 发布的多模态大模型 GPT-4 之所以被称为多模态模型，也是因为比起 Chat GPT 只支持单一文字模态输入输出外，GPT-4 可以接受图像和文本这两种模态输入。

人类生来具有多种感官，因此与事物的互动本质上是多模态的，多模态的交互使人可以用最自然的各种行为和通道与机器互动，也是人机交互追求的自然交互的一种。

三、多模态交互设计可以解决驾驶中哪些问题

多模态交互为何会在车载场景愈演愈烈？除了硬件发展以及非驾驶类任务的引入势必会带来模态拓宽外，多模态交互在驾驶场景有着独特的优点。随着技术进步，人们可以在车内做越来越多的事情，比如听歌、看视频、回复信息等。而这些多样的车内任务一定程度上会影响驾驶员的驾驶状态。研究表明，多模态可以降低驾驶员在执行多种任务时的认知负荷，以及减弱驾驶者在多种信息处理中的分心，从而提升驾驶的安全性。

1. 降低认知负荷：高效处理并行任务

多重资源理论（Multiple Resource Theory，MRT）表明，每个通道能处理的信息是有上限的，当信息过载时，会导致人的认知负荷，从而降低效率。比如当你聚精会神看视频时，视觉通道就被极大的占用，更难用余光注意到界面外发生的一切。

主要驾驶任务（比如观察路面、后视镜、车内信息等）大部分需要视觉支持，随后是因控制方向盘和操作辅助功能而产生的肢体操作。

假设，你在开车时想要完成导航这一任务，如果通过在屏幕「手动输入」导航目的地来完成，视觉和肢体通道除了要支持驾驶任务外，还要额外承受导航带来的负荷。如果使用「语音」进行导航，就可以保持视觉与肢体资源不被额外占用，语音通道的引入有效降低了负荷，使驾驶员可以在驾驶时更快更安全的并行处理多个任务。

2. 高效引起注意力：及时提醒司机从分心状态恢复接管辅助驾驶

研究证实，人对于多模态信息的处理速度更快，例如视觉+听觉或视觉+听觉+触觉警告比单一模态的警告更能迅速获得注意，因此更适合对用户反应速度要求较高的驾驶场景。

在手机端的很多界面中，设计师会使用红点、弹窗等方式作为提醒引起用户注意，但是在驾驶场景中，用户的注意力主要集中在路面，依然使用单一的视觉方式提醒，可能会影响反应效率。现在多个车厂辅助巡航的接管提醒已运用多模态信息，如蔚来的辅助巡航需要司机接管时，仪表盘会有视觉弹窗提示，同时配合听觉通道的语音提醒，方向盘和驾驶座椅会有触觉通道的震动提醒。这样的多模态提醒可以使司机快速理解当前状态，并迅速接管驾驶。

四、车内的多模态应用现状

如今，多模态交互越来越多的被运用在量产车上。佐思汽研出具的《2022 年中国汽车多模态交互发展研究报告》将现有车内多模态交互趋势分为五点：

1. 随着大屏、多屏、智能面材的趋势，触控交互应用范围逐渐扩大

中控台大屏让触控成为主流交互方式。例如奔驰 EQS 和小鹏 P7 几乎取消了中控台上的实体按键，使用触控操作替代。

座舱多屏化，使触控的控制范围从前排扩展到车门、车窗、座椅等部件。例如理想 L9 使用 touchbar 取代仪表盘，此通过副驾屏、后排影音屏等实现五屏交互。

4500字干货！5个章节帮你掌握智能汽车上的多模态设计

理想 L9 的大屏多屏车机

2. 语音交互由被动向主动进化，个性化、情感化需求将得到满足

可见即可说、连续对话、音源定位、免唤醒等语音技术已在 2022 年上市新车上广泛搭载，语音交互方式更加趋向自然。

目前语音功能重点是打造个性化体验，例如蔚来、小鹏、理想等智能化 EV 品牌主要从声音、形象、技能自定义等方面入手进行打造。

4500字干货！5个章节帮你掌握智能汽车上的多模态设计

小鹏车内语音可同时服务多人

4500字干货！5个章节帮你掌握智能汽车上的多模态设计

蔚来的智能语音助手 nomi

3. 人脸识别算法的成熟使个性化进一步落地

用户可通过面部识别登陆 ID，实现车辆间的个人信息流转。目前蔚来 ET7/ET5、小鹏 P7/G9、岚图梦想家等车型已搭载相关功能。

4500字干货！5个章节帮你掌握智能汽车上的多模态设计

小鹏的人脸识别设置界面

4. 手势识别功能作为交互方式的补充

目前手势识别主要应用在多媒体切换、音量控制、电话接听、灯光控制等方面，主要作为交互方式的补充。

4500字干货！5个章节帮你掌握智能汽车上的多模态设计

福特 EVOS 手势交互

5. 指纹、虹膜、静脉、心率等车内生物识别应用尚处于探索阶段

虹膜/眼球追踪可增强驾驶员检测的精度，通过车内摄像头可实时检测驾驶员在行车过程中的疲劳行为特征（打呵欠、长时间闭眼等），在发生疲劳行为时及时做出预警。

4500字干货！5个章节帮你掌握智能汽车上的多模态设计

凯迪拉克 Super Cruise 眼球追踪

五、如何进行多模态设计

多模态交互虽然可以使人机交互更自然，在驾驶场景更具优势，但在引入设计时也有需要注意的地方。

前文提到，一个通道接受的信息是有上限的，过多就容易造成认知负荷。然而，每为用户增加一种感官通道实际上也是在引入复杂。不同的任务所消耗的通道资源有所不同，因此适当管理可用的通道资源是非常重要的。针对这些任务，设计师选用哪种模态会更适合？不同模态的增加究竟会降低负荷还是带来负荷？可以通过 VACP 模型，结合“场景-模态-任务”三个维度，把不同感官的资源占用进行量化，从而来探索具体场景与任务下的多模态设计。

VACP 模型( Visual , Auditory , Cognitive , Psychomotor ) 每一个字母都代表不同的感官通道，V 是视觉、A 是听觉、C 是认知、P 是运动。每一个任务所占用的资源都可以被拆解为这 4 类，视觉和听觉是指任务中关注的外部信息，认知是指任务所需的信息处理能力，运动是指完成任务时的身体行为。从 0-7 进行打分，分数越高即该通道资源被占用的程度越高。

4500字干货！5个章节帮你掌握智能汽车上的多模态设计

VACP 标准打分量表

以下结合 VACP 模型和“场景-任务-模态”举例多模态设计设计流程：

1. 拆解场景

以驾驶场景为例，用户作为驾驶员，在驾驶过程中可拆解为行车、辅助巡航、人工接管、驻车等场景。这里我们选取行车场景。

2. 定义任务

在行车场景下，驾驶员的主要驾驶任务有观察路面情况和车内信息、操纵方向盘和手刹、踩踏油门或刹车等。驾驶员需要通过视觉 V 观察当前路况，通过听觉 A 判断车周是否有鸣笛，通过认知 C 分析前方路况和交通信号，最后通过动作 P 进行相应操作。

3. 分析模态资源占用

将以上任务分别使用 VACP 量表打分，可以汇总得出行车场景下用户的模态资源占用特征。假设 VACP 量表打分分别为：视觉 V5.4；听觉 A2；认知 C4.6；运动 P5.8，即在行车场景中，听觉被占用的程度最低。

4. 对应设计

得到场景下的模态资源占用特征后，可以使用得分较低的模态来作为主要交互模态，以此分担高得分模态的认知负荷。因此我们可以多结合听觉来支持其他任务或接受提醒，例如可以在开车时使用语音对话来完成一些车内设置、音乐播放或进行导航。

综上，多模态设计就是设计师基于场景和任务，善加利用资源较高的通道，对通道资源再分配以达到用户认知平衡的过程。

结语

随着汽车的不断智能化，设计师的挑战是需要将逐渐复杂的车机系统用简单便捷的自然交互设计传递给用户，而多模态交互则是这一挑战的解题方法。多模态交互是人机自然交互的发展趋势，如何平衡多模态间的关系、合理的结合多模态进行设计是值得我们反复思考的。

参考文献：

《Engineering psychology and human performance》by Wickens, C. D.
《Attention: From Theory to Practice》by Arthur F. Kramer, Douglas A. Wiegmann, Alex Kirlik
《Visualizing natural language interaction for conversational in-vehicle information systems to minimize driver distraction》by Michael Braun
《2022年中国汽车多模态交互发展市场报告》by 佐思汽研
《Human performance modeling for discrete-event simulation: workload》by Keller, J

欢迎关注作者微信公众号：「We-Design」

4500字干货！5个章节帮你掌握智能汽车上的多模态设计