如何提高人工智能交互体验？先来了解这个三元理论

摘要：毫无疑问，人工智能产品会慢慢渗入人们的工作、生活、娱乐当中，为各行各业带来革命性的变化。未来，产品与产品之间、产品与环境之间、产品与用户之间的边界会非常模糊，人们会在多设备中无缝跳转和紧密连接，形成一个“你中有我，我中有你”的整体。在人工智能时代里，「原生硬件」，「AI 引擎」和「智能 App」是构成完整智能体验和服务闭环的三要素。

如何提高人工智能交互体验？先来了解这个三元理论

图 1 人工智能三元理论

关键词：人工智能，人机交互，交互体验，原生硬件，AI 引擎

引言

从 1956 年在达特茅斯正式提出 Artificial Intelligence，如今已经过去了 60 几个年头，但直到 AlphaGo 大胜李世石和柯洁三负 AlphaGo 后，“人工智能”才成为一个热词进入大众视线。而事实上，最近的一两年，各大科技巨头早已深入布局人工智能领域。从虚拟助手 Siri、微软小冰到各家巨头的智能音箱、智能驾驶，人工智能产品正逐渐融入我们的生活。在这个被视为会颠覆一切的人工智能时代，究竟产品存在什么样的痛点？交互会有如何的改变？什么样的交互设计才能让用户在使用人工能智能产品时获得一个极致体验？

通过对市面一些人工智能产品体验和“AI 导览机”项目（网龙为首届数字中国建设峰会量身定制的智能导览机，可为来宾提供室内寻路、会务信息查询、百科知识解答、拍照合影等智能服务）实现过程的分析得出的一些痛点：

当前人工智能产品体验的痛点

1. 对原生硬件的依赖非常大

智能交互可以理解为是感知->计算处理->执行反馈的一个过程，与图形用户界面（Graphical User Interface, GUI）交互中的输入（鼠标或触摸）不同的是，感知是人工智能交互最大的一个特色。受限于权限、进程、设备能力等因素，无论是 App 还是 AI 引擎都难以随时无缝的去访问底层的传感器和计算单元，缺少硬件层面的传感器去感知人与周围坏境，作为信息输入，就无法让体验达到最佳。

2. 没有主动性、自发性

目前，智能家居硬件是人工智能最广为运用的领域，比如各大巨头厂商推出的智能音箱。在与机器人开启对话时，用户需要点击机器人身上的按钮，并且每下发一个指令都必须要唤起一次，然后进行一对一单线程对话。不难发现，这是一种"不自然的语音交互"，其本质也只是更换了一种人工控制的方式。针对现有几款智能音箱（小米小爱、天猫精灵、喜马拉雅小雅、百度小度、叮咚二代），整理了产品在天猫和京东消费用户关于语音交互上反馈，可以明显看到用户对于需要频繁唤醒感到不满意：

如何提高人工智能交互体验？先来了解这个三元理论

图 2 智能音箱痛点

而在"AI 导览机"项目前期，也存在技术上和体验上的困惑：

技术：由于会场嘈杂，语音唤起导览机产生交互的成功率会大大降低；
体验：为什么需要等到用户开口要求才给与反馈帮助，作为会场服务方，是否能主动去发现理解每一位需要帮助的用户？

再重新梳理情景后，导览机取消语音唤起的方案，而是通过获取人物影像，根据深度距离判断用户是否进入近场交互触发区，根据人脸识别判断用户是否有互动意向（面向时间，且过滤侧面经过的人群），进而主动询问用户：亲爱的来宾，请问有什么可以帮到您？

理解用户和主动服务是人工智能产品具备的优势，也是设计需要翻越的一道鸿沟。从被动接受的指令模式升级为一种主动服务式的智能产品模式，从用户主导变为主动服务的模式，这才是更符合未来人工智能的"自然交互"。

3. 信息获取的准确率与效率

语音用户交互（Voice User Interface, VUI）是人通过自然语言与计算机进行交互，也是目前人工智能产品主流的交互方式。

从人类自身感官的角度来看，视觉接收的信息量远比听觉高。从内容信息的形态区分，图形用户界面（Graphical User Interface, GUI）主要为图片和文字，依赖视觉，而语音用户交互（Voice User Interface, VUI）主要为声音文字，依赖听觉。

大脑每秒通过眼睛接收的信息上限为 100Mbps，通过耳蜗接收的信息上限为 1Mbps。[1]

如果将图像作为信息载体，视觉阅读的信息远超听觉的 5 倍。眼睛还有一个特别之处，通过扫视的方式一秒内可以看到三个不同的地方。[2]

另一方面，由于缺乏情境感知（Context Awareness）能力，即人的认知，人工智能还无法很好的理解上下文，根据用户是谁、用户情感、当前环境、之前的记忆给出精确下一步的预测。

单纯的语音交互对于用户体验来说是有缺陷的，在信息获取的效率和准确率上都有待进一步提高。

人工智能产品交互的核心

从 PC 互联网时代到移动互联网时代，产品的交互主要还是基于图形用户界面（Graphical User Interface, GUI），但是到了人工智能时代，人与产品（智能 App、穿戴设备、智能硬件）的关联愈加紧密和深入。人机交互将从简单的人与屏幕的单线程，拓展为语音交互、手势交互、增强现实交互等多线程模式，进入一个“自然交互”的时代。自然用户界面是人机交互界面的新兴范式转变，通过研究现实世界环境和情况，利用新兴的技术能力和感知解决方案实现物理和数字对象之间更准确和最优化的交互，从而达到用户界面不可见或者交互的学习过程不可见的目的，其核心关注是传统的人类能力（如触摸、视觉、言语、手写、动作）和更重要、更高层次的过程（如认知、创造力和探索）[3]。基于当前人工智能体验的痛点和未来人机交互的核心，提出人工智能交互的三元：「原生硬件」，「AI 引擎」和「智能 App」，三元一体，环环相扣，会让体验更趋于自然。

人工智能交互的三元理论

1. 原生硬件

在“AI 导览机”项目 PRD 文档里有两个关于影像捕获的需求：

识别人脸并与虚拟人物合照，且能判断用户性别，在装饰做一些附加处理；
捕捉用户动作，与虚拟导览员产生互动；

基于这两个需求，发现导览机常规的前置摄像头并不能满足功能的实现：

获取呈像的范围有限；
无法获取深度相机的深度值；
无法捕捉用户动作；

因此，开发人员在导览机中配置入与 Kinect2 同等配置的 RGB Camera Depth/IR Cameear，形成一个满足大空间中的 RGB 视场（FOV）:

如何提高人工智能交互体验？先来了解这个三元理论

图 3 Camera FOV 透视图

芯片、传感器、计算单元、执行单元可以非常好的处理智能交互中的感知、处理、反馈。目前，各种感应设备已经可以精确检测距离、光线、音量、人脸、动作、温度、湿度等等各种环境信息，通过感应器采集过的信息形成信息空间，信息空间便是连接人和物理空间的虚拟空间。国务院下发的《新一代人工智能发展规划》[4]中也强调了这一空间的建设和使用。

通过原生自动记录用户使用数据，自动分析用户使用习惯，自动给与用户最佳推荐，这一切都依赖于原生硬件。正如高粘度、贴近生活场景的硬件成为巨头公司布局智能产品的最佳入口，如手机、手表、车载、音箱、耳机、电视、冰箱等等。

当然未来的硬件也急需一次升级，仅靠单纯的图形界面或是语音作为输入输出，都会让信息获取的准确率和效率打折扣。硬件需要支持听觉、视觉、触觉、影像等多维的信息输入或展示。图形用户界面结合语音，甚至混合现实（Mixed Reality）、全息投影等，才能让人工智能交互更趋向于立体和本能，而这一切离不开原生硬件更有执行效率、处理的终端芯片、更多维的传感器。

2. AI 引擎

这里 AI 引擎特指人工智能的核心算法（深度学习算法、记忆预测模型算法等）在各领域的运用：语音识别、图像识别、自然语言处理和用户画像。

语音识别：人类自然发出的声音转换成响应的文本或命令和把文字转成语音并根据需求定制念出来。

图像识别：我们常说的计算机视觉，常用在印刷文字识别、人脸识别、五官定位、人脸对比与验证、人脸检索身份证光学字符识别（OCR）、名片 OCR 识别等领域。

自然语言处理：由于理解自然语言，需要关于外在世界的广泛知识以及运用操作这些知识的能力，自然语言认知，同时也被视为一个人工智能完备（AI-complete）的问题。自然语言处理（NLP）是人工智能中最为困难的问题之一。

用户画像：用户画像是根据用户社会属性、生活习惯和消费行为等信息/数据而抽象出的一个标签化的用户模型。这也是内容、大数据的结晶。

AI 引擎为人工智能产品提供核心运算技术，是不可或缺的“一元”。在“AI 导览机”的智能对话中就运用到语音识别和自然语言处理：

如何提高人工智能交互体验？先来了解这个三元理论

图 4 语音对话框架

语音识别技术已经趋于成熟，多个第三方平台均有提供 SDK，而自然语言理解是人工智能的 AI-Hard 问题[5]，也是目前智能对话交互的核心难题。机器要理解自然语言，主要面临如下的 5 个挑战。

语言的多样性
语言的多义性
语言的表达错误
语言的知识依赖
语言的上下文

得益于深度学习算法，以上各个问题领域的技术都得到飞速的发展，相信在认知计算（交流、决策、发现）得到更大的突破之后，AI 引擎会从更多领域帮助人类。

3. 智能 App

智能 APP 代表着人机界面，人是交互的最终感知者，因此通过什么样的介质让用户获得智能体验和服务在交互中举足轻重。传统的 APP 界面局限在移动设备屏幕中，新兴的智能音箱直接去掉图形交互界面，两者都有局限性。

“AI 导览机”在落地过程中，为了让用户体会到丝绸之路的特色，在导览机中置入多个应用服务（智能 APP），让用户可以从视、听、触上感受到峰会的魅力。

如何提高人工智能交互体验？先来了解这个三元理论

图 5 导览机 AI 虚拟合影

智能时代的 APP，一定是能多维度的数据输入，如识别语音、识别手势、识别图像、感知物理环境等等，也一定会是多维的信息展示，听觉、视觉、触觉，全息影像等等，让交互形式更具感性的色彩，“像人一样”。

未来，人工智能一定会为人机交互带来突破，传统的人机交互技术（鼠标键盘、触屏等）难以使人与计算机实现如同人与人之间那样高效自然的交互。伴随着原生硬件能力的提升和语音识别、图像分析、手势识别、语义理解、大数据分析等人工智能技术的发展，人工智能产品将更好地感知人类意图，驱动人机交互的发展。人工智能三元「原生硬件」，「AI 引擎」和「智能 App」三者的结合运用也会在未来人工智能产品交互的发展中将具有一定指导意义。

如何提高人工智能交互体验？先来了解这个三元理论

图 6 人工智能三元理论框架

也许在未来有这样的场景：

圣诞节的晚上，你开车回家。到了地下室，车载设备问你：天气有点冷，到家后，要不要喝杯咖啡？你告诉它想要的口味，然后停车上楼。开门进屋后，智能音箱自动播放《Jingle Bells》，并告知咖啡还有 2 分钟煮好。

优设访谈！人工智能时代来临，设计师如何才能不被淘汰？

@N可可洛N、@爆炒地瓜：AI 时代来了，智能化应用的范畴越来越广，技术取代了越来越多的人工工作，这次我们邀请了轻访谈团队来为我们讲述他们眼中的人工智能，为我们揭开一片和谐背后的残忍真相：一批设计师真的会被取代。

阅读文章 >

参考文献

[1] 知乎神经科学和脑科学话题的优秀回答者关于《耳朵和眼睛哪个接收信息的速度更快？》的回答
[2] 来自《人工智能的未来》一书
[3] Glonek G, Pietruszka M. Natural user interfaces （NUI）: review. J Appl Comput Sci, 2012, 20: 27–45
[4] 国务院关于印发新一代人工智能发展规划的通知 http://www.gov.cn/zhengce/content/2017-07/20/content_5211996.htm
[5] https://en.wikipedia.org/wiki/Natural_language_understanding
[6] 百度人工智能交互设计院 http://aiid.baidu.com/