我邀请了小米探索实验室的设计总监，和你聊聊智能音箱

南迪尔：‍Hi 大家好，我叫南迪尔。我大学毕业后在工业设计领域比较出名的设计公司 LKK 工作，‍‍然后12年加入百度，‍主要负责百度云的交互设计，后面成为智能硬件团队的设计经理，负责的项目包括小度Wifi、百度路由器、智能手表Rom 等一系列智能硬件。‍‍2016年6月份加入小米探索实验室担任设计总监，负责小米路由器、小米VR 还有最近比较火的小米AI音箱小爱同学。

我邀请了小米探索实验室的设计总监，和你聊聊智能音箱

△ 图源：maryanne

志荣：‍你觉得‍‍14年做的百度路由器和现在做的小米路由器有什么不同吗？‍

南迪尔：‍其实‍‍很多地方还是比较相似的，例如大家都在追求更简单的用户配置流程，‍‍用户对于互联网的‍‍主要需求依然是一个稳定的网络，这个需求没有发生变化。‍

志荣：在我的理解里，‍用户的全部网络流量都要通过路由器，而且它是24小时开机的，我觉得是不是只要加个语音功能它就能成为中控系统？，后面就没有智能音箱的事了？

南迪尔：路由器和智能音箱都是中枢系统。两者的区别在于路由器是一个网络中枢，‍所有的东西都要通过路由器来连接到互联网。‍智能音箱是一个控制中枢，用户通过它来控制其他设备。你刚刚说的可以认为是理想状态或者实验室状态。但实际情况是，如果增加了语音功能，那么会有多少用户愿意花钱买这个路由器？比如说，现在一个路由器的价格大概是100块钱，如果增加一个语音功能，整个产品的价格要接近200元。如果这个路由器可以通过语音控制家庭里的 IoT 产品，问题来了，有多少家庭家里是有 IoT 设备的？如果增加了这个语音功能，这100块已经把没有 IoT 产品的所有用户排除在外，而且购买这款产品的人群 IoT 需求到底有多少？用户有可能前两天用起来很爽，但是到后面可能只是用语音来开个灯。这些小需求能不能对得起用户多花的100块？

志荣：有道理。我想了解一下，这几年你都在做智能硬件的项目，你觉得你在14年和18年做智能硬件设计时有什么变化吗？

南迪尔：我在百度的时候，严格来说，当时的百度硬件积累相对较少，基本将硬件外包给其他厂商，所以当时的我对硬件的把控力度相对较弱，而且了解的比较少，所以基本都是在做软件层面的设计。但到了小米之后，我发现小米的硬件和软件是属于同一个部门，而且小米在硬件上的积累很深。在小米的几年里，我对智能硬件有更深入的理解，包括硬件的组成部分、硬件的定义、软件和硬件的连接、还有它们之间是怎样交互的，同时我能对整个用户体验流程能看得更加完整。我们做设计的时候甚至可以影响硬件的设计。以智能音箱的配置过程为例子。当智能音箱的软件和硬件都摆在你面前的时候，你用手机配置音箱的过程中音箱会不断给予你反馈，这会导致你的注意力在手机和音箱之间来回切换，我们觉得这不是一个好的设计。我们认为用户的注意力应该集中在一个地方，所以我们有意地把用户注意力先集中在手机上，音箱作为辅助，它只要发出确认的声音就行了。当用户用手机配置成功后，再把用户的注意力转移到音箱上进行互动和操作。如果不这么做的话，用户注意力来回切换会导致整个配置流程很长，也会分散用户的精力。

志荣：那你们当时是怎样考虑智能音箱上的反馈设计的？

南迪尔：当时设计小爱同学的时候，灯光反馈更多是辅助功能。灯光亮的时候其实在给你一个信号，意思是「你可以说话了」。灯光是特定的语言，它在模拟两个人对话过程中对方的眼神：对方的注意力是不是在你身上，是的话你就可以说话了。当然这时候的反馈不只是灯光，还有声音的反馈。声音反馈是非常必要的，原因是当你背对着它的时候或者不看它的时候通过声音反馈就知道可以操作了。我们第一版的声音反馈设计用的是「嘟」，就像小爱同学冲到你的身边；第二版我们将「嘟」改成「在，我在」，这能让人感觉到更温暖。还有我们的灯光定义了好几种模式。例如说「小爱同学」，这时候小爱同学发出的是灯光表示她在响应你以及在聆听；当你说完指令，灯光发生的变化代表她在思考；当她给予反馈时灯光会有另外一个变化。这套灯光设计其实仿照了一个人的「我在听你说」、「我在思考」、「我在说」这三种状态。

志荣：你怎么看待最近 Echo show 增加了屏幕？语音交互是否需要屏幕？

南迪尔：这是肯定的，语音交互和屏幕结合是一件好事。我之前在知乎回答过一个问题，语音只适合有明确意图的输入，也就是说可以方便地问问题，但语音不适合输出，语音输出的内容太有限了，因为它是一维的，用户根本记不住。我当时在知乎上举过一个很让人崩溃的例子「中文请按1，English press 2，金葵花客户请按3」，当听过一遍后，我要按哪个来着，忘了，我还得重听一遍。音频选项你是记不住的，顶多就4个选项；但是视觉界面不一样，12个选项都没有问题。

志荣：的确，我当时买了小度在家和小爱同学，但我发现有屏幕的小度在家能做的事情会多很多。

南迪尔：你最近会用小度在家和小爱同学来做什么？

志荣：没有了，好久没用过。

南迪尔：现在小爱同学更多是用来放歌，问天气，问生活中的一些百科知识，还有 IoT 设备的控制，我觉得这是大部分人的场景和需求。

志荣：对，如果我家都没有 IoT 产品，我都不知道我买一个智能音箱来干嘛。

南迪尔：用来放歌。

志荣：如果我连这个需求都没有，那怎么办。

南迪尔：如果你连听歌的需求都没有的话，那你为什么要买一个音箱回家呢？这说明你是一个尝鲜用户。买智能音箱的基本用来听歌。

志荣：如果智能音箱解决的主要需求是播放音乐，没有其他需求会不会导致没有人去研发其他功能，那语音交互怎么发展？我觉得语音交互的发展会受到很大的局限。

南迪尔：语音交互很早就在手机上有了，但没有爆发起来，是因为在公共场合的噪音比较大，人们在公众场合使用语音交互效率不一定高；还有一些人觉得对着一个手机说话会有点傻；还有是隐私的问题，所以语音交互的场景是有限的。之所以智能音箱能爆发起来，是因为它在家里，家里比较安静以及它是私密的空间。如果「隐私」和「不适感」这两件事情是人们心理接受程度问题的话，随着时间发展，人们会慢慢被接受。因为语音和搜索相关性比较高，输入效率非常高。当一个高效的事情能克服不舒适感或者隐私问题，它会有市场的。

我邀请了小米探索实验室的设计总监，和你聊聊智能音箱

△ 图源：maryanne

志荣：那你觉得移动互联网的设计和语音交互设计有什么区别？

南迪尔：移动互联网设计和语音交互在一些基本的、隐性的设计上是没有区别的，比如说你都要考虑场景和用户的情绪。但语音交互的设计有点不一样，就是它没有视觉部分，这会导致它是一个开放性的提问。视觉界面的好处是你能看到边界，你能进行引导；但语音是没有边界和引导的，所以你要学会创造引导。比如说设置一个闹钟，视觉界面很简单，几个时间控件就能把你完全限制在这个功能里。但用语音设置闹钟，我可能说「小爱同学我要设置一个闹钟」，然后它会问你「那你要设置几点呢？」，「八点」，「请问是早上八点还是晚上八点」，「晚上八点」，「好的，设置完毕」，语音交互会通过多轮对话把你的发散范围逐步缩小到这个任务上。

志荣：的确，我之前也想过这个问题，视觉界面能限制用户的想法，语音交互就不能，我们只能在语音上创造限制。要不我们再聊一下 VR 吧。2016年被称为 VR 的元年，突然间17年又变成人工智能的元年，你怎么看待2018年 VR 的发展，它是不是不温不火？

南迪尔：我觉得 VR 的发展是正常的。新起的行业第一波总会吹成泡沫，因为投资市场不是冷静的。第一波泡沫过去后留下的人会继续推动这个行业的发展。现在行业的发展还是在硬件的成熟和积累阶段，包括现在的 Oculus Go、Vive，虽然它们现在很不错了，但它们不是最终形态。当它们逐渐接近最终形态的时候，会有越来越多的软件加入，有越来越多的人认识到它们的价值然后依赖于它们，最后他们才能形成最终的形态。

志荣：那你觉得 VR 跟移动互联网的产品有什么本质的区别吗？

南迪尔：移动互联网的产品我们可以分两类，一类是 Save Time，它是省时间的，例如外卖、百度；另外一类是 Kill Time，它是杀时间的，例如抖音、爱奇艺、今日头条。VR 目前来看更多是杀时间的，基本不包括省时间这个类别。VR 本身的硬件形态就决定了它没有手机更省时间，因为你要戴上笨重的头盔，在里面看不到你的手指和没有合适的键盘，你的输入效率并不高；而且现在的头盔携带性不好，不能随身到处带着。如果 VR 想像移动互联网这样爆发的话，它的硬件形态一定要比掏手机更省事；而且价格很低。

志荣：我15年的时候写过一篇文章来分析 VR 和 AR 哪一个会先火起来进入大众的视野，最后我选择了 AR。我觉得 VR 体验不只是依赖视觉和听觉，你的触觉、嗅觉都是息息相关的。但是 AR 不会有这么多的限制，它不会有这么多的技术瓶颈在这里，只要你搞定了图像识别基本就够了，你觉得呢？

南迪尔：我觉得手机普及速度很快的原因是它 Save Time 的功能很多，它能帮你联系到人、订外卖、查资料、买东西。同理，AR 能做很多 Save Time 的事情，所以我相信它的普及速度会比较快。VR 更多走的是 PlayStation 和 Xbox 的道路，就是娱乐和消费。如果 VR 想要走进大众的视野，在效率层面一定要超过手机，现在某些领域 VR 的效率优势非常明显，比如说看房，有了 VR 你就不用到现场看房了，还有像室内设计这些 ToB 的领域 VR 都有可能超越手机/PC 的体验和效率。

志荣：那你觉得做 VR 设计和做移动互联网设计有什么不一样的地方吗？

南迪尔：你设计的对象变了、设计的场景变了、设计的工具变了、设计的平台变了，但设计本质没什么变化。在形式设计上，你考虑更多的是 VR 平面和空间变得无限大，有前后和层次关系。

志荣：我觉得还有一个因素：时间的变化。空间和时间是结合在一起的，平面就不一样，你可以盯着它去看很久，但你看 VR 电影的时候，你看左侧时右侧就看不到了，信息不能被用户接收，我觉得这个也是 VR 和平面设计的很大区别。

南迪尔：对，你说的有道理。还有就是，有些信息有自己的展现形态，它们的传递是不需要三维空间的，例如图片、文字，它们不一定要转换成3D。当你要看一本小说，你把文字加厚变成立体的文字，其实没有任何意义，因为文字的二维形态就是最优解了。VR 增强的是你的体验，在信息传递的角度来看它没有太大的变化。但是有些东西本来就是三维产品，它们是带有三维信息的，例如你从一张照片里看到的房间和走进这个空间里看到的房间，感受是完全不一样的，三维信息在 VR 里展现才能突出 VR 的优势。如果你用一个高维度的工具来看低维度的内容，低维度的内容还是低维度的内容。所以你问 VR 的界面设计有什么不同，当你的二维内容从平面移植到三维空间时，其实没有什么不同，只是展示面积变得更大了，设计时我能用更多的层次关系，但本质上文字还是文字，光标还是光标。

我邀请了小米探索实验室的设计总监，和你聊聊智能音箱

△ 图源：maryanne

志荣：最后一个问题，年轻的设计师怎么拓展自己的视野？还有怎么提高自己的思考深度？

南迪尔：我觉得拓展视野分两个维度。第一个维度是知识的积累，你可以上知乎或者国内外的网站学习相关的知识以及阅读相关的报道，但我觉得视野更重要的一部分是你要亲眼看到一些人做过的事情，你才会有感觉。例如你可以多参加一些展会和演讲，亲眼学习这些设计师是用了什么思路，最后做出什么样的产品。思考深度这个要多问自己几个为什么，时间长了就会形成习惯，你就会往最本质的原因去想。如果你想形成这样的思维习惯，一开始需要一定的刻意练习。刻意练习就是遇到一个问题，思考它背后的原因，然后把原因记下来，再去想这个原因背后的原因，如此重复下去，想到不能再想了。通过刻意练习的训练，你的思考方式会逐渐变化并形成惯性。还有就是别光想，一定要用文字写下来，大脑是一个很强的 CPU，但是它的内存不足，所以你要把文字和思考写到纸上，然后只让大脑去做思考的事情。

志荣：今天的收获蛮多的，非常感谢南迪尔的分享！

欢迎关注作者的微信公众号：「薛志荣」

我邀请了小米探索实验室的设计总监，和你聊聊智能音箱