
AI 时代的到来正在引发一场新的信息输入交互革命。
1. PC 时代:基于鼠标键盘,人们通过“物理适配”的方式,让输入效率提高,比如人体工学键盘鼠标、大屏显示器等。
2. 移动时代:输入方式更多样,基于多点触控、语音技术,语音、手写开始被普遍应用,并结合“自动联想”、“自动补全”、“预置词库”等方式,提升输入效率。
3. AI 时代:得益于 AI 技术的发展,输入方式变得更加自然。人们可以通过自然语言、多模态输入等方式完成输入过程。这不仅是交互方式的增加,更是沟通维度的升维:传统的“人—人”、“人—机”沟通中增加了第三者AI的辅助,也新增加了“人—AI”的沟通模式。
所以本轮变革的核心在于:从“告诉机器指令”到“告诉机器想要什么”。输入不再仅仅是数据的录入,而是意图的表达,人与机器的关系从被动的指令接受转变为协作共创。
更多AI产品体验设计干货:
在 AI 介入之前,输入体验是线性的、机械的;现在,它变得富有弹性和预测性。
1. 输入门槛极度降低,自然语言化
过去:人类适应机器,输入前,要先做准备工作
在“人-机”交互中,用户必须学习机器的语言,比如 C++、java、SQL 语法等等,才能让机器明白自己的意图,从而达到想要的效果;
人与人沟通时,要斟酌好语气,敲字过程中一边遣词造句,一边搜肠刮肚,如果没有日常的文化积累,就只能求助搜索或身边的文化人。
早期的 AIGC 工具,需要使用者熟悉、了解大量 prompt 关键词代表的含义、逻辑,才能让 AI 做出预期的图片;

早期使用 midjourney 前,先要熟练掌握 prompt 指令集,左图来自小红书
现在:语言即代码,机器开始适应人类
随着 NLP 技术爆发,机器开始真正“听得懂”人话了,用户可以用口语化、甚至方言或模糊描述的方式输入需求,机器依然能精准捕捉用户的意图。
这种体验的改变被称为“指令去结构化”,用户不再需要记忆 prompt 词,也不需要背诵快捷键、查找复杂的菜单,一切指令都可以通过输入框完成。
现在大部分 AIGC 工具都已经支持用户使用自然语言给 AI 发布任务,对生成的结果也可以通过自然语言进行调整。
以 Lovart 为例,设计师告诉 AI“帮我生成一个新年红包封面”,AI 会理解需求,根据“新年”、“红包”等关键词进行风格分析、进行配色、元素绘制,并将设计思路展示出来,方便设计师给予下一步调整的指令,然后设计师继续用自然语言告诉 AI 调整的方向,整个过程真的就像是在跟自己的助理协作共创。

Lovart 是最早实现通过自然语言交互的 AI 工具之一
以 GitHub Copilot 为代表的 AI 编程助手,也已经支持用户通过“对话式”的发布任务,让 AI 理解你的自然语言需求,并完成代码补全、代码编写任务。
视频截取自 Github Copilot 官网
2. 从“输入=输出”到“输入<输出”
传统输入模式下,用户输入 100 字,屏幕显示 100 字,很无趣,很无聊。
进入 AI 时代,AI 不会让你从每分钟输入 100 字升级到每分钟 1000 字,但可以做到只需要输入 10 个字,就生成 10000 字的结果,效率有了质的飞跃。
另外输入输出的信息媒介限制被打破。过去输入文字得到的是文字,输入语音得到的是语音,人们只做到了音频和文字之间的互相转换。而现在,输入文字,输出的结果可以是文字、音频、视频、网页、文档,甚至 app。
比如通过 Sora,输入一句话就可以得到一段视频;通过灵光,输入简单的需求就可以得到一个可交互、可发布的快应用。

在与人交流时,用户可以通过 搜狗输入法 来根据聊天内容实时合成表情,让沟通变得更有趣和生动。输入变成了一种“触发器”或“种子”,AI 负责扩充和完善。

搜狗输入法 表情合成功能,目前测试中
3. 多模态融合的输入理解
过去人们的输入被硬件所限制,比如文本框只能打字,麦克风只能录音,这种单一模态的输入割裂了我们对世界的感知,使得信息/意图的传递产生折损。
现在单一模态输入正在被多模态协同所取代。有研究学者已经证实,结合表情、语音和生理信号的融合模型,能显著提升情感识别准确率,使输入系统能捕捉更丰富的非结构化信息(如用户情绪状态),推动从"指令输入"向"情境感知输入"演进。
人类的视觉、听觉、文本可以像鸡尾酒一样混合使用,更完整地传递信息和意图,感官即输入。
在 ChatGPT 中,用户打开摄像头,就通过语音问 AI 自己的穿搭、解数学题,甚至询问数码产品使用方式,AI 可以很快给出准确的建议,多模态融合输入在这一刻无比丝滑。
视频截取自 youtube 账号 Nathan Espinoza
Apple Intelligence 也展示了类似的使用场景,用户打开摄像头对准冰箱,通过语音问 Siri 这些食材能做什么,AI 就可以根据识别到的信息给出菜谱。
视频截取自 Apple youtube 官号
未来的输入体验,将围绕“更少的操作,更懂你的意图”展开。
1. 自然交互的终极追求
在 ChatGPT、Gemini 等最前沿的 AI 产品上,我们可以看到各家都采用了 LUI(Language User Interface) 的交互形式,GUI(图形用户界面)依然存在,但是对话式交互已经成为应用的第一入口。
这种交互可以让复杂的控制面板被简单的对话框取代,软件设计从“导航层级”转向“对话流”,传统的“屏幕+按钮”模式转变为“环境+感知+意图”的模式,按钮不再是唯一入口。在这种模式下,设计者可以不用再操心要不要把功能入口全摆出来,而是思考怎么结合环境,引导用户产生意图和适当地表达。
大多数 AI 平台已经都支持用户可以同时通过文字、语音、图像、文档、甚至上下文来进行输入,而我们注意到,语音被各家 AI 产品放到了最显眼的位置。

语音交互主导体验革新
传统的语音输入有 2 大痛点,语音识别准确率不够高、语音识别耗时久,受口音、语言习惯和环境影响极大,不够稳定。
在有了 AI 加持后,语音转文本的准确率有了巨大飞跃,在一定程度上甚至可以取代打字输入。行业里语音输入的使用率每年都在提升,身边的很多朋友在体验过微信的语音转文本输入后,已经很久不自己打字了。

随着语音识别更快、语义理解更准确、语言反馈更自然,人和语音助手的交互也从“语音指令”升级为“语音对话”。
过去我们使用 Siri、小爱同学等语音助手时,感觉是在对着一个“听力不好的机器人”喊命令,而现在,体验正无限接近于人与人的自然交流。主要体现在以下几方面:
① 从“回合制对讲”到“即时通话”:
以前的语音交互流程是“唤醒词”——“用户说话”——“对方思考”——“对方回答”——“用户再说话”,AI带来的变化使得思考和停顿的时间大大减少,并且可以随时打断,实时反馈,对方没说完你就可以插嘴修正,AI能做到瞬间反应。
ChatGPT 4o 在发布会上的演示一直让我印象深刻,演示者与 AI 的对话无比自然流畅,丝毫没有一句一 loading 的卡顿感,第一次让我感受到手机后面是个真人在实时通话。之前的 AI 工具喜欢用一个具象化的角色来作为对话的形象,ChatGPT 4o 却首次使用了一个会变化的圆点,虽然抽象,但是更让人聚焦到音色、声音的起伏、情绪的表达,反而更觉得生动。
视频截取自 OpenAI youtube 官号
② 从“念稿机器”到“情绪共鸣”:
过去的语音助手听起来像是在朗读课文,没有抑扬顿挫,无法识别输入者的情绪。AI 能够听懂情绪,并表达情绪,你的叹气、呼吸、欢笑、语调都帮助 AI 理解你当下的情绪,并给出及时反馈。
当 AI 能够带入人类的视角,倾听人们跟它诉说自己的烦恼与喜悦,不做批判,而是共情、接纳并出谋划策,已经胜过了大部分男女朋友。配合上毫不违和的动人声线、随叫随到的及时反馈、永远不会不耐烦的持久陪伴,吸引了上百万年轻人选择 AI 陪伴,跟 AI 谈恋爱。

图片来自小红书
③ 从单语种到跨语言:
现在的 AI 已经可以做到快速学习你的音色,然后用你的声音流利地说其他任何语言,跨语言沟通不再是障碍的同时,还能保留你自己的个人特质。
当你看到原本英文并不流利的徐静雨在 B 站的 AI 翻译功能下,讲出一口“东北英语”,甚至口型都对得上,一定也会感叹这世界越来越魔幻了。

视频截取自 B 站 up 主 雨说体育徐静雨
④ 语音可以作为多模态的融合剂:
过去语音只能查天气、定闹钟,无法处理其他感官信息。现在有了 AI 的帮助,用户可以打开摄像头的同时与 AI 实时沟通。语音交互的实时高效、不依赖交互界面等特性,使它可以成为基底去粘合其他多模态交互,比如语音+视觉,语音+文本,语音+手势等。
语音交互的这些进化,使得它成为 AI 时代输入体验的引领者,人们不再是通过语音交互操作机器,而是通过语音与一个有性格、有记忆、有眼睛的数字生命体协作。
新型接触输入崛起
随着物联网、智能穿戴、AR/VR 等技术普及,输入体验不仅限于屏幕或键盘,而是延伸到环境/设备中。用户可以通过手势、视线、语音进行输入,在未来甚至可以通过脑机接口进行表达。
Meta AI 眼镜支持用户随时给 AI 提问,根据当前视线做出解答,比如“我现在看到的是什么”,甚至结合手势做精准的提问。
视频截取自 youtube 博主 Alex Day
目前有前沿研究在将 AIGC 与 AR 结合,用户可通过自然语言实时生成并操控 3D 设计原型,实现“所想即所得”的输入闭环。
视频截取自 youtube 博主 Kevin Xavier
2. 从“命令”转向“意图”
在 AI 驱动的系统中,用户不再需要一步步操作,也不用说“怎么做”,只需要说“要什么”。这对输入流程是个巨大的改变。
旧模式
用户操作:打开相册 → 选择图片 → 裁切 → 调整色温 → 导出
新模式
用户输入:“参考左边这张照片,将右边这张照片调得更暖一点”
AI 操作:参考风格分析→ 匹配光线→ 自动修正肤色→ 输出版本草稿
用户只负责提出需求和审阅,而不是操作。
这种交互方式更自然、更贴近人类“说出结果”而非“操作步骤”的习惯,但需要认知上的转变:过去人们没有通过“输入”完成操作的认知,而是直接去找功能按钮,现在可以通过“输入”来更快捷的操作了,面对一个空白的输入框,用户反而不知道 AI 能做什么,该怎么表达。所以设计者必须做好意图引导。
引导用户发现并表达意图,最终完成目标,可以分为三个关键阶段:
① 意图发现
用户面对 AI 时很容易不知道该说什么、怎么说,这时不要给用户一个空白的对话框,而要基于上下文给出预判。
上下文气泡引导
比如元宝在用户输入前提供了一些气泡引导,让用户知道自己可以怎么提问,可以问什么内容,引导用户产生和表达意图,气泡引导的内容可以随着对用户的提问历史、使用习惯、日程、环境、喜好等因素的了解而越来越精准。OpenAI 推出的 Atlas 浏览器首页也做了类似的引导设计。

Notion 的做法是将抽象的能力具象化为任务卡片放在首页,帮助用户了解能力,并做出选择。这不仅是快捷入口,更是在教育用户:“原来你可以为我做这些事”。

场景化意图库
另外 AI 不应该被动等待用户来输入,而要根据用户当前的屏幕内容、操作习惯或时间节点,主动推送可能的意图。
当用户在 PC 写作时,只要开启搜狗输入法划词功能,即可通过划选一段内容的方式,快速实现帮写、润色、纠错、校对等功能,用户不需要思考“我该怎么让 AI 帮助我”,只需要点击功能选项就完成了意图的发现与执行。

搜狗输入法 PC 端划词功能
② 辅助表达
当用户知道要做什么,但不知道 prompt 怎么写时,系统可以提供必要的帮助降低门槛。
结构化填空
自然语言虽然灵活,但也容易遗漏关键信息。对于复杂任务,使用“表单+AI”的混合交互会更效率,将复杂的 prompt 封装成简单的填空题有助于提高输入效率。
QQ 浏览器的 Agent 中心尝试通过为不同的需求提供规范句式,用户在关键处填空就可以得到高质量的 prompt。

渐进式引导
用户对 prompt 撰写不是很熟悉时,不要要求用户一次性把话说清楚,可以让用户抛出一个模糊的词后,由系统给出补全示例,并逐步引导用户完成后续步骤。
比如元宝在用户输入关键词后,会实时给予后续可能问题的补全,帮助用户完成 prompt 的撰写。
③ 协同澄清
这是最关键的步骤。我们跟其他人聊需求聊想法的时候,也往往不能一轮就一次性沟通清楚。意图也一样,往往是在多轮对话中澄清和收敛的。
反向澄清
当用户意图模糊时,AI 不需要强行回答,而应反问澄清。比如你问“这就去买个笔记本电脑”,传统的搜索会给你一堆广告。而 Gemini 会反问:“你的主要用途是什么?(游戏/办公/设计)”、“预算范围是多少?”。通过 2-3 轮反问,将用户的模糊意图收敛为精准的购买目标,最后直接生成对比表格。

中间物展示与确认
对于生成类任务,不要直接给最终结果,先给大纲或草图。
当我让灵光创建一个做头像的应用时,它会分析需求后,给出一个高保真的框架交互,用于确认功能和使用体验,当用户确认后再在这个基础上再进行界面风格的优化和调整,很像互联网的产品设计研发流程。

AI 时代,优秀的交互设计不是让用户学会写 prompt,而是做好意图理解和诱导。
3. 情境感知,输入开始懂你
人们认知中的输入方式是静态的,固定的,而 AI 能基于用户历史、偏好、当前情境(地点、时间、设备、情绪等)来调整输入方式或界面,输入体验是流动的。
比如在开车环境中自动转为语音输入;在写作环境中自动开启续写补全;在会议时自动开启实时记录;运动时接收体感、语音输入。
而最好的输入是不需要输入,随着“长时记忆”成为可能,系统会“记住”用户习惯,通过捕捉用户的视线、手势、心率、地理位置、日历等,精准地推测用户想做什么。
当你从办公楼走出来,双手拿满东西,特斯拉会根据你的接近路径、蓝牙距离、你的习惯时间等因素,自动弹开驾驶位车门,你下车时,它也能根据你的停靠逻辑自动泊入。
用户在这一过程中没有任何指令输入,系统依靠环境感知+行为惯例完成预测。
未来 AI 会知道你下周一上午开组会,并在周五下班前问你是否需要帮你生成一周产出,并做好总结。
除了输入体验,我们还观察到输入本身的定义已经发生变化,进而影响到很多产品的定位。
过去输入工具(比如输入法)和服务场景(比如搜索/内容社区)的分工明确,输入工具只提供打字服务,而服务场景运用“内容”来进行后续服务或内容匹配。
但在 AI 时代,输入行为本身创造出了新的服务场景:比如过去创作视频与输入没有关系,但是现在即使是小白也可以输入一句话就做出视频,输入这件事本身的定义就延展了。
输入即是内容,也是意图,输入工具可以基于用户输入的内容预测用户需要哪些服务,从而具备流量分发的能力;服务场景希望用户的每次输入都由自己的服务来承接,所以开始自建输入能力甚至输入工具。于是我们看到,输入工具和服务场景开始双向奔赴了。
我们可以把这种“双向奔赴”理解为:
1. 工具端: 从“固体”变成了“液体”
输入工具不再是一把固定的锤子,而是像水一样,能根据场景容器的形状自动改变形态,除了输入内容之外,也根据用户的意图提供服务。
以 搜狗输入法 为例,当用户发朋友圈时,可以通过场景化智能帮写一键润色文案;用户需要写评价时,可以使用场景化智能帮写快速填充内容;用户发自媒体时,可以在当前场景下生成攻略/教程,服务的内容会根据用户的场景而智能改变。

搜狗输入法 场景化智能帮写
当用户在 PC 端写作时,也可以通过搜狗输入法的智能续写功能实现轻量、快捷的续写补全。
搜狗输入法 PC端智能续写补全
而切换到社交场景,用户聊天时,搜狗输入法则会提供表情匹配和 AI 生成的能力,让用户的沟通更生动。

搜狗输入法 PC 端智能表情推荐与制作
2. 场景端:从“受限”变成了“无限”
由于输入门槛的降低,以及多模态输入技术的发展,服务场景有机会跳过输入工具,直接为用户提供服务,甚至自建输入工具。
几乎所有的 AI 产品都具有语音输入的功能,在语音输入时,其实是跳过的输入工具,与用户在直接进行交互。
而微信为了保护用户的隐私,打造了微信输入法,在提供简洁打字体验的同时,也使得用户可以在输入时直达微信生态特有的内容和服务,打造自己的闭环。

3. 终极形态:工具与场景的“无感融合”
最完美的双向奔赴,是用户感觉不到输入过程的存在。意图一旦产生,服务就已经准备好了,输入只是一个确认的动作。
想象一个未来的画面,用户将一个全天候个人记忆与助理随身携带,有可能是别在衣服上,也有可能是作为眼镜戴着,它没有屏幕,没有键盘,甚至不需要你唤醒。它一直在“听”和“看”(在隐私允许下)。
当用户和客户喝咖啡聊天时,设备默默记录了谈话内容,并识别到要点:“下周二要把合同发给对方”。谈话结束后,用户会在自己的工作台看到合同已经根据根据刚才的谈话起草好,等待确认。
AI 利用了刚才场景中的环境输入(录音上下文),瞬间完成了任务。
这个美好的未来也许还需要很久,输入工具和服务场景在未来一段时间内也将继续保持自己的一部分核心阵地不被侵蚀,但是双方的双向奔赴将持续发展。
随着输入体验变得越来越强大,越来越智能,也带来了 信任、隐私、可控性 等挑战。
所以在输入体验相关设计时,必须提供清晰的输入反馈、错误修正机制、用户可自主关闭/编辑 AI 建议的选项。
另外输入体验不应该只是“更少操作”的炒作,而应该要保证用户对系统行为的理解和绝对掌控。
AI 时代的输入体验正在经历从 “手” 到 “嘴” 到 “脑” 的进化。而随着硬件设备的不断进化和新硬件的普及,未来还可能会有新的输入体验革命。
复制本文链接 文章为作者独立观点不代表优设网立场,未经允许不得转载。




发评论!每天赢奖品
点击 登录 后,在评论区留言,系统会随机派送奖品
2012年成立至今,是国内备受欢迎的设计师平台,提供奖品赞助 联系我们
DeepSeek实用操作手册
已累计诞生 769 位幸运星
发表评论
↓ 下方为您推荐了一些精彩有趣的文章热评 ↓