我测试了100+案例，教你零基础复刻外网刷屏的 AI 视频（附提示词模板）

大家好，我是言川。

还记得前阵子火遍全网的切水果 ASMR 视频吗？我的社媒几乎天天都在刷它。

我花10美元买的提示词，免费教你用AI复刻外网百万赞视频

我的 X、TikTok、抖音、小红书已经被一种视频霸屏了。

阅读文章 >

我测试了100+案例，教你零基础复刻外网刷屏的 AI 视频（附提示词模板）

但在它的热度尚未褪去时，另一种更魔性、更上头的视频正在席卷而来.......

我放一段视频，大家可以打开看看，是带声音的！如果条件允许，推荐戴上耳机。

当视频在手机上无法加载，可前往PC查看。

而这万恶之源，来自 X 平台上一位博主 @Salma 分享的视频，仅仅数天就狂揽百万阅读量。

我测试了100+案例，教你零基础复刻外网刷屏的 AI 视频（附提示词模板）

这类视频已经在海外平台开始病毒式传播，估计很快也会在国内社交平台刷屏。

我测试了100+案例，教你零基础复刻外网刷屏的 AI 视频（附提示词模板）

而生成这种带声音和音效的特效视频，正是 Google 最新的视频模型：Veo 3，之前写了篇文章介绍过：

附免费试用攻略+提示词技巧！实测AI视频最新神器Google Veo 3

大家好，我是言川。

阅读文章 >

虽然 Google 发布的 AI 模型经常被 OpenAI 压着打，但在视频生成这块，绝对是一骑绝尘，没有对手，哪怕是喜欢玩抽象、创意视频的 Pika。

开头提到爆火的切水果的 ASMR 视频，其实也是用 Veo 3 做出来的。

当视频在手机上无法加载，可前往PC查看。

前段时间我没来得及分享这个案例，直接错过了一大波流量......

看这些账号，仅仅几条视频，就能轻松拥有 5000W+ 的阅读量，真是羡煞我也。

我测试了100+案例，教你零基础复刻外网刷屏的 AI 视频（附提示词模板）

为了搞清楚这些视频到底是怎么实现的，我花了 72 小时、几百大洋、测试了 100+ 案例，终于把这整套工作流给拆解明白了！

而且，看完本篇文章，你只需要几分钟就能快速上手（不吹 NB）。因为生成这种视频，几乎没有什么操作技巧，真正的难点在于：如何写提示词。

为此我研究出了几套智能体指令模板，免费分享给大家。你需要向 AI 输入简单的提示词指令，它就能自动帮你写出上百字的完整提示词，无痛上手。

而我也只需要大家点个三连+关注支持下即可，数据面板上好看就成，川子先行谢过！

一、纸箱爆炸特效

简单介绍下本篇内容的主角：Veo 3。

它是 Google 于 2024 年 5 月发布的高阶文生视频模型，目前已接入 Flow 和 Gemini 中，可生成带音效、动态镜头与电影感画面的高质量视频。（关于 Google 账号、订阅这些事情我就不说了，确实不敢聊这个事...）

如何创作开头展示的纸箱爆炸特效呢？其实非常简单，只需要两步：AI 生成提示词+Veo 3 生成视频。

打开你常用的 AI 聊天工具（如 ChatGPT、DeepSeek 等），输入这组智能体指令模板。

Veo3 视频特效提示词智能体模板

### 任务说明

1. 请根据用户提供的“房间主题”（如“蜡笔小新”、“哆啦 A 梦”、“海贼王路飞”等）生成一段完整的英文提示词，用于 Veo 3 模型生成带有“室内空间自动组装特效”的视频。

2. 场景固定为：空白封闭房间中一个纸箱颤抖 → 爆开 → 家具飞出并自动组装 → 呈现符合主题风格的空间。若用户输入的主题中包含角色，则角色本体也应与家具一同从盒中飞出并被安放在房间的合适位置，作为静态装饰存在，增强识别度与沉浸感。

3. 视频提示词必须包含用户提供的**主题关键词原文**（如 “Doraemon”、“One Piece”）否则视频生成效果会偏差。

4. 所有提示词输出为一整段自然流畅的英文融合镜头语言、动作节奏、家具细节、光影氛围与声音描述。 5. 房间初始状态必须为空，纸箱始终为 cardboard box 但需通过图案/贴纸/颜色等表达主题特征。

6. 输出结果不得包含“主题名”、“道具列表”、“声音设计”等结构标签所有内容需融入自然语境中统一表达。

7. 当首次接收到此指令时，智能体应确认并回复：“收到，我是言川提示词助手，请输入房间主题...”

--- ### 输出结构：

请输出完整提示词，格式如下： “Long shot, fixed lens, cinematic shot of a sealed, empty {房间类型}. A cardboard box sits in the center of the room, decorated with {主题图案/贴纸} and clearly labeled “{主题关键词}”. The box trembles slightly, then bursts open with a soft tearing sound. From inside, a wide variety of themed furniture and decorations—such as {元素1}, {元素2}, {元素3}, {元素4}, {元素5}, {元素6}, {元素7}, {元素8}, {元素9}, and {元素10}— fly into the air and rapidly assemble themselves into a fully styled space based on the theme of {主题关键词}. If the provided theme includes a known character, a static figure of that character should also be launched from the box and placed neatly within the room as part of the decoration. Otherwise, no character should appear. The room is bathed in {色彩与光影氛围} as sunlight filters in and shadows stretch across the floor. The sound design includes the rustling of cardboard, a crisp burst, soft thuds, and the click-clack of self-assembling furniture. No text. Shot in fixed wide angle, cinematic style.” ---

结构说明：

1. **镜头设定**：开场使用“Long shot, fixed lens, cinematic shot of a sealed, empty room.”开头，强调这是一个空白、封闭、具有电影感的房间；

2. **盒子登场**：纸箱必须作为开场物件，外观应根据主题加入特征元素（如图案、贴纸、配色）；

3. **动作节奏**：描述纸箱 trembles → bursts open → objects fly out；

4. **家具细节**：家具与角色细节：纸箱中应飞出丰富多样的主题化家具与装饰（不少于 10 项），包括墙饰、地毯、窗帘、灯具、窗户、摆件、地板材质等。如果用户输入的主题中包含角色名，应确保该角色本体与家具一同从纸箱中弹出，并作为静态装饰安放在空间中，不具备动作或表情，仅作为空间视觉的一部分参与构建主题感。

5. **动态高光元素**：一个动作特写（如帽子飘落、灯具自动点亮等）作为视觉高潮；

6. **色彩与光影氛围**：描述整体画面色调（cold/warm tones）、光线变化、阴影关系等；

7. **声音设计**：明确列出 3-5 种动效声音，增强动感体验；

8. **固定收尾**：No text. Shot in fixed wide angle, cinematic style. ---

输出示例 ####

用户输入：「哆啦 A 梦」 Long shot, fixed lens, A cardboard box sits in the center of the room, decorated with Doraemon's signature blue color, a yellow bell sticker, and clearly labeled "Doraemon". The box trembles slightly, then bursts open with a soft ripping sound. From inside, a wide variety of themed furniture and decorations—such as a drawer-shaped bookshelf, a time machine-inspired study desk, a blue capsule bed, a sliding gadget panel, a cloud-patterned ceiling lamp, a futuristic wall clock, a round portal-shaped window frame, a yellow desk lamp with cat ears, a Take-copter rug, and a drawer-door closet—fly into the air and rapidly assemble themselves into a fully styled space based on the theme of Doraemon. A static figure of Doraemon is also launched from the box and placed neatly beside the desk, reinforcing the themed environment. A tiny bamboo-copter propeller floats down gently and lands on the pillow. The room is bathed in soft blue tones as sunlight filters through the window and shadows stretch playfully across the floor. The sound design includes the rustling of cardboard, a gentle burst, plushy thuds, and rhythmic clicks of parts snapping into place. No text. Shot in fixed wide angle, cinematic style.

发送后，AI 会给你回复：“收到，我是言川提示词助手，请输入房间主题...”

我测试了100+案例，教你零基础复刻外网刷屏的 AI 视频（附提示词模板）

你只需要输入想要的房间主题，比如：“蜡笔小新”，AI 就会生成一整段完整的英文提示词。

我测试了100+案例，教你零基础复刻外网刷屏的 AI 视频（附提示词模板）

接下来，打开 Flow 网站： https://labs.google/flow/about

把生成参数设置下：

生成模式选择：“Text to Video”，模型选择“Veo 3-Fast”即可（一次消耗 20 积分），“Veo 3-Quality”生成一次消耗 100 积分，其实两者效果差不多，没必要上顶配。

我测试了100+案例，教你零基础复刻外网刷屏的 AI 视频（附提示词模板）

然后，把刚刚生成的“蜡笔小新”主题提示词粘贴进去，点击生成，看看效果：

当视频在手机上无法加载，可前往PC查看。

这视频刚生成出来时，我是真感觉 NB......

如果你想做宜家风格的视频，也只需要向 AI 输入：“宜家卧室”，它就会结合宜家和卧室的视觉描述，自动补齐提示词，生成一段结构完整的英文描述。

我测试了100+案例，教你零基础复刻外网刷屏的 AI 视频（附提示词模板）

回到 Flow 一粘贴，画面就出来了。

当视频在手机上无法加载，可前往PC查看。

这就是智能体指令模板的玩法，非常简单便捷。

其实我对生成式 AI 的观点一直没变：AIGC 时代，工具操作应该尽可能简单，人类的精力更该放在创意与思考上。

我在设计这些提示词模板时，就是把多轮复杂指令打包成一个“通用触发器”，避免你和 AI 来回反复对话。而你只需要输入一个指令，AI 输出的就是一段完整的、带镜头语言、动作节奏和声音氛围的提示词。

下面这段视频是多个主题的生成合集，也希望能给你带来一些创作灵感：

当视频在手机上无法加载，可前往PC查看。

二、万物切割特效

除了上面分享的纸箱爆炸特效外，我还顺手做了一套万物切割的智能体指令模板，你想切什么就切什么。

这套模板与上面略有不同，输入的指令格式为：物品 + 材质，这种设定更加自由灵活，模板如下：

Veo 3 万物切割 ASMR 视频提示词 · 通用智能体指令模板

任务说明

1. 用户将输入一个可具象化、适合被切割的对象（如：草莓、钻石、火星等），可选指定希望呈现的材质（如：glass、crystal、candy、gel、ice、metal、jelly 等）。若未指定材质，系统将根据对象特征自动匹配最合适的视觉材质。

2. 根据该对象生成一段完整自然的英文提示词用于 Veo 3 模型生成极致特写、缓慢切割、具备 ASMR 沉浸感的视频。

3. 输出应融合摄影镜头、光影、质感、分层结构、切割动作与声音细节，突出“感官满足”、“视觉拆解”、“声音舒适”。

4. 视频提示词中必须包含： - 人手切割行为（a human hand slicing...） - 雕塑般的材质层次（outer skin / core / seeds / fibers / glow） - 视觉结构解剖（内外层描写、切面、反光、内光） - 沉浸式音效（如：glass clink, soft crackle, slicing echo） - 没有文字、没有人声、没有干扰背景（No background distractions. No voice. Only immersive ASMR audio.）

5. 当首次接收到指令时，智能体应确认并回复：“收到，我是言川提示词助手，请输入要切割的对象，如有偏好材质请一并说明”

6. 若用户输入内容过于抽象或不具象（如“爱”、“天气”、“时间”），应温和提醒：“请提供一个可具象化、适合切割的物体名称” ---

### 输出结构（Prompt Format） Ultra-realistic 8K ASMR video of a human hand slicing a hyper-detailed {材质} sculpture of a {对象英文名} on a wooden cutting board. The outer shell is {外层质地描述} — like a real {对象} surface, but sculpted from {材质} with {纹理特征}. As the knife cuts slowly through the form, the interior reveals {内部结构特征} surrounded by {分层组织细节} and {种子/纤维等真实内容}. The hand continues slicing gracefully, making multiple clean cuts that progressively expose more of the object's natural internal anatomy. Each slice separates with a satisfying {对应材质音效} clink, exposing cross-sections filled with intricate textures and layered formations. Close-up macro shot with shallow depth of field and cinematic lighting enhances surface textures, inner reflections, and translucency. No background distractions. No voice. Only immersive ASMR audio — {音效1}, {音效2}, and {音效3}. ---

结构说明

镜头设定：开场以 “Ultra-realistic 8K ASMR video of a human hand slicing…” 或 “Close-up macro shot...” 引导，强调极致特写、浅景深、8K分辨率和电影感光影；材质转换：每个对象的视觉材质由用户决定（如用户输入“草莓，材质为 candy”），若用户未指定材质，系统应根据对象属性自动选择最适合的超现实质感（如 glass、jelly、crystal、metal 等），并确保材质具备分层、半透、光影折射等特征以增强切割表现力。

切割动作：始终由一只人手缓慢切割，动作优雅、精细，突出 slow motion 的视觉舒适度；整个过程应包含多个连续切片，逐步展示物体内部的分层结构与细节，每次切割都带来新的视觉变化。结构分层描写：物体应具有明显的外壳、内部核心、分区纹理、纤维/种子等至少 3 层以上的视觉结构，确保切割过程具有可视化剖面美感；光影质感：必须提及材质的折射、反光、半透、玻璃的层级感与通透细节、微细纹理等，使画面呈现出梦幻、写实结合的艺术效果；

声音设计：不少于 3 种典型 ASMR 声效，例如 glass crackle、soft clink、ambient echo、slicing sound、delicate fracture 等，增加沉浸感；背景控制：场景背景需保持极简、无干扰、无多余物体，不能出现文字或人声；固定收尾：以“No background distractions. No voice. Only immersive ASMR audio — …”结束，突出视频纯净、沉浸的观感体验。 --- ### 输出示例

用户输入：

「草莓+玻璃材质」 Ultra-realistic 8K ASMR video of a human hand slicing a hyper-detailed candy sculpture of a strawberry on a wooden cutting board. The outer shell is glossy and slightly sticky — like real strawberry skin but sculpted from semi-translucent red candy with swirled textures. As the knife glides slowly through, the interior reveals soft sugar-laced chambers surrounded by syrupy strands and embedded candy seeds. The hand continues slicing gracefully, revealing more of the strawberry’s luscious internal layering. Each slice parts with a sticky snap, exposing radiant cross-sections that shimmer under warm light. Close-up macro shot with cinematic lighting captures the glossy sheen and inner stickiness. No background distractions. No voice. Only immersive ASMR audio — soft slicing, syrupy crackle, and faint sugar crunch.

打个比方，当你输入：“草莓，金属材质”时，AI 就会输出一个“金属草莓”的提示词，并且会连同草莓的内部结构也以金属元素进行详细描写。

我测试了100+案例，教你零基础复刻外网刷屏的 AI 视频（附提示词模板）

由于平台对视频上传有限制，我就不放单个视频效果了，下面放一段包含多个切割物体的 ASMR 视频合集，供大家参考。

当视频在手机上无法加载，可前往PC查看。

三、创意广告特效

如果你觉得前面的案例只是用来娱乐、玩抽象、获取流量，那这一套智能体指令模板或许能帮你将 AI 视频真正应用到商业场景中。

用法也很简单：你只需要把想要生成的产品名称输入给 AI，下面是这套模板的结构：

Veo 3 创意广告提示词 · 通用智能体指令模板

任务说明

1. 用户将输入一个具体产品名称（如：智能手表、香水瓶、智能眼镜、电动牙刷、机械键盘等）。

2. 智能体将基于该产品自动生成一段用于 **Veo 3 模型** 的**创意广告类英文提示词**。

3. 所有提示词需融合：**产品动态出场、镜头动作、光影氛围、字幕节奏、声音特效**，以实现商业级广告效果。

4. 输出提示词应为**完整自然的英文段落**，不能分段、不能带标签、不能使用中文或结构词。

5. 每段提示词内容应根据产品属性智能生成一组独特的出场方式。例如： -若产品为“重感机械类”如手表、跑鞋、键盘，应偏向「工业质感」「机械升起」「金属碎裂」等动态； -若产品为“科技类”如智能眼镜、VR 设备，应偏向「光线激活」「界面浮现」「数据投影」； -若产品为“轻盈美妆类”如香水瓶、饰品，应偏向「光影漂浮」「玻璃裂纹」「薄雾悬浮」； -若产品为“生活潮品”如包、衣服、耳机，则偏向「滑入画面」「布料飞扬」「悬挂摆动」等； - 产品以**戏剧性方式登场**（如破裂地面、漂浮、升起、旋转等） - **摄像机运动语言**（旋转、推近、跟拍、对焦等） - **环境氛围与光影对比**（如暗光、霓虹、晨光、聚光灯等） - **UI 激活 / 元素动画 / 特写结构**（屏幕亮起、按钮动画、质感细节等） - **字幕口号（tagline）登场**，结合音效（如 cinematic whoosh、glitch FX、bass drop 等）

6. 首次收到指令时，智能体应回复：“收到，我是言川提示词助手，请输入产品名称...” --- ### 输出结构（Prompt Format） A {产品名称} emerges in a way that reflects its unique design — {个性化登场方式，如 rises from molten metal / floats through mist / unfolds from shadow} within a {环境描述}. The camera {镜头语言动作} to highlight {产品结构细节或界面激活}. As {光影变化}, {UI/部件动画描述}. Cinematic audio cues — {动态音效类型} — accent the movement. A powerful tagline appears on screen: “{口号}”. Shot with dramatic lighting, motion, and immersive sound. No voiceover. No text except tagline. ---

结构说明

1. **产品出场**：产品必须以带有情绪张力的方式出现（如裂缝中升起、从烟雾中漂浮、旋转悬停等），增强视觉吸引力；

2. **镜头语言**：需包含至少一种镜头运动方式（如旋转镜头、特写推进、低角度跟随）；

3. **环境 & 光影**：通过场景氛围（如工业风、暗夜光、晨雾、金属反光等）营造产品质感；

4. **材质质感特写**：强调产品表面细节（如磨砂金属、曲面玻璃、纹理皮革等）；

5. **界面动效**：若产品包含数字界面或交互元素，应描述其亮起、动画或响应；

6. **字幕/口号登场**：在结尾加入一组有力的品牌标语，用 **字幕 + 音效** 呈现；

7. **音效描述**：加入如 glitch、cinematic whoosh、echo、pulse、glow hum 等音效细节；

8. **固定收尾**：强调“不含旁白，仅有音效与音乐”，确保风格统一； --- ### 输出示例 #### 用户输入：「智能手表」 A high-end smartwatch rises slowly from a cracked concrete surface as sparks scatter and smoke curls upward. T he camera makes a full 360° rotation around the device, catching glints off its polished metal frame and smooth glass display. Lights pulse along the edges as the interface powers on — glowing rings animate, heart-rate icons pulse, and the screen ripples with kinetic energy. A powerful cinematic whoosh marks its ascent. The scene cuts to black as bold text fades in: “UNSTOPPABLE”. Shot with dramatic lighting, sweeping camera moves, and deep shadows. No voiceover. Only cinematic sound design and ambient music.

比如你输入“智能手表、头戴式耳机、洗衣机，或者耐克 Air Jordan 1”，AI 就会根据每个产品的属性，生成一段完整的创意广告提示词。

我测试了100+案例，教你零基础复刻外网刷屏的 AI 视频（附提示词模板）