从图片到视频,AI提示词的玩法完全变了。如果你习惯了写图片提示词,直接把那套方法搬过来用,大概率会碰壁。图片生成的核心是描述一个“静态瞬间”,你就像个摄影师,任务是告诉AI“画面里有什么”。 但视频生成不一样,它要求你像个导演,你需要描述一个“动态过程”。 这不仅仅是让画面里的东西动起来那么简单,而是要设计整个动态影像的时间、动作和节奏。
简单来说,图片提示词回答的是“是什么”,而视频提示词要回答“发生了什么”以及“怎么发生的”。这个根本性的转变,要求我们在写提示词时,必须加入对动态元素的详细描述。
核心区别:从“名词”思维到“动词”思维
写图片提示词时,我们常常堆砌名词和形容词来定义画面元素:“一个穿着红色铠甲的武士,站在樱花树下,表情严肃,背景是富士山,风格是浮世绘”。这个描述非常清晰,AI能准确抓住每一个静态元素。
但如果把这个提示词直接丢给视频模型,生成出来的可能只是一张静态图片加上了轻微的摇晃,或者樱花在飘落,人物却没什么动作,效果很尴尬。因为你没有给AI任何关于“动作”的指令。
要生成视频,你的思维必须从名词切换到动词。你需要把场景看作一个正在发生的故事,哪怕只有短短几秒。你需要思考:
- 主体在做什么? (Action)
- 镜头在怎么动? (Camera Movement)
- 整个场景的节奏是快是慢? (Pacing)
所以,一个基础的视频提示词结构,通常应该包含:主体 + 动作 + 场景。 一个更进阶、效果更好的公式是:[镜头运镜] + [主体描述] + [主体动作] + [场景环境] + [灯光与风格]。
必须掌握的动态描述要素
1. 主体动作 (Subject Action)
这是最基础也是最核心的动态元素。你必须明确告诉AI,你的主角在干什么。描述要具体、直接,避免模糊的词语。
- 模糊的描述:“一个人在街上。”
- 清晰的描述:“一个穿着风衣的男人,快步走在雨天的街道上,一手撑着黑色的雨伞,另一只手插在口袋里。”
这里的“快步走”、“撑着雨伞”、“插在口袋里”就是具体的动作指令。AI接收到这些动词,才能理解需要生成一段连续的行为,而不是一个静止的姿势。
再举个例子,不要只说“一只鸟”,要说“一只蜂鸟悬停在红色的花朵前,翅膀高速振动”。这里的“悬停”和“高速振动”就是关键的动态信息。
对于几秒钟的短视频,最好只聚焦于一个单一、清晰的动作,避免在一个提示词里塞进太多复杂的行为,那会让AI感到困惑。 比如,“金色的戒指在聚光灯下缓慢旋转,捕捉着反光”就比“戒指旋转,然后切换角度,再被戴在手上”要好得多。
2. 镜头语言 (Camera Language)
这是图片生成和视频生成最大的区别。在视频里,镜头本身也是一个会移动的“角色”。你怎么运镜,直接决定了视频的观感和叙事效果。你必须像导演一样,通过提示词指挥镜头。
常用的镜头语言包括:
-
镜头移动 (Camera Movement):
- 平移 (Pan): “镜头从左向右缓慢平移,展示广阔的草原和远处的牛群。”
- 推拉 (Dolly/Zoom): “镜头缓慢推近,聚焦于主角紧张的脸部表情。”或者“镜头从狗的特写慢慢拉远,展现出整个院子。”
- 升降 (Crane/Boom): “镜头从低角度缓缓抬升,越过人群,最终定格在舞台上。”
- 环绕 (Orbit): “镜头围绕着正在篝火旁弹吉他的人做360度环绕拍摄。”
- 跟随 (Tracking Shot): “跟踪镜头,从背后跟随一个骑着摩托车的人穿过蜿蜒的山路。”
-
镜头景别 (Camera Shot):
- 特写 (Close-up): “一个女演员的特写镜头,眼泪从她的脸颊滑落。”
- 中景 (Medium Shot): “中景镜头,一个厨师正在柜台后忙碌地准备食材。”
- 全景 (Wide Shot / Long Shot): “广角镜头,展示日落时分空无一人的海滩。”
- 大远景 (Extreme Wide Shot): “航拍大远景,展现绵延起伏的山脉。”
-
镜头角度 (Camera Angle):
- 低角度拍摄 (Low-angle shot): “从低角度仰拍摩天大楼,让它看起来更加宏伟。”
- 高角度拍摄 (High-angle shot): “从高角度俯拍,拥挤的十字路口人来人往。”
- 鸟瞰视角 (Bird’s eye view): “鸟瞰视角下,一条河流蜿蜒穿过茂密的森林。”
把这些镜头指令组合起来,你就能精确控制画面的呈现方式。例如,一个好的视频提示词可能是:“低角度跟踪拍摄,一只科幻风格的机器狗正在城市废墟中奔跑,镜头紧随其后,背景是倒塌的建筑和黄昏的天空,电影感,写实风格。”
3. 时间与节奏 (Time and Pacing)
视频是时间的艺术。你的提示词也需要暗示出时间的流逝和事件的顺序。虽然大部分模型生成的视频不长,但你可以通过动作的描述来控制节奏。
- 慢节奏: 使用“缓慢地”、“轻柔地”、“逐渐”等词。例如,“雪花缓慢地从夜空中飘落。”
- 快节奏: 使用“快速地”、“突然”、“猛烈地”等词。例如,“赛车在赛道上飞速驰骋,快速切过每一个弯道。”
对于更复杂的场景,你可以尝试用“然后”、“接着”来描述一个简单的动作序列,把一个动作拆分成几个小节拍。 比如,“一个女人走了三步,停下来,抬头看,然后转身。” 这种分步指令能让AI更好地理解动作的先后顺序和节奏变化。
4. 环境动态 (Environmental Dynamics)
除了主体和镜头,环境也应该是动态的。这能极大地增加视频的真实感和沉浸感。
- 天气变化: “乌云在天空中翻滚,远处有闪电划过。”
- 光影流动: “阳光透过树叶的缝隙洒下,在地面上形成摇曳的光斑。”
- 物理互动: “雨滴打在窗户上,汇成水流滑下。”
这些细节描述让整个世界都“活”了起来,而不仅仅是主角在动。
5. 声音描述 (Audio Description)
这是一个比较新的领域,但像Sora这样先进的模型已经开始支持对声音的描述。 这是图片生成完全不具备的维度。你可以在提示词中加入对音效、背景音乐甚至对话的描述。
- 音效: “能听到海浪拍打岩石的声音和海鸥的叫声。”
- 背景音乐: “背景音乐是轻柔的钢琴曲,营造出一种宁静的氛围。”
- 对话: “一个男人轻声说:‘我回来了。’”
加入声音描述,能让你的视频从单纯的动态画面,变成一个更完整、更有故事性的片段。
总而言之,从图片到视频的提示词创作,是一次思维上的升级。你需要从一个静态的画面构建者,转变为一个动态场景的导演。下次写视频提示词时,别再只盯着画面里“有什么”了,多问问自己:它在“做什么”?镜头要“怎么拍”?整个过程“感觉如何”?当你开始思考这些问题,你的AI视频质量就会有质的飞跃。





评论前必须登录!
注册