写文生视频提示词,就像你在给一位经验丰富的摄影师兼导演讲戏。你不是在写一篇小说,也不是在画一幅画,而是在描述一个动态的、有时间感的场景。这里的关键是把“动”说明白,让人工智能(AI)知道画面里什么东西在动,怎么动,以及镜头怎么跟着动。
为什么描述动态场景和人物动作很重要?
想想看,如果你只说“一个女孩在公园里”,AI可能只会给你一个女孩站在公园里的静态画面。但如果你说“一个女孩在阳光明媚的公园里,穿着红裙子,开心地奔跑,裙摆随风飘动,镜头从侧面平稳地跟着她移动”,这样出来的视频就完全不同了。它有故事,有情绪,有电影感。AI模型大多是用专业的电影和视频数据训练出来的,所以它们对影视术语的理解,比我们日常的描述要强得多。 换句话说,你用电影语言跟它对话,它就能更好地理解你的意图。
核心要素:把你的视频拆开来看
一个好的文生视频提示词,通常会包含几个核心要素。你可以把它们想象成视频的“零件”。这些零件包括:主体、动作、场景、镜头运动、光照、氛围和风格。 对于动态场景和人物动作,我们尤其要关注“动作”和“镜头运动”这两个部分。
-
主体和动作:让角色“活”起来
描述人物或主体时,别只停留在“有什么”。更要深入到“在做什么”和“怎么做”。这就是“动作”部分。
- 细节是关键: 比如,不是简单地说“一个人走路”,而是“一个疲惫的徒步者,穿着红色夹克,在雾蒙蒙的松树林里行走,他的靴子踩在落叶上发出嘎吱声”。 这段描述不仅交代了人物的状态和衣着,还通过“嘎吱声”这样的环境细节,让动作更具象。
- 明确动作的幅度、速率和效果: 像“猛烈地摇摆”、“缓慢地移动”、“打碎了玻璃”这些词,都能帮助AI更好地理解动作的强度和结果。
- 分解复杂动作: 如果一个动作很复杂,可以尝试分步骤描述。比如,“女孩右手拿起帽子,微笑地用左手对镜头比个飞吻”。 这样AI就能更好地理解动作的先后顺序。
- 结合情绪: 动作往往伴随着情绪。例如,“一个因极度用力而扭曲表情的短跑运动员,面部肌肉紧绷,牙关紧咬,全力冲刺”。 这样的描述能让AI在生成动作的同时,也赋予人物相应的情绪表现。
- 多人物动作: 如果场景中有多个角色,要分别描述他们的动作。比如,“毕业典礼,学生们在聊天。学生A分享周末趣事,手舞足蹈。学生B笑得前仰后合,学生C好奇地追问细节”。
-
镜头运动:像导演一样思考
镜头运动是给视频注入电影感的关键。它决定了观众如何“看”这个场景。 AI视频工具通常支持各种电影级的运镜方式。
-
常用运镜词汇:
- 推(Push in / Zoom in): 镜头靠近主体,强调细节,增强紧张感或亲密感。 比如“镜头缓慢推近,聚焦于老人手上的吉他,老人还在弹吉他给鸽子听”。
- 拉(Pull out / Zoom out): 镜头远离主体,展现更广阔的场景,提供上下文,或者让主体显得渺小。 例如“镜头快速拉远,露出女子全身,她微微转头目光看向画面右侧,背景是一个繁华的街头”。
- 摇(Pan): 镜头从固定点水平旋转(左右摇)。 比如“镜头从湖面平摇到周围的松树,捕捉反射和风景”。
- 移(Dolly / Truck): 摄影机本身横向移动(左右移),或者前后移动(推轨/拉轨)。 “平稳的推轨镜头,沿着路径从左向右跟随,与前景元素保持一致的距离。”
- 升/降(Pedestal up/down / Tilt up/down): 摄影机垂直上下移动。 “镜头逐渐升起,露出正在自信摆姿势的帅哥”。
- 环绕(Orbit / Arc): 镜头围绕主体做弧线运动,创造视觉能量,突出主体与环境的关系。 “镜头以角色为中心,急速环绕旋转360度,背景霓虹灯拉出光影残影”。
- 跟随(Tracking shot): 镜头跟随移动中的主体,保持主体在画面中,营造沉浸感。 “镜头平稳地跟随奔跑者,穿梭于森林中,绕过树木,跳过树根”。
- 固定镜头(Static shot / Locked-off): 摄影机完全不动,画面内的所有运动都来自主体或环境。 “固定镜头,自然的速度,水杯中蒸汽稳定上升,雨水划过玻璃”。
- 手持镜头(Handheld shot): 模拟真实手持拍摄的晃动感,增加真实感和现场冲击力。
-
组合运镜: 不要害怕组合不同的运镜方式,这能创造出更复杂的电影级长镜头。 比如,“镜头从满屏的古色古香的木质屏风开始,慢慢向左平移,露出屏风后面端坐着的古风女孩,女孩穿着蜀绣汉服,发髻高高盘起,进行着线上视频会议”。 这样的描述结合了“平移”和场景内容的变化。
- 明确运镜的速度和节奏: 使用“缓慢”、“快速”、“平稳”、“急速”等词,来控制镜头的移动速度,从而影响视频的节奏和情绪。
- 视角和景别: 除了运动,还要考虑镜头的“位置”。使用“广角镜头”、“特写”、“中景”、“低角度仰拍”、“高机位俯拍”、“航拍”等术语,来设定画面的范围和观察角度。
-
结构化提示词:让AI更容易理解
虽然有些AI模型对自然语言的理解能力很强,但一个有清晰结构的提示词,能让AI更准确地理解你的意图。
一个常用的结构是:
[镜头运动]: [主体描述], [主体动作], [场景描述], [光照], [氛围/风格], [其他细节]。
比如:
慢速推轨镜头:一个穿着红色连衣裙的舞者,在温暖柔和的夕阳光线下,优雅地旋转着穿过舞台,背景是巴洛克风格的剧院大厅,裙摆的丝绸面料在运动中泛起细腻的光泽,采用古典油画的光影处理方式。
这个例子里,镜头运动、主体、动作、光照、场景、细节和风格都包含在内,而且顺序清晰,AI就很容易理解并生成高质量的视频。
进阶技巧和注意事项:
- 关键词强调: 如果你想要强调某个要素,可以策略性地重复使用语义相近的关键词。例如,为了强调“快速”运动,你可以写“快速穿梭”、“疾驰而过”、“闪电般掠过”等。
- 避免模糊描述: 不要用“美丽的场景”、“有电影感”这种泛泛的词。要具体,要用电影语言。 比如,“一个美丽的场景”不如“樱花飘落的日式庭院,清晨阳光,池塘锦鲤游动,吉卜力动画风格”。
- 逻辑一致性: 确保提示词中描述的场景、人物和动作在物理逻辑上是合理的。避免出现“一个在空中飞行的人,手上拿着一杯咖啡,飞行中没有任何气流影响”这种不符合常理的描述。
- 避免堆砌过多元素: 精简你的描述,优先聚焦核心画面。如果一个提示词太长、太复杂,AI模型可能会迷失重点。
- 多迭代、小调整: 第一次生成的视频可能不完美,这是正常的。每次只对提示词做小范围的调整,比如改变一个形容词或一个运镜方式,然后再次生成。这样更容易找到最佳效果。
- 关注时间长度和分辨率: 有些AI模型可以通过API参数设置视频的时长和分辨率,这些不是在提示词里描述的。 它们是视频的“容器”,提示词控制的是“内容”。
- 负面提示词(Negative Prompts): 有些平台支持负面提示词,也就是你希望视频中不要出现的内容。这可以帮助你排除干扰元素,让生成结果更精准。
总的来说,创作文生视频的提示词,就是要像个导演一样,把画面、人物、动作和镜头运动,甚至光线和情绪,都用简单、直接、具体的语言描述出来。多用电影术语,把“动”这个核心要素详细分解,你就离生成高质量视频不远了。





评论前必须登录!
注册