写提示词(Prompt)这事儿,其实没那么玄乎。很多人把它想得太复杂,搞一堆花里胡哨的词,结果AI根本不认。说白了,你就是在跟一个很聪明但没什么想象力的实习生沟通,必须把话说明白、说具体。尤其是在做视频的时候,怎么让时长和画面听你指挥,是有一些实打实的办法的。
先说怎么控制时长,这事儿比较直接
大部分AI视频工具,在生成界面都会给你一个选项,让你直接选要生成多长的视频,比如3秒、5秒、10秒。 这当然是最简单的办法。但问题是,有时候你选了10秒,AI为了填满时间,可能会给你加一些你根本不想要的动作或者镜头,导致画面拖沓。
所以,更精确的控制方法还是得靠提示词本身。
1. 用时间戳来切分镜头
这是一个非常有效的方法,特别适合需要多个连续镜头的视频。你可以在提示词里用括号或者方括号标出每个动作发生的时间段。
比如你想做一个10秒的视频:一个男人从远处走近,然后微笑。你可以这么写:
[0-5s] 一个穿着黑色夹克的男人从街道尽头向镜头走来,全身镜头。 [5-10s] 镜头切换为中景,男人停下脚步,对着镜头微笑。
这种写法的好处是,你把整个视频拆分成了几个明确的“任务块”。AI就知道在哪个时间段该干什么事,而不是自己瞎猜。 这样做出来的视频,节奏感会好很多。而且,通过调整每个时间段的长度,你就能精确控制整个视频的总时长。
2. 动作描述要和时长匹配
你不能让AI在3秒内完成一个复杂的长镜头,比如“一个人跑完一场马拉松”。这不现实。AI会很困惑,最后生成一堆乱七八糟的快速闪过的画面。
反过来,如果你只给一个简单的动作,却要求生成很长的视频,比如“一个人眨眼睛,持续15秒”,AI为了填满时间,可能会让这个眨眼动作变得极其缓慢,或者在后面加上很多奇怪的、不相关的画面。
所以,你描述的动作,在现实中大概需要多久完成,就给AI设定多长的时间。比如,“一个人慢慢举起咖啡杯喝了一口”,这个动作可能需要4-5秒。你就在工具里选择5秒的时长,这样生成出来的效果就比较自然。
3. 利用“扩展”功能逐步加长
现在很多平台都有“视频扩展”(Extend Video)功能。 你可以先生成一个3-5秒的基础片段,如果觉得不错,再用这个功能往下续。续的时候,你可以写新的提示词,告诉AI接下来要发生什么。
比如,你先生成了“一只猫坐在窗台上看外面”。然后你想让它跳下去,就可以用扩展功能,并输入新的提示词:“猫从窗台上跳下来,稳稳地落在地板上”。
这种方法的好处是你可以一步步地控制故事走向,像拍电影一样,一个镜头一个镜头地拍。 每次扩展通常会增加4-5秒的时长。 但要注意,为了保持连贯性,新的提示词必须和前一个镜头的主体、环境保持一致,否则画面很容易“跳戏”。
再说画面的连贯性,这个比控制时长要复杂
画面的连贯性,尤其是人物和场景的一致性,是现在AI视频生成最大的痛点之一。你经常会发现,同一个角色,上一个镜头还是圆脸,下一个镜头就变成方脸了,衣服颜色也变了。要解决这个问题,需要从提示词和工作流程两方面入手。
1. 锁定核心元素:把话说死
想要保持一个东西不变,你就要在每个提示词里反复强调它的核心特征。这听起来很笨,但非常有效。
-
对于角色:不要只说“一个男人”,要说“一个有着金色短发、蓝色眼睛、穿着红色T恤和蓝色牛仔裤的30岁男人”。每次需要这个角色出场时,就把这段详细描述原封不动地复制粘贴进去。 你描述得越具体、越独特,AI就越不容易搞混。
-
对于场景:同样地,不要只说“一个房间”,要说“一个有着白色墙壁、木地板、窗边放着一盆绿色植物的简约客厅”。这个描述也要在所有相关镜头的提示词里保持一致。
简单来说,就是把变量变成常量。把角色的外貌、服装,场景的布置这些你不想让它变的东西,用非常具体、甚至有点啰嗦的语言固定下来。
2. 使用参考图或参考视频
这是目前保证一致性的最好方法,没有之一。很多工具现在都支持“以图生视频”或“以视频生视频”的功能。
具体操作是这样的:
* 第一步:生成一张“角色设定图”。 你可以用Midjourney或者Stable Diffusion这类工具,先生成一张这个角色的标准正面图,把所有细节都确定下来,比如脸型、发型、服装。
* 第二步:用这张图作为参考。 在生成视频的时候,把这张“角色设定图”上传,然后在提示词里描述动作。AI会努力让视频里的人长得和参考图一样。
有些更高级的工具,比如阿里的通义万相,甚至支持上传一段参考视频。 AI会学习视频里角色的外貌、动作特征甚至音色,然后让这个角色在新的场景里“表演”你用提示词描述的剧情。 这种方法生成的多镜头视频,角色一致性会非常好。
3. 一个镜头只做一个动作
不要在一个提示词里塞太多指令,这会让AI混乱。 比如,“一个女人走进房间,坐下来,然后拿起桌上的书开始阅读”,这个指令包含了三个动作。AI很可能只做好了第一个,后面的就乱了。
正确的做法是把它拆成三个镜头:
* 镜头一:一个有着金色长发、穿着白色连衣裙的女人,推开门走进客厅。
* 镜头二:(使用参考图)女人走到沙发旁,坐了下来。
* 镜头三:(使用参考图)女人的特写,她伸出手,拿起了桌上的红色封面的书。
把复杂的叙事分解成简单的、单一的动作,一个提示词只负责一件事。 这样生成出来的每个短片质量更高,也更容易保持连贯,最后再把它们剪辑到一起就行了。
4. 明确镜头语言
使用专业的摄像和灯光术语,能让AI更准确地理解你想要的画面。 这就像跟摄影师沟通,你说“广角”,他就不会给你一个“特写”。
- 镜头类型:明确说是“特写镜头(close-up shot)”、“中景(medium shot)”还是“全景(wide shot)”。
- 镜头运动:描述镜头是如何移动的,比如“镜头向前推进(dolly in)”、“从侧面跟随角色(side-tracking shot)”或者“围绕主体环绕(orbit around the subject)”。
- 光照:描述光线效果,比如“黄金时刻的柔和光线(golden hour lighting)”、“戏剧性的伦勃朗光(dramatic Rembrandt lighting)”或者“阴天的散射光(overcast daylight)”。
把这些术语加到提示词里,不仅能让画面更专业,也能在不同镜头之间建立一种统一的视觉风格,从而增强连贯性。
总的来说,控制AI视频就像在驯服一头野兽。它很有力量,但你需要给它非常清晰的规则。对于时长,关键是把动作和时间对应起来,或者用时间戳进行强制规定。对于连贯性,核心是“锁定”,用详细的描述、参考图和统一的镜头语言,减少AI自由发挥的空间。这需要不断尝试,但一旦掌握了方法,你会发现它还是挺听话的。





评论前必须登录!
注册