撰写视频生成的提示词,最大的挑战不是想出画面,而是让画面“动”起来。静态画面的提示词已经有很多人聊过了,但视频不一样,视频的关键在于动态和变化。如果你的提示词只能生成一幅幅孤立的漂亮图片,那最后得到的视频也只会是一连串图片的生硬拼接,毫无生气。
要让AI真正理解你想要的动态效果和场景如何衔接,提示词就得写得更聪明。这不像跟人说话那么简单,AI没有那么多联想能力,你必须把指令拆解得足够细、足够直接。
怎么描述“动”?别只说“跑”,要说“怎么跑”
很多人写动态,上来就是“一个人在跑步”。AI当然能生成一个跑步的人,但这个“跑”是什么样的?是在操场上冲刺,还是在公园里慢跑?是被人追赶的惊慌失措,还是享受运动的悠然自得?这些细节的缺失,会让AI随便给你一个它认为最常见的“跑步”画面,结果往往不是你想要的。
要让动态变得具体,可以从这几个方面入手:
1. 拆解动作过程:用“开始-经过-结束”的思路
一个动作不是瞬间完成的,它有过程。把这个过程告诉AI,画面就有了连续性。
比如,你想生成一个“打开书”的动作。
- 不要只写:
A woman opens a book.(一个女人打开书) - 试试这样写:
A woman's hands gently lift the hardcover of an old book, the pages flutter for a moment, and then settle flat, revealing handwritten text.(一只女人的手轻轻掀开一本旧书的硬壳封面,书页短暂地颤动了一下,然后平坦地展开,露出手写的文字。)
你看,后面这个描述就把“打开书”这个简单的动作拆成了三个部分:掀开封面、书页颤动、最终展开。这个过程感,能帮助AI生成一个连贯、自然的短镜头。AI在处理这种有时序关系的描述时,会倾向于把它们理解为一个连续的动作流,而不是三个独立的画面。
再举个例子,生成一个“投篮”的镜头。
- 简单的写法:
A basketball player shoots a basketball.(一个篮球运动员在投篮) - 更具体的写法:
Close-up on a basketball player's hands gripping the ball, he crouches low, then jumps, pushing the ball upwards in a smooth arc towards the hoop.(特写篮球运动员紧抓篮球的双手,他屈膝下蹲,然后起跳,将球以一道平滑的弧线推向篮筐。)
这种写法提供了清晰的动作序列,AI就能一步步地去构建这个动态过程。
2. 强调“力”和“速度”:用词要精确
动态的核心是能量的传递。你的提示词里应该包含描述力量和速度的词。这些词能给AI一个明确的物理感受,让它知道这个动态是强劲的还是柔和的,是快的还是慢的。
- 描述速度: 用
slowly(缓慢地),quickly(快速地),suddenly(突然地),gradually(逐渐地)。 - 描述力量和形态: 用
drifting(漂浮),exploding(爆炸),creeping(蔓延),stomping(重踏),gliding(滑行)。
比如,同样是“车在行驶”。
A car drives down a street.(一辆车在街上行驶) – 这太模糊了。A vintage convertible glides smoothly down a sun-drenched coastal highway at sunset.(一辆老式敞篷车在日落时分,平稳地滑行在阳光普照的沿海公路上。) – “滑行”这个词就比“行驶”更有画面感,它暗示了一种轻松、流畅的动态。A rally car skids around a sharp turn on a gravel road, kicking up a cloud of dust.(一辆拉力赛车在碎石路上一个急转弯处漂移,扬起一片尘土。) – “漂移”和“扬起尘土”则完全是另一种感觉,充满了力量和速度感。
AI在处理这些具体的动词时,会调用它数据库里与这些物理动态相关的视觉信息,生成的结果自然就更准确。
3. 别忘了摄像机的运动
视频的动态感,一半来自主体,另一半来自摄像机。明确告诉AI摄像机该怎么动,这是最直接、最有效的控制视频节奏和视角的方法。
常见的摄像机运动指令包括:
Zoom in / Zoom out(拉近 / 推远):这个最常用,可以用来强调某个细节或者展示更广阔的环境。比如Slow zoom in on a character's face to reveal a subtle smile.(缓慢拉近角色的脸,展现一个微妙的微笑。)Pan left / Pan right(向左 / 向右摇摄):水平移动镜头,适合展示横向展开的风景或者跟随一个水平移动的物体。比如The camera pans right across a sprawling cityscape at night.(镜头向右摇摄,扫过夜晚广阔的城市景观。)Tilt up / Tilt down(向上 / 向下倾斜):垂直移动镜头,适合展示高大的物体,比如从一栋摩天大楼的底部向上移动到顶部。Crane shot(摇臂镜头):镜头像起重机一样升起或降下,能创造出一种宏大的、上帝视角的感觉。比如Crane shot rising above the forest canopy, revealing a hidden lake.(摇臂镜头从森林的树冠上方升起,揭示出一个隐藏的湖泊。)Tracking shot(跟拍镜头):摄像机跟随一个移动的主体。这对于保持观众对主体的关注非常重要。比如Tracking shot following a dog as it runs through a park.(跟拍镜头,跟随一只在公园里奔跑的狗。)
把摄像机指令和你对主体动态的描述结合起来,效果会好很多。比如,A woman walks down a crowded street, the camera follows her from behind in a steady tracking shot. (一个女人走在拥挤的街道上,摄像机以稳定的跟拍镜头从她身后跟随。) 这样一来,整个镜头的动态就非常清晰了。
场景转换怎么做?要靠“过渡”而不是“切换”
视频不是一个场景跳到另一个场景就完事了。生硬的切换会让视频看起来像个PPT。场景之间需要有逻辑、有联系的过渡。在提示词里,你就得把这个“过渡”的方式描述出来。
1. 利用相似元素或动作进行匹配剪辑 (Match Cut)
这是电影里很经典的转场手法,就是让前一个场景的结尾和后一个场景的开头在形状、动作或声音上有一个相似点,从而实现平滑过渡。
- 形状匹配: 比如前一个镜头是一个旋转的唱片,后一个镜头是一个旋转的摩天轮。你可以这样写:
Scene 1: Close-up of a black vinyl record spinning on a turntable. The camera zooms into the center label. Scene 2: The spinning label seamlessly transforms into a giant Ferris wheel at night, glittering with lights.(场景1:黑胶唱片在唱机上旋转的特写。镜头拉近到中心的标签。场景2:旋转的标签无缝地变成一个夜晚巨大的摩天轮,闪烁着灯光。) - 动作匹配: 一个人挥手告别,下一个镜头是另一个地方的树叶在风中摇摆。你可以这样写:
Scene 1: A man waving his hand goodbye. Scene 2: The waving motion transitions into leaves swaying gently in the wind in a quiet forest.(场景1:一个男人挥手告别。场景2:挥手的动作过渡到安静森林里随风轻摆的树叶。)
这种基于“相似性”的指令,AI更容易理解其中的关联,从而生成一个视觉上连贯的转场,而不是简单的场景切换。
2. 使用“摄像机穿透”效果
让摄像机穿过某个物体,进入下一个场景,这也是一种很酷的转场方式。
- 穿过墙壁或门:
The camera moves towards a wooden door, passes right through it, and enters a bustling medieval marketplace on the other side.(摄像机朝一扇木门移动,直接穿了过去,进入了另一边一个熙熙攘攘的中世纪市场。) - 穿过一杯水:
The camera dives into a glass of water on a table, the bubbles clear to reveal an underwater scene with colorful coral reefs.(摄像机潜入桌上的一杯水里,气泡散去后,展现出一个有着五彩珊瑚礁的水下场景。)
这种指令给AI一个明确的路径,告诉它两个场景之间的物理连接方式,它就不太会搞砸。
3. 用淡入淡出和叠化 (Fade & Dissolve)
这是最基础也最稳妥的转场方式。虽然简单,但直接告诉AI用什么方式过渡,总比让它自己猜要好。
- 淡入淡出 (Fade in / Fade out):
The scene of a sunset over the ocean slowly fades to black.(海边日落的场景慢慢淡出至黑色。)Fade in from black to a morning scene in a cozy kitchen.(从黑色中淡入,展现一个舒适厨房的早晨场景。) - 叠化 (Dissolve): 叠化是让前一个画面逐渐消失的同时,后一个画面逐渐显现。
The face of an old man dissolves into the face of a young boy, showing the passage of time.(一个老人的脸叠化成一个年轻男孩的脸,表现时间的流逝。)
直接使用 fade to, dissolve into 这类词,AI就能准确执行这种经典的转场效果。
总的来说,写视频生成的提示词,就像在给一个非常听话但毫无想象力的机器人编写程序。你不能指望它能心领神会。你必须把动态拆解成过程,用精确的词描述速度和力量,并且明确指挥摄像机怎么动。在场景转换上,不要让场景孤立存在,要用匹配剪辑、摄像机穿透或者经典的过渡效果把它们连接起来。这样做,你生成的视频才会有生命力,而不是一堆图片的简单堆砌。





评论前必须登录!
注册