想让一张静态图动起来,听起来简单,但要让它动得“自然”,就像真实拍摄的一样,这事儿就没那么容易了。很多人第一次尝试图生视频,生成的画面要么是局部乱动,要么就是人物动作僵硬得像木偶,感觉很怪。问题出在哪?其实,大部分时候不是AI不行,是我们的提示词(Prompt)没写对。
写图生视频的提示词,和你写文生图的提示词,思路完全不一样。文生图,你是在描述一个静止的画面,告诉AI“画什么”。但图生视频,你是在指挥一个“看不见的摄影师”,告诉他“怎么动”。你的原图是剧本,提示词就是拍摄指令。
第一步,先拆解你的图片。
拿到一张图,别急着上手就写“让它动起来”。先花一分钟仔细看。问自己几个问题:
- 主体是什么? 是人,是动物,还是一个物体?
- 背景是什么? 是天空,是街道,还是室内?
- 我想让哪里动? 是想让人的眼睛眨一下,还是想让整片云都飘起来?
- 我希望它怎么动? 是轻微地动,还是大幅度地动?
把这些元素想清楚,你的提示词才会有方向。举个例子,你有一张“一个女人站在海边,头发被风吹着”的图。如果你只写“woman hair blowing in the wind”,AI可能会把整个画面都弄得像风暴一样,女人的脸都可能变形。
正确的做法是先拆解:
- 主体: 女人
- 想动的元素: 头发、海浪、天空的云
- 不希望动的元素: 女人的脸、身体、远处的山
想清楚这个,你的提示词就有了骨架。
第二步,用精确的动词控制运动。
AI听不懂模糊的词。你跟他说“让画面更有活力”,它不知道该怎么做。你必须用具体的动词来描述运动。
我们还是用海边女人的例子。怎么让头发、海浪和云动起来,同时保持女人身体的稳定?可以这么写提示词:
“long hair gently swaying in the wind, waves slowly crashing on the shore, clouds drifting slowly across the sky.”
看,这里用了三个精确的动词短语:
- gently swaying(轻轻摇摆): 这个词告诉AI,头发的动态是柔和的,不是狂风乱作。
- slowly crashing(缓慢拍打): 这定义了海浪的节奏,避免了它们像海啸一样夸张。
- drifting slowly(缓慢飘动): 这保证了云的运动是符合自然规律的,是轻微的、不易察觉的。
把这些具体的指令给AI,它才知道你要的是一种宁静、自然的感觉,而不是一场灾难片。
再举个例子,一张“一只猫坐在窗台上看外面下雨”的图。
一个模糊的提示词可能是:“cat looking at rain”。结果可能是猫的头乱转,雨也下得乱七-八糟。
一个精确的提示词应该是:
“cat sitting still, its tail slowly twitching, raindrops sliding down the window pane, slight steam on the window.”
- sitting still(静坐): 固定住主体,这是关键。先告诉AI什么东西是不能动的。
- tail slowly twitching(尾巴缓慢抽动): 捕捉猫的细微动作,这种小细节是“自然感”的来源。
- raindrops sliding down(雨滴滑落): 明确了雨的动态,不是凭空出现,而是沿着一个表面(窗户)运动。
- slight steam on the window (窗户上轻微的蒸汽): 增加氛围和真实感。
第三步,学习控制“镜头”。
很多时候,画面动得不自然,是因为你没有给AI任何关于“镜头”的指令。默认情况下,AI生成的视频就像一个固定机位的摄像头拍出来的,画面很“死”。
你可以通过一些简单的运镜提示词,让画面立刻活起来。
- Zoom in / Zoom out (拉近 / 拉远): 这是最常用的。比如一张风景图,你可以写“slow zoom in on the mountain peak”,镜头就会缓慢地推向山顶,让观众的视线有一个焦点。这比整个画面所有东西一起乱动要好得多。
- Pan left / Pan right / Pan up / Pan down (向左/右/上/下摇镜): 这就像你转动头部看风景一样。比如一张城市天际线的全景图,你可以用“slow pan right across the city skyline”,镜头会平稳地从左向右移动,展示整个城市的风貌。
- Dolly in / Dolly out (向前/向后推轨): 这和Zoom有点像,但Dolly是模拟摄像机本身的移动,空间感更强。Dolly in会让你感觉自己正在走向画面里的某个物体。
- Tilt up / Tilt down (向上/向下倾斜): 模拟抬头或低头的动作。比如一张高楼大厦的图,你可以用“tilt up to the top of the skyscraper”,镜头会从底部慢慢抬升到楼顶。
把这些镜头指令和你对物体运动的描述结合起来,效果会好很多。比如前面海边女人的例子,我们可以进一步优化:
“A woman standing on the beach. Slow zoom in on her face. Her hair is gently swaying in the wind, while waves slowly crash in the background.”
这个指令就复杂了,它告诉AI两件事:第一,镜头要慢慢推向女人的脸。第二,在推镜头的过程中,头发和海浪需要保持自然的动态。这样生成的视频,就有了电影感。
第四步,用“-motion”参数精细控制运动幅度。
一些AI视频生成工具(比如Runway Gen-2)提供了一些参数来更精确地控制画面。其中,“-motion”这个参数很有用。它通常后面跟一个数字,范围可能是0到10。
- -motion 0: 基本就是一张静止图,几乎没有运动。
- -motion 1-3: 低运动幅度。适合做一些微小的、环境的动态,比如云的飘动、水的涟漪、人物的轻微呼吸。这是营造“自然感”最常用的区间。
- -motion 4-7: 中等运动幅度。适合一些比较明显的动作,比如人物行走、车辆行驶。
- -motion 8-10: 高运动幅度。适合非常激烈的场景,比如爆炸、快速奔跑。但这个区间很容易导致画面崩坏、主体变形,所以要谨慎使用。
怎么用呢?在你写完提示词之后,在末尾加上这个参数就行。
比如,你想让一张夜晚城市的图片动起来,但只希望车灯和霓虹灯有轻微的闪烁,而不是整栋楼都在晃。
你可以这样写:“blinking neon signs, light trails from passing cars. -motion 2”
这个“-motion 2”就是在告诉AI,我只要一点点动静,别给我搞得太夸张。这样就能得到一个非常稳定,但又有生命力的夜景视频。
第五步,用反向提示词(Negative Prompt)排除不想要的动作。
就像文生图一样,图生视频也可以用反向提示词。把你“不希望”看到的东西告诉AI。这对于保证画面稳定性和主体一致性很有帮助。
常见的反向提示词包括:
- “Deformation, distortion, morphing” (变形,扭曲,形态变化): 防止AI把你的主体弄得奇形怪状。
- “Blurry, low quality” (模糊,低质量): 保证画面清晰度。
- “Shaking, flickering” (晃动,闪烁): 避免镜头无意义地抖动,或者画面出现不自然的闪烁。
- “Too much motion, chaotic movement” (运动过多,混乱的运动): 明确告诉AI,我不想要一个乱糟糟的画面。
还是用海边女人的例子。如果你发现生成的视频里,女人的脸偶尔会有点扭曲,你就可以在反向提示词里加上“facial deformation, morphing”。这样一来,AI在生成时就会尽量避免对脸部做多余的修改。
总的来说,写好图生视频的提示词,就是一个不断精确化、具体化的过程。别指望用一个模糊的词就让AI猜到你的心思。你需要像一个导演一样,把画面拆解开,然后用清晰的指令告诉你的“AI摄影师”:哪个物体要动,怎么动,动多少,镜头要怎么配合。多做几次实验,找到感觉,你就能让任何一张静态图片,都以一种自然、真实的方式“活”过来。








评论前必须登录!
注册