AI让照片动起来,这个想法以前听起来跟科幻电影一样。现在,这事儿已经很普遍了,很多人都玩过。但问题来了,具体要用什么“提示词”(prompt)?又有哪些工具能做到?
这事得分两种情况看。
第一种,也是最常见的一种,其实不太需要你写什么复杂的提示词。很多工具已经把功能做得非常傻瓜化,你只要上传照片,点几个按钮,AI就自动帮你搞定。这有点像用美图秀秀,你不需要懂什么叫“图层”或“蒙版”,直接选个滤镜就行。
第二种,就更进阶一点。你需要给AI一些文字指令,告诉它你想要画面怎么动。这种方式自由度更高,但对工具的要求也不一样。
我们先从简单的说起,那些不需要你写代码、写复杂指令的工具。
一键生成的“懒人”工具
这类工具的核心就是简单、直接。你给它一张静态照片,它给你一个动态视频。
1. MyHeritage 和它的 “Deep Nostalgia”(深度怀旧)
这个工具前几年特别火,专门用来让老照片里的人“活”过来。你上传一张祖辈的黑白照片,它能让照片里的人眨眼、微笑、转头。
- 它怎么工作? MyHeritage 用的是一家叫 D-ID 的公司的技术。 它预设了很多种人类面部表情和动作的视频模板。当你上传照片时,AI会识别出照片里的人脸,然后把这些预设的动作“贴”上去,让脸部看起来就像在动。
- 需要提示词吗? 完全不需要。你只需要上传照片,然后从它提供的几个动作里选一个,比如“微笑”、“点头”或者“左顾右盼”。它不是通过文字来理解你的需求,而是直接提供选项。
- 实际效果怎么样? 效果很惊人,尤其是第一次看的时候。老照片里严肃的曾祖父突然对你微笑,那种感觉挺奇妙的。但是,因为动作是预设的,所以你看多了会发现,所有人动的模式都差不多,有点重复。
2. D-ID (Creative Reality Studio)
D-ID 就是给 MyHeritage 提供技术的那个公司。他们自己也有一个更强大的平台,叫 Creative Reality Studio。这个工具不只是让照片动,还能让照片里的人开口说话。
- 它怎么工作? 你上传一张人像照片,然后输入一段文字,或者上传一段录音。AI会分析音频的音调和节奏,生成匹配的嘴唇动作,让照片里的人看起来就像在念你输入的文字。
- 需要提示词吗? 这里,“提示词”就是你要让那个人说的话。比如,你上传一张爱因斯坦的照片,然后在文本框里输入“相对论其实很简单”,AI就会生成一个视频,视频里爱因斯坦会开口说出这句话。你还可以选择不同的语音和语言。所以,它的“提示词”更像是“台词”。
- 有什么用? 这个工具的商业用途很多。比如,很多公司用它来做培训视频或者产品介绍,让一个虚拟的“数字人”来讲解,省去了请真人演员和拍摄的成本。
3. HeyGen
HeyGen 和 D-ID 很像,也是一个主打让照片开口说话的工具。 它在让口型和语音同步这方面做得不错。
- 它有什么特别的? HeyGen 最近有个功能很火,就是视频翻译。你上传一段你说中文的视频,它可以把它翻译成英文、日文或者其他语言,而且视频里你的嘴型都会跟着变成说那门外语的样子,非常自然。虽然这和“让照片动起来”有点区别,但技术根源是相通的,都是AI在理解、分析和重构人脸的动作。
- 需要提示词吗? 同样,这里的“提示词”就是你要输入的“台词”。操作逻辑和 D-ID 基本一样:上传照片,输入文字,选择声音,然后生成视频。
这些工具的共同点是,它们把复杂的技术打包成了一个简单的界面。用户不需要理解背后发生了什么,只需要做选择题。这对于只想快速体验一下、或者有简单需求的人来说,非常友好。
需要你提供“方向”的进阶工具
接下来要说的,就更像是真正的“AI创作”了。你需要用文字告诉AI,你想要画面发生什么变化。这里的“提示词”就变得很重要。
这类工具通常被称为“文生视频”(Text-to-Video)或“图生视频”(Image-to-Video)。你给它一张图片,再配上一段文字,它就能把这张静态图片变成一段动态视频。
1. Runway (特别是它的 Gen-2 模型)
Runway 是目前这个领域里最出名的工具之一。它的 Gen-2 模型可以直接根据文字生成视频,也可以在你上传的图片基础上添加动态效果。
-
它怎么工作? 你上传一张图片,然后在提示词框里描述你希望发生的动态。比如,你上传一张平静湖面的风景照。
- 提示词示例:
- “Subtle ripples on the water surface.” (水面泛起轻微的涟漪。)
- “The clouds in the sky slowly drift from left to right.” (天空中的云从左向右缓慢飘动。)
- “A gentle breeze rustles the leaves of the trees.” (微风吹拂,树叶沙沙作响。)
AI会理解这些描述,然后在你提供的图片基础上,只让水面、云和树叶动起来,而山和地面保持静止。
- 提示词示例:
-
写提示词有什么技巧?
- 要具体,不要模糊。 不要只说 “make it move” (让它动起来)。要说清楚是 什么东西 在动,以及 怎么动。是“快速飘动”还是“缓慢移动”?是“微风”还是“狂风”?描述得越详细,AI生成的效果就越接近你的想象。
- 用简单的动词和名词。 比如,”cars driving down the street” (汽车在街上行驶),”people walking on the sidewalk” (行人在人行道上走动)。
- 控制动态的范围。 Runway 里有个功能叫“运动笔刷”(Motion Brush),你可以用鼠标在图片上涂抹,告诉AI只有你涂抹的这个区域需要动起来,其他地方保持不变。 这就给了你更精确的控制。比如,在一张人像照片里,你只想让人物的头发被风吹动,就可以只涂抹头发部分。
2. Pika Labs
Pika 和 Runway 是直接的竞争对手,功能也非常相似。它同样支持“图+文”生成视频的模式。
-
它怎么工作? 操作流程和 Runway 基本一样。上传图片,写提示词。
- 提示词示例:
- 你上传一张咖啡馆的照片,提示词可以写:”Steam rising from the coffee cup.” (咖啡杯里冒出蒸汽。)
- 你上传一张夜晚城市的照片,提示词可以写:”The city lights are twinkling.” (城市灯光在闪烁。)
- 提示词示例:
-
Pika 的特点是什么? Pika 的社区氛围很好,很多人在 Discord 上分享自己的作品和提示词,你可以从中学到很多。它的效果有时候会更有创意或者说“艺术感”一些,但这也意味着结果可能不太可控。
3. Kaiber
Kaiber 是另一个流行的AI视频生成工具。它在生成音乐视频(MV)方面很受欢迎,很多艺术家用它来给自己的音乐配上迷幻、抽象的视觉效果。
-
它怎么工作? 你可以上传一张图片作为视频的“起始帧”,然后输入提示词描述你想要的风格和动态。比如,你可以上传一张乐队的照片,然后写提示词:
- 提示词示例: “Psychedelic animation, flowing colors, band members morphing and pulsing to the beat.” (迷幻动画风格,流动的色彩,乐队成员随着节拍变形和脉动。)
-
它的提示词有什么不同? Kaiber 的提示词更侧重于描述“风格”(style)和“感觉”(mood),而不仅仅是物理运动。你可以用 “in the style of Van Gogh” (梵高风格) 或者 “cinematic, dramatic lighting” (电影感,戏剧性光照) 这类词来影响最终的视频画面。
提示词到底是什么?
看了这么多例子,你会发现,在“让照片动起来”这件事上,“提示词”并不是一个统一的概念。
- 对于 MyHeritage 或 D-ID 这样的工具,所谓的“提示词”其实就是你要它说的“台词”。你不需要描述动作,因为动作是预设好的。
- 对于 Runway 或 Pika 这样的工具,提示词是你给AI的“导演指令”。你需要告诉它:谁来演(画面主体)?做什么动作(动态描述)?用什么风格(画面风格)?
写好这类提示词,关键在于把一个复杂的动态场景,拆解成几个简单的、可执行的指令。
比如,你想要让一张“雨中街道”的照片动起来,一个好的提示词应该是这样的:
“Raindrops falling and creating ripples in the puddles on the asphalt. The neon signs are reflected on the wet street, flickering slightly. A car drives by in the background, its headlights cutting through the rain.”
(雨滴落下,在柏油路的水坑里泛起涟漪。霓虹灯的倒影在湿漉漉的街面上微微闪烁。一辆车从背景中驶过,车灯划破雨幕。)
你看,这个提示词包含了三个独立的动态元素:
1. 雨滴和涟漪。
2. 霓虹灯闪烁。
3. 背景里的车。
把它们组合在一起,就构成了一个生动的场景。AI会尝试去理解并实现这些指令。当然,目前的技术还不完美,有时候AI会“误解”你的意思,或者生成一些奇怪的效果。但这正是这类工具的有趣之处,你需要不断尝试和调整,像一个真正的导演一样,引导AI去完成你想要的创作。



评论前必须登录!
注册