AI视频这东西,关键就在于你怎么跟它“说话”。你给它的指令,也就是提示词(Prompt),直接决定了最后出来的片子是个啥样。说白了,你就是导演,提示词就是你的剧本和分镜脚本。写得好,AI就是个顶级制作团队;写得烂,它就只能给你一堆不知所谓的动态画面。
咱们先拆解一下,一个能打的提示词,到底由哪几块构成。把它想成一个公式,会简单很多。

基础公式:主体 + 动作 + 场景 + 风格
这是最核心的骨架,缺一不可。
- 主体 (Subject): 你的片子里,主角是谁?或是什么?是“一个穿着宇航服的猫”,还是“一辆复古红色跑车”。主体一定要清晰。别说“一个人”,要说“一个胡子拉碴、眼神疲惫的中年男人”。细节越多,AI脑补的空间就越小,结果就越可控。
- 动作 (Action): 主体在干嘛?这是视频的核心,是“动”起来的关键。是“在月球表面跳着霹雳舞”,还是“在深夜的沿海公路上飞驰”。动作要具体,避免模糊的词。比如,“开心”这个词就很抽象,AI很难理解。 你可以把它具体化成“脸上露出灿烂的笑容,一边走一边蹦蹦跳跳”。
- 场景 (Scene): 这事儿发生在哪?“一个破旧的仓库里,只有一束光从天窗打下来”,或者“樱花盛开的东京街头,人来人往”。 场景描述能给视频定下基调和环境。
- 风格 (Style): 你想要什么感觉的片子?是“宫崎骏动画风格”,“80年代复古科幻电影质感”,还是“国家地理纪录片风格”。风格词能最快地让AI抓住你想要的美学方向。
把这几块拼起来,就有了个基础的提示词:“一只穿着宇航服的猫,在月球表面跳着霹雳舞,背景是地球,宫崎骏动画风格。”
但是,想让视频有“电影感”,光有这些还不够。你得把自己当成摄影师,加上镜头的描述。
进阶公式:主体 + 动作 + 场景 + 风格 + 镜头语言
镜头语言是拉开普通玩家和高手差距的关键。这里面主要包括几个方面:
- 景别 (Shot Size): 就是镜头离主体有多远。常见的有“特写 (close-up shot)”(比如只拍眼睛),“中景 (medium shot)”(拍到腰部),“全景 (wide shot)”(能看到整个环境)。
- 镜头角度 (Camera Angle): 你从哪个角度拍?是“低角度拍摄 (low-angle shot)”(显得主体高大),“俯视镜头 (overhead view)”(上帝视角),还是普通的平视。
- 镜头运动 (Camera Movement): 这是让画面“活”起来的灵魂。别让镜头死在那儿。你可以用“镜头缓慢向前推进 (slow dolly in)”,“围绕主体旋转 (orbit around the subject)”,“手持摄影机带来的轻微晃动 (handheld camera/subtle shake)”。 这些专业的术语,AI基本都能听懂。
我们把刚才的例子升级一下:“特写镜头,一只穿着宇航服的猫,在月球表面跳着霹雳舞,背景是缓缓升起的地球,镜头围绕猫缓慢旋转,宫崎骏动画风格,色彩温暖。”
你看,加了镜头语言,画面感是不是立刻就出来了?
咱们来看个更实际的对比案例,你就明白差距在哪了。
目标: 生成一个男人在雨中漫步的伤感视频。
差的提示词: 一个男人在下雨的街上走路,他很难过。
- 问题分析: 这个描述太模糊了。“难过”是个内部情绪,AI很难直接表现。 “街上”是什么样的街?“走路”是怎么个走法?一切都交给AI去猜,结果自然好不到哪去。出来的视频可能就是一个面无表情的火柴人,在一个随便画的街道上僵硬地移动。
好的提示词: 中景镜头,一个穿着黑色风衣的中年男人,在深夜空无一人的东京街头独自走着。大雨倾盆,霓虹灯的倒影在湿漉漉的地面上拉长。镜头从他身后跟随拍摄 (tracking shot from behind),他的肩膀微微垮塌,低着头,看不清表情。电影感,冷色调 (cinematic, cool color tone)。
- 优点分析: 这个提示词提供了足够多的视觉信息。 “黑色风衣”、“深夜的东京”、“霓虹灯倒影”共同构建了场景和氛围。“肩膀垮塌”、“低着头”是“难过”这个情绪的具体化、动作化的表现。而“跟随拍摄”的镜头运动,会给观众一种代入感,好像我们也在跟着他走。这样出来的视频,故事感和情绪感染力就强多了。
现在,除了从零开始的“文生视频”,很多工具也支持“图生视频”(Image-to-Video)。就是你给AI一张静态图片,让它动起来。这个技巧的核心在于,你的提示词要描述出“应该发生什么运动”。
比如,你上传了一张 একজন craftswoman 在工作室的照片。
差的提示词: 让她动起来。
- 问题分析: 这等于什么都没说。AI不知道是该让她眨眼,还是让她手里的工具飞起来。
好的提示词: 镜头缓慢推近 (slow zoom in),聚焦在她正在雕刻木头的手上,可以看到木屑轻轻飞溅,背景里的灯光有轻微的闪烁。
- 优点分析: 指令非常明确。 告诉AI镜头的运动方式(推近),运动的焦点(手),以及需要添加的动态细节(木屑和灯光)。这样,AI就能在一张静态图片的基础上,合理地创造出符合逻辑的微小动态。
最后,再聊聊一些实战中的小经验。
第一,保持简洁,一件事说一次。一个提示词最好只描述一个连贯的镜头。 别想着在一个提示词里写个蒙太奇,比如“一个男人先是在山顶看日出,然后镜头一转他已经在水下游泳了”。AI会懵掉。想实现这种效果,就生成两个视频,再用剪辑软件拼起来。
第二,具体,再具体一点。别用“一些”、“好看的”、“有趣的”这种形容词。什么是“好看的”?是“色彩饱和度高、充满活力的”,还是“柔和、褪色的复古感”?直接告诉AI你想要什么样的视觉元素。
第三,不断试错和迭代。别指望一次就能生成完美的作品。通常,第一次生成的结果可以看作是一个“草稿”。你可以根据这个草稿,回头去修改你的提示词。 也许是动作不对,也许是风格有点偏。比如你发现画面太暗了,就可以在提示词里加上“明亮的自然光 (bright natural light)”或者“黄金时刻的柔和光线 (soft golden hour lighting)”。
第四,不同模型的“脾气”不一样。像Sora、Runway、Pika这些工具,它们对提示词的理解能力和侧重点都有细微差别。 有的可能对电影术语更敏感,有的可能在生成动漫风格上更拿手。 这就需要你多去体验,甚至去看看别人在这些平台上分享的成功案例,学习他们的写法。有时候,同一个提示词在不同平台上的效果会截然不同。
总而言之,生成AI视频的过程,其实是你把脑子里的画面,翻译成AI能听懂的语言的过程。这个翻译工作做得越精准、越细致,AI就越能成为你高效的执行伙伴。








评论前必须登录!
注册