直接说结论,AI视频生成提示词没有统一的标准格式。 这事儿其实很好理解,不同公司开发的模型,比如OpenAI的Sora、Runway还是Pika,它们的训练数据和算法都不一样,就像不同的人有不同的理解能力和做事风格,你跟他们沟通的方式自然也得有区别。
但是,虽然没有一个像编程语言那样严格的“官方标准”,经过大量用户的实践,已经形成了一套事实上的“通用结构”或者说“最佳实践”。这套结构就像一个公式,你把需要的元素填进去,大多数模型都能听懂,并且生成效果不会太离谱。
这个通用公式通常包含几个核心部分:主体、动作、场景,以及一些增强画面效果的附加项,比如镜头语言、风格和光照。
一个好懂的Prompt基础结构:主体 + 动作 + 场景
最基础、最核心的提示词,说清楚三件事就够了:谁?在干嘛?在哪儿?
- 主体 (Subject): 视频里最主要的东西是什么?可以是一个人、一个动物、一个物体。描述主体时要具体。别只说“一个男人”,可以说“一个穿着旧皮夹克、胡子拉碴的中年男人”。 细节越多,AI脑子里的图像就越清晰。
- 动作 (Action): 主体在做什么?这是让视频动起来的关键。同样,动作要描述清楚。不说“走”,可以说“在人行道上悠闲地散步”,或者“在泥泞的小路上艰难地跋涉”。一个简单的动词和一个带有副词、描述更丰富的短语,生成出来的动态效果是完全不同的。
- 场景 (Scene): 这事儿发生在哪?交代背景环境。不说“在森林里”,可以说“在一片被晨雾笼罩的红杉森林里,阳光从树叶的缝隙中穿过”。 场景描述能直接决定视频的整体氛围。
举个例子,一个最简单的提示词:“一只猫在沙发上睡觉”。
把它变得更具体一点:“一只毛茸茸的橘猫蜷缩在深蓝色的天鹅绒沙发上,胸口随着呼吸轻微起伏”。
你看,后者提供的信息量大得多,AI生成的画面也会更丰富、更符合预期。
进阶部分:让视频更有“电影感”
如果只是满足于“动起来”,上面的基础结构就够了。但如果你想让视频看起来更专业,更有感觉,就需要加入一些电影拍摄的术语。
-
镜头语言 (Camera Language): 这是最能提升视频质感的部分。你可以直接告诉AI用什么机位、怎么移动。
- 镜头类型: 特写 (close-up shot)、中景 (medium shot)、全景 (wide shot)、远景 (long shot)。比如你想突出人物表情,就用“特写”。
- 镜头角度: 低角度拍摄 (low-angle shot) 能让主体显得高大,高角度拍摄 (high-angle shot) 则相反。 无人机视角 (drone shot) 或鸟瞰视角 (bird’s eye view) 适合拍大场面。
- 镜头运动: 推镜头 (zoom in)、拉镜头 (zoom out)、平移 (pan)、摇镜 (tilt)、跟拍 (tracking shot)。比如,“镜头缓慢平移,扫过整个城市的夜景”,就能制造出一种宏大的感觉。
-
光照 (Lighting): 光是画面的灵魂。描述光线能极大地影响视频的氛围。
- 常用词汇包括:黄金时刻 (golden hour),也就是日出日落时那种温暖、柔和的光。 电影光 (cinematic lighting) 通常指代对比度高、有戏剧性的光。还有边缘光 (rim light)、体积光 (volumetric lighting)、霓虹灯 (neon lights) 等。
- 比如,“一个侦探站在窗边,百叶窗投下的光影条纹打在他脸上”,这种描述就很有电影感。
-
风格 (Style): 你希望视频看起来像什么?是哪种类型的片子?
- 你可以指定一种艺术风格,比如“吉卜力动画风格 (Ghibli anime style)”、“像素艺术 (pixel art)”、“水彩画风格 (watercolor style)”。
- 也可以指定一种电影类型或导演风格,比如“科幻电影 (sci-fi film)”、“恐怖电影风格 (horror movie style)”、“韦斯·安德森风格 (in the style of Wes Anderson)”。
- 还可以指定具体的画质和年代感,比如“8K 超高清 (8K, ultra high definition)”、“1980年代的VHS录像带质感 (1980s VHS look)”。
一个完整的进阶Prompt结构
把这些元素组合起来,一个更完整、更专业的提示词结构就出来了:
[风格] + [主体] + [动作] + [场景] + [光照] + [镜头语言]
我们来实践一下。
基础版:“一个女人在雨中行走。”
进阶版:“电影感,一个穿着红色风衣的年轻女人在夜晚的东京街头行走,雨水打湿了地面,反射着五彩斑斓的霓虹灯光,黄金时刻的柔和光线,特写镜头,焦点在她的脸上。”
这个进阶版的提示词几乎把所有关键信息都给了AI,它生成出来的视频质量和氛围感会比基础版好很多。
不同模型的细微差别
虽然通用结构管用,但不同平台还是有自己的“脾气”。
- Runway: 它的提示词结构比较推荐把镜头、场景和主体分开描述,比如“[镜头移动]: [场景描述]. [更多细节]。” 用户发现,像“电影感 (cinematic)”、“获奖摄影 (award-winning cinematography)” 这类词在Runway上效果不错。
- Pika Labs: Pika对镜头运动的指令有特定的格式,比如用
-camera zoom in这样的参数来控制。 它也支持负面提示词 (Negative Prompts),你可以明确告诉它不想要什么,比如“不要出现模糊、变形的画面 (blurry, deformed)”。 - Sora: 根据目前公开的信息,Sora对自然语言的理解能力非常强。它能理解更长、更复杂的句子,甚至能在一个提示词里实现多个镜头的切换。 你可以用更像写剧本的方式去写Sora的提示词,描述一个连续的场景变化。
几个实用的个人经验
- 从简单开始,逐步迭代: 不要一开始就写一个超长超复杂的句子。先用“主体+动作+场景”的核心结构生成一个基础版本,看看AI的理解对不对路。 然后再慢慢往上加镜头、光照、风格等细节进行调整。这个过程就像跟AI对话,你给一点信息,它给一个反馈,你再根据反馈修正你的指令。
- 语言要直接,避免模糊: AI是机器,它没有人类的联想能力。 “一个美丽的场景”这种话对它来说毫无意义。 你得告诉它美在哪里:“日落时分的海滩,粉紫色的晚霞,海浪轻轻拍打着金色的沙滩”。用具体、直接的描述性词语,而不是抽象的形容词。
- 一个Prompt只做一件事: 尤其对于Sora以外的模型,一个提示词最好只描述一个单一、连贯的动作或镜头。 别指望它在一个几秒钟的视频里既有奔跑,又有跳跃,最后再来个特写。AI处理不好复杂的连续动作和场景切换。 如果需要复杂场景,可以考虑生成多个片段再剪辑到一起。
- 多看别人的作品和提示词: 很多AI视频平台都有社区,用户会分享他们的作品和用的提示词。 这是学习的最佳途径。看看效果好的视频是怎么描述的,把那些管用的关键词和句式学过来,用到你自己的创作里。
总而言之,AI视频提示词的世界更像一门手艺,而不是一门有标准答案的科学。那个所谓的“通用公式”只是你的起点,真正的关键在于不断地去尝试、观察和修正。你用得多了,自然就知道怎么跟特定的AI模型“说话”,让它把你脑子里的想法变成现实的画面。






评论前必须登录!
注册