一个好的AI文生图提示词,就像是给AI画师下达的一份清晰、具体的工作指令。指令越明确,画师就越能画出你脑子里想的那个画面。反之,如果你说得模棱两可,比如只给一个词“狗”,那AI可能会给你一只卡通狗、一条真狗的照片,或者一幅关于狗的油画,完全随机。想让AI听懂你的话,关键在于把提示词拆解成几个核心部分,然后像搭积木一样组合起来。
1. 主体 (Subject):画面的核心
主体是整个画面的焦点,是你最想让别人看到的东西。 这一步要说清楚“画什么”。主体可以是人物、动物、物品,甚至是某个特定的角色。描述主体时,越具体越好。
- 不说“一个男人”,而是说“一个留着花白胡须、戴着圆框眼镜的老人”。
- 不说“一辆车”,而是说“一辆20世纪60年代的红色敞篷跑车”。
除了主体本身,还要描述它的状态和动作。 比如,这个老人是在“低头看书”,还是“迎着风大笑”?这辆跑车是“停在路边”,还是“在沿海公路上飞驰”?这些动态的描述能让画面更有故事感。
举个例子,我之前想生成一张赛博朋克风格的街猫图片。一开始我只输入了“一只猫,赛博朋克”,结果生成的图片里,猫的形象很模糊,有时甚至和背景混在一起。后来我把主体细化成“一只穿着发光项圈的黑猫,蹲坐在一个生锈的金属箱子上”,这样一来,AI就准确抓住了画面的核心,生成的猫立刻就有了焦点。
2. 媒介与风格 (Medium & Style):决定画面的“质感”
确定了画什么,接下来要决定“怎么画”。 媒介指的是你希望这张图看起来像什么,是照片、油画、水彩画,还是3D渲染图? 风格则是更具体的艺术流派或个人特征。
- 媒介 (Medium):你可以指定它是“数码绘画 (digital painting)”、“素描 (sketch)”、“照片 (photograph)”或者“雕塑 (sculpture)”。 这个词会直接定义图片的基础质感。例如,用“照片”作为媒介,AI就会更倾向于生成逼真的图像。
- 风格 (Style):风格的范围很广。可以是艺术流派,比如“印象派 (Impressionism)”、“超现实主义 (Surrealism)”或“浮世绘 (Ukiyo-e)”。 也可以是某个著名艺术家的风格,比如“梵高风格 (in the style of Van Gogh)”或“宫崎骏风格 (in the style of Hayao Miyazaki)”。 甚至可以是某种流行文化的美学,比如“赛博朋克 (Cyberpunk)”、“蒸汽朋克 (Steampunk)”或者“皮克斯动画风格 (Pixar style)”。
把媒介和风格结合起来,效果会更好。比如,“一张超现实主义风格的油画 (a surrealist oil painting)”,或者“一张具有电影感的照片 (a cinematic photograph)”。AI在训练时学习了大量带有这些标签的图片,所以它能很好地理解这些指令。
3. 环境与背景 (Environment & Scene):故事发生的舞台
一个好的主体需要一个合适的背景来衬托。 环境描述了主体所处的位置和场景,为画面提供了上下文。
- 具体地点:是在“拥挤的东京街头”、“安静的森林深处”,还是“月球表面”?
- 天气和时间:是“一个下着小雨的黄昏”、“阳光明媚的午后”,还是“星光璀璨的夜晚”?
- 氛围:你希望画面传达什么样的情绪?是“神秘诡异的 (eerie)”、“宁静祥和的 (serene)”,还是“充满未来感的 (futuristic)”?
环境描述不需要太复杂,但要能服务于主体。如果我想画一个“在雨中沉思的侦探”,那么背景可以是“一条霓虹灯闪烁的湿漉漉的小巷”,这个环境就很好地增强了侦探的孤独感和故事的悬疑氛围。
4. 构图与视角 (Composition & Viewpoint):决定我们如何“看”这张图
构图和视角决定了观众从哪个角度看画面中的主体,以及画面元素的布局方式。 这就像你是一个摄影师,正在决定相机应该放在哪里、用什么镜头。
- 视角 (Viewpoint):是从上往下看的“鸟瞰视角 (bird’s-eye view)”,还是从下往上看的“仰视视角 (low-angle shot)”? 是离主体很近的“特写 (close-up)”,还是能看到广阔场景的“远景 (wide shot)”?
- 镜头类型:你可以指定“广角镜头 (wide-angle lens)”来表现空间的开阔,或者用“长焦镜头 (telephoto lens)”来压缩空间、突出主体。
- 构图法则:一些基础的构图法则,如“三分法 (rule of thirds)”或“中心构图 (centered composition)”,也可以直接写进提示词里。
比如,同样是画一座山,用“广角镜头,仰视视角”就能表现出山的雄伟和压迫感。而用“远景”则能展示山与周围环境的关系。
5. 光线与色彩 (Lighting & Color):画面的灵魂
光线和色彩是决定画面氛围和情绪的关键因素。 不同的光线能塑造出完全不同的感觉。
- 光线类型:“柔和的光线 (soft light)”通常感觉温暖平静,“戏剧性的光线 (dramatic lighting)”则充满张力。 “边缘光 (rim light)”可以勾勒出主体的轮廓,而“霓虹灯 (neon lighting)”则直接指向赛博朋克或都市夜景的风格。
- 色彩描述:你可以直接指定主色调,比如“以蓝色和金色为主色调 (blue and gold color scheme)”,或者描述色彩的整体感觉,如“鲜艳的色彩 (vibrant colors)”、“单色调 (monochromatic)”或“柔和的色调 (pastel colors)”。
我做过一个实验,生成“一间书房”的图片。第一次我只写了主体,结果平平无奇。第二次我加上了“傍晚,温暖的灯光从一盏台灯中透出,有体积光 (volumetric light)”,整个画面的温馨和安静感立刻就出来了。
6. 细节与质量 (Details & Quality):最后的润色
这部分是用来提升画面整体精致度的。 AI模型通常能理解一些用来形容图像质量的词。
- 质量词:比如“超写实 (photorealistic)”、“超精细 (hyper-detailed)”、“8K”、“高细节 (highly detailed)”等。 加上这些词,AI会倾向于生成分辨率更高、细节更丰富的图像。
- 负面提示词 (Negative Prompts):有时候,告诉AI“不要画什么”和“要画什么”同样重要。 比如,生成人像时,经常会出现手指或四肢数量不对的问题。你可以在负面提示词里加入“多余的手指 (extra fingers)”、“畸形的 (deformed)”、“模糊的 (blurry)”,来避免这些常见错误。
组合与顺序
一个结构化的提示词通常会按照重要性来排序,AI会对靠前的词给予更高的权重。 一个比较通用的公式是:
[媒介类型] of [主体] and [主体的细节描述], in [环境/背景], [风格], [光线], [色彩], [构图], [质量词]
例如,把我们上面讨论的元素组合起来,一个高质量的提示词可能是这样的:
“一张电影感的照片 (媒介),一个穿着风衣的侦探 (主体和细节),站在雨中湿漉漉的东京小巷里 (环境),霓虹灯光反射在地面上 (光线),整体色调偏冷 (色彩),特写镜头 (构图),超精细,8K (质量)。”
当然,这只是一个基本框架。不同的AI模型对提示词的理解方式略有不同。 比如Midjourney可能更喜欢简短、富有诗意的描述,而Stable Diffusion则对结构化、充满细节的提示词反应更好。 最好的方法还是不断尝试,通过修改和增加某个部分的描述,观察生成结果的变化,慢慢你就能找到最适合自己想法的表达方式。








评论前必须登录!
注册