写好一个文生图的提示词(Prompt),就像是给 AI 画师下达一个清晰的指令。指令越具体、结构越清晰,它就越能画出你想要的东西。这事儿不玄学,是有方法论的。咱们今天就把这事儿聊透,看看提示词到底由哪几部分构成,以及怎么调整各部分的权重,让 AI 更听话。
提示词的基本构成
一个好的提示词通常不是一句话,而是一系列由逗号隔开的关键词或短语的组合。你可以把它想象成在给画师贴标签,告诉他这幅画里需要包含哪些元素。虽然没有一个强制性的模板,但一个逻辑清晰的结构能帮你更好地组织思路,也能让 AI 更准确地理解你的意图。
一个常见的、有效的结构可以分为以下几个部分:
-
核心主体 (Subject):这是你画面中最想突出的东西,是整个图像的核心。可以是一个人、一个动物、一个物体或者一个场景。描述主体时要尽可能具体。比如,不要只说“一个女孩”,而是说“一个穿着红色连衣裙的长发女孩”。把最重要的主体放在提示词的最前面,因为通常越靠前的词权重越高。
-
媒介/艺术形式 (Medium):你希望这张图看起来像什么?是照片、油画、水彩画,还是 3D 渲染?明确媒介能为图像奠定一个基础的视觉基调。例如,“一张照片 (photo)”、“一幅油画 (oil painting)”、“素描 (sketch)”。
-
风格 (Style):这是决定画面整体艺术感的关键部分。你想要什么风格?是印象派、超现实主义、赛博朋克,还是动漫风格? 比如,“印象派风格 (impressionist style)”、“赛博朋克 (cyberpunk)”、“吉卜力工作室风格 (Studio Ghibli style)”。
-
艺术家 (Artist):如果你想模仿某位特定艺术家的风格,可以直接写上他们的名字。 比如,“梵高风格 (by Vincent van Gogh)”或“格雷格·鲁特科夫斯基风格 (by Greg Rutkowski)”。AI 模型在训练时学习了大量艺术家的作品,直接调用他们的名字是一种非常高效的指定风格的方式。你甚至可以组合多个艺术家的名字,创造出混合风格。
-
附加细节 (Additional Details):这部分用来丰富画面的细节,让图像更有深度和故事感。可以包括构图、视角、环境、光照和颜色等。
- 构图与视角 (Composition & Framing):想让主体如何被呈现?是特写、全身像,还是广角?例如,“特写 (close-up shot)”、“广角镜头 (wide-angle shot)”、“鸟瞰视角 (bird’s eye view)”。
- 光照 (Lighting):光线是营造氛围的利器。 “电影光效 (cinematic lighting)”、“黄昏时分 (golden hour)”、“戏剧性光照 (dramatic lighting)”都能给画面带来完全不同的感觉。
- 颜色 (Color):你可以指定主色调或者特定物体的颜色。“柔和的色调 (pastel colors)”、“单色 (monochrome)”、“鲜艳的色彩 (vibrant colors)”。
- 环境/背景 (Environment/Background):主体所处的环境是什么样的?“在森林里 (in a forest)”、“背景是 90 年代的北京 (the background is Beijing in the 1990s)”。
-
质量与分辨率 (Quality & Resolution):在提示词的开头或结尾加上一些提升画质的词,算是一种“玄学”,但确实常常有效。比如,“最高画质 (best quality)”、“杰作 (masterpiece)”、“8K”、“超精细 (ultra-detailed)”。
所以,一个结构化的提示词组合起来可能是这样的:
(masterpiece:1.2), best quality, a beautiful long-haired girl in a red dress, oil painting, impressionist style, by Vincent van Gogh, close-up shot, cinematic lighting, in a forest.
什么是反向提示词 (Negative Prompts)?
除了告诉 AI 你想要什么(正向提示词),你还可以告诉它你不想要什么,这就是反向提示词。 这对于规避一些 AI 绘画中常见的错误,比如画崩的手、多余的肢体、低质量的画面等,非常有用。
常用的反向提示词包括:
* 规避低质量:low quality, worst quality, jpeg artifacts, blurry.
* 修正畸形:malformed hands, extra fingers, mutated hands, poorly drawn hands, extra limbs, ugly, deformed.
* 排除特定内容:text, watermark, signature, NSFW.
使用反向提示词能帮你过滤掉很多不理想的结果,让出图的成功率更高。
如何调整各部分权重?
现在我们知道了提示词由哪些部分构成,但有时候 AI 并不总能完美地平衡所有元素。可能你强调了主体,它却过分关注了背景;或者你想要一种风格,它却没能充分体现。这时候,就需要手动调整关键词的权重,告诉 AI 哪个部分更重要。
在 Stable Diffusion WebUI (特别是 AUTOMATIC1111) 中,主要有三种调整权重的方式。
1. 使用圆括号 () 和方括号 []
这是最简单直接的加减权重方法。
-
增加权重:把关键词用圆括号
()包起来,每加一层括号,权重就乘以 1.1 倍。(word):权重变为 1.1 倍。((word)):权重变为 1.21 倍 (1.1 * 1.1)。(((word))):权重变为 1.331 倍。
-
降低权重:把关键词用方括号
[]包起来,相当于将权重乘以 0.9 倍(或除以 1.1)。[word]:权重变为 0.9 倍。[[word]]:权重变为 0.81 倍 (0.9 * 0.9)。
举个例子:
假设你的提示词是 a girl with red hair and blue eyes。结果生成的图片里,女孩的眼睛是棕色的。这时候你就可以通过加括号来强调“蓝色眼睛”。
修改后的提示词:a girl with red hair and (blue eyes),甚至可以更强硬一点 a girl with red hair and ((blue eyes))。这样 AI 就会更加关注“blue eyes”这个指令。
反之,如果画面中红色头发太抢眼,你想让它柔和一点,可以这样写:a girl with [red hair] and blue eyes。
2. 使用冒号加数字 (word:factor)
这种方法更精确,你可以直接指定一个具体的权重数值。语法是 (关键词:权重数值)。
- 权重数值大于 1 是增加权重。
- 权重数值小于 1 是降低权重。
- 默认权重是 1。
举个例子:
* (blue eyes:1.5):将“blue eyes”的权重提升到 1.5 倍。这比用两层圆括号 (( )) 的 1.21 倍还要强。
* (red hair:0.8):将“red hair”的权重降低到 0.8 倍。
这种方法的控制更精细,你可以微调数值,直到达到满意的效果。根据经验,权重的数值设置在 0.5 到 2 之间通常效果比较好,数值太高或太低都可能导致画面崩坏。
3. 词序的重要性
除了使用符号,提示词中关键词的顺序本身也隐含着权重关系。一般来说,越靠前的词,AI 会认为越重要。 所以,把你的核心主体和最重要的特征放在提示词的最前面,是一个简单但有效的技巧。
比如,a beautiful girl in a forest 和 a forest with a beautiful girl,前者会更倾向于生成以女孩为中心的图像,而后者则可能让森林占据画面的主导地位。
实践中的一些经验
- 迭代和实验:写提示词不是一次就能搞定的事。通常需要先写一个基础版本,生成几张图看看效果,然后根据结果不断修改、增加细节、调整权重。这是一个不断尝试和优化的过程。
- 注意词语污染:有时候一个词会“污染”到其他词。比如,当你在提示词里写了“red dress”(红色连衣裙)和“blonde hair”(金色头发),AI 有可能会把红色“溅”到头发上,生成红发。这时候就需要用权重来调整,比如加强
(blonde hair:1.3),或者尝试用更复杂的语法将它们隔离开。 - 利用
BREAK关键字:在 AUTOMATIC1111 中,提示词有 75 个 token(可以理解为单词或词组)的限制。超过这个限制,AI 会把提示词分成多个块来处理。 你可以使用大写的BREAK关键字来手动分块,这有时能让不同部分的描述更加独立,减少相互之间的影响。
最终,写提示词就像是和 AI 的一次对话。你需要清晰地表达自己,也要理解它的“思考”方式。通过掌握这些结构和权重调整的方法,你就能更自如地引导它,把脑海中的画面变成现实。多去看看别人分享的优秀作品和他们的提示词,也是学习和获取灵感的好方法。





评论前必须登录!
注册