Stable Diffusion(后面简称SD)的提示词写法,跟Midjourney或DALL-E这类模型比起来,确实不太一样。你可以把它理解成一个是“自动挡”,另一个是“手动挡”。Midjourney更像是自动挡,你用自然语言描述一个大概的画面,它就能给你很惊艳的结果。 但SD是手动挡,它给了你极大的控制权,但同时也要求你说得更“精确”,更像是给机器下达指令。
最核心的区别在于,SD的提示词更依赖“关键词”或者说“标签(Tag)”的堆砌,而不是流畅的自然语言句子。 比如在Midjourney里,你可能会写:“一个宇航员在种满鲜花的火星花园里看书,画面充满宁静的氛围”。但在SD里,更高效的写法是:“1 astronaut, reading book, mars garden, full of flowers, peaceful atmosphere”,用逗号把这些核心元素隔开。 这种写法的背后逻辑是,SD的文本编码器(CLIP)会将你的提示词分解成一个个的“Token”(标记),这些Token才是真正指导AI绘画的东西。 单词和短语比完整的句子更容易被准确地识别成不同的Token。
精确控制的“手动挡”特性
SD的“手动挡”特性主要体现在以下几个方面,这也是它跟其他模型最不一样的地方:
1. 权重控制:可以决定哪个词更重要
这是SD一个非常有用的功能。有时候你希望画面里某个元素更突出,比如“一个戴着红色帽子的女孩”,你特别想要那顶红色的帽子显眼。在SD里,你可以给“红色帽子”这个关键词增加权重。
具体操作很简单,就是用括号。比如 (red hat),这样一来,“red hat”的权重就提高了1.1倍。如果你觉得还不够,可以多加几层括号,像这样 ((red hat)),权重会继续增加。 当然,更精确的方式是直接指定数字,比如 (red hat:1.4),这就意味着把这个词的权重设置为1.4。 反过来,如果你想减弱某个元素,可以用方括号 [blue dress],或者用数字 (blue dress:0.8) 来降低它的重要性。
这种功能在其他模型里就很难实现。Midjourney虽然也有一些参数可以调整,但无法像SD这样对单个词汇进行如此精细的控制。
2. 负面提示词 (Negative Prompt):明确告诉AI“不要什么”
负面提示词是SD的另一个标志性功能。 它相当于一个过滤器,让你告诉模型在生成图片时需要避开哪些东西。 比如,AI绘画早期经常出现手部画不好的问题,多根手指或者手指畸形很常见。有了负面提示词,你就可以在专门的输入框里写上 mutated hands, extra fingers(变异的手,多余的手指),AI就会尽力避免生成这些内容。
这功能非常实用。除了修正画面缺陷,它还可以用来排除不想要的风格或者物体。比如你想要一张干净的肖像照,就可以在负面提示词里加入 text, watermark, logo(文字,水印,标志)来避免画面出现多余的干扰信息。 很多时候,一张高质量的图片不仅取决于你写了什么(正向提示词),更取决于你排除了什么(负面提示词)。
3. 词序的重要性:越靠前,影响越大
在SD的提示词里,关键词的顺序会直接影响最终结果。一般来说,越靠前的词权重越高。 所以,你应该把最核心的主体放在最前面。 比如,你想画“一个在森林里弹吉他的女孩”,那么“girl”或者“1 girl”就应该放在最开头,而不是把“forest”放在前面。
这个规则虽然简单,但非常影响出图效果。如果你把一大堆描述画质和风格的词,比如 masterpiece, best quality(杰作,最高质量)放在最前面,可能会削弱核心主体的表现力。 一个比较好的习惯是,先把主体和动作描述清楚,然后再逐步添加风格、环境、光照和颜色等细节。
4. 提示词混合与切换:更高级的玩法
SD还支持一些更复杂的语法,让你可以实现一些特殊效果。
- 关键词混合:你可以用
[keyword1:keyword2:factor]的语法,让AI在生成过程的不同阶段使用不同的关键词。 这里的factor是一个0到1之间的数字,它决定了从keyword1切换到keyword2的时间点。比如[a dog:a cat:0.5]意味着在生成过程的前50%会参考“狗”,后50%参考“猫”,最后可能得到一个“猫狗混合”的生物。 - 交替绘制:使用
[red|white] hair这样的语法,可以让模型在每一步采样中交替使用“红色”和“白色”,最终可能生成红白相间的头发。 - BREAK关键词:SD处理提示词有一定的长度限制(通常是75个token)。 如果你的提示词很长,超出的部分效果会减弱。使用大写的
BREAK关键字可以强制把一个长提示词分成多个独立的区块来处理,让每个区块的关键词都能得到应有的重视。
和其他模型的对比总结
总的来说,Midjourney和DALL-E 3在理解自然语言方面做得更好,它们会尝试理解你整个句子的意图和语境。 你可以像和人聊天一样描述画面,它们通常能给你一个整体氛围和艺术感都很不错的图片,非常适合新手或者追求快速获得美感的用户。
而Stable Diffusion则更像一个功能强大的专业工具。它对自然语言的理解力稍弱,更依赖于精确的关键词和语法结构。 但它提供了极高的自由度和可控性。 你可以通过权重、负面提示词和各种高级语法,像程序员写代码一样精确地控制画面的每一个细节。这让它在需要特定构图、角色一致性或者精细调整的场景下更有优势。 同时,由于SD是开源的,社区里有大量的定制模型(Checkpoints)和LoRA(一种微调模型),这些都可以通过特定的提示词来调用,极大地丰富了它的风格和能力。
所以,选择哪个模型,取决于你的需求。如果你想要轻松、快速地获得漂亮的图片,Midjourney可能是更好的选择。但如果你享受精细打磨每一个细节的过程,希望对画面有绝对的控制权,那么学习Stable Diffusion的提示词写法会给你带来更大的创作空间。





评论前必须登录!
注册