给AI模型写提示词,很多人觉得是个玄学。但其实,这更像是在学习两种不同的“方言”。你跟一个说北京话的人聊天,跟一个说广东话的人聊天,用的都是中文,但方式肯定不一样。Midjourney和Stable Diffusion就是AI绘画界的两个“方言”代表,搞懂它们的脾气,出图效果才能控制得住。
它们最根本的区别在于“思考”方式。
Midjourney更像一个艺术家。你跟它说话,得像跟人沟通一样,用描述性的、自然的语言。它擅长理解意境、氛围和艺术风格。你不用把每个细节都掰碎了说给它听,它会自己发挥,甚至给你惊喜。简单直接的短语,它就能领会精神。
Stable Diffusion则更像一个工程师或程序员。它需要你给出精确、结构化的指令。你得把想要的东西拆解成一个个关键词,用逗号隔开,清清楚楚地告诉它。 它对语法的理解没那么强,但对关键词的权重、顺序非常敏感。 你给的指令越明确,它执行得就越到位。
下面我们分开细说,到底该怎么跟它俩“聊天”。
如何跟“艺术家”Midjourney沟通?
跟Midjourney打交道,你要把自己当成一个艺术总监,而不是程序员。核心是“描述画面”,而不是“下达指令”。
1. 用自然语言,说人话
忘掉那些复杂的语法和权重符号。Midjourney更喜欢简单的、描述性的句子。
比如,你想画一只猫。
- 一个不太好的例子(Stable Diffusion风格):
1 cat, tabby cat, green eyes, photorealistic, high detail - 一个更好的例子 (Midjourney风格):
A photorealistic portrait of a tabby cat with striking green eyes.(一只虎斑猫的超写实肖像,有着引人注目的绿色眼睛。)
你看,后一种说法更像我们在描述一张照片,而不是在罗列标签。Midjourney能很好地理解这种自然的描述,并在此基础上进行艺术创作。它会自己去补足光影、构图等细节。
2. 关注核心主体和风格
Midjourney的提示词结构可以很简单:主体 + 艺术风格/媒介 + 环境/光线/色彩。
- 主体 (Subject): 你想画什么?一个人,一个动物,还是一个场景。 要具体。不说“a man”,而是说“an old fisherman with a weathered face”(一个饱经风霜的老渔夫)。
- 风格 (Style): 这是Midjourney的强项。你可以直接指定艺术家的名字(比如
in the style of Van Gogh),或者某个艺术流派(比如Impressionist painting)。 也可以是摄影风格,比如Cinematic still(电影剧照感) 或者golden hour lighting(黄金时刻光线)。 - 构图和参数 (Composition & Parameters): Midjourney用参数来控制技术细节,这些参数要放在提示词的最后,用
--引导。 最常用的就是宽高比--ar。比如你想要一个手机壁纸,就可以用--ar 9:16。想要电影画幅,就用--ar 16:9。
一个完整的Midjourney提示词例子:
A majestic lion with a flowing mane, standing on a rocky cliff at sunrise, epic fantasy art, cinematic lighting, vibrant colors --ar 16:9
(一只雄伟的狮子,鬃毛飘逸,日出时分站在岩石悬崖上,史诗奇幻艺术风格,电影感光效,色彩鲜艳 –ar 16:9)
这个提示词读起来就像一段故事的开头,画面感很强。Midjourney拿到后,就会像一个艺术家一样开始构思创作。
3. 少即是多,让它自由发挥
在Midjourney里,提示词不是越长越好。过多的细节反而会限制它的发挥,让画面变得混乱。 先给出一个简单的核心概念,看它生成什么,然后再在好的结果上做迭代。这就像你给一个画家提出初步想法,然后根据草图再深入沟通。
如何跟“工程师”Stable Diffusion沟通?
和Stable Diffusion合作,你需要切换到一种更严谨、更有逻辑的模式。它的每一个指令都需要清晰无误。
1. 关键词驱动,逗号分隔
Stable Diffusion的核心是关键词。你需要把画面拆分成一个个独立的元素,然后用逗号把它们串联起来。 顺序很重要,越靠前的词权重越高。
一个推荐的结构是:质量词 + 主体描述 + 细节 + 风格/媒介。
- 质量词 (Quality tags): 这是告诉Stable Diffusion“我要一张好图”的直接方式。比如
masterpiece(杰作),best quality,ultra-detailed,8k,photorealistic。把这些词放在最前面,能有效提升画面整体质量。 - 主体描述 (Subject): 和Midjourney一样,要具体。但在这里,是用关键词组合来描述。比如
1girl, solo, brown hair, blue eyes, smiling。 - 细节 (Details): 衣服的样式、背景的环境、人物的动作,都用关键词加上去。
wearing a white dress, standing on a beach, sunset, ocean background。 - 风格 (Style): 同样可以用艺术家名字、艺术流派等关键词。
impressionism, by van gogh。
一个完整的Stable Diffusion提示词例子:
masterpiece, best quality, 1girl, solo, beautiful detailed eyes, long blonde hair, smiling, standing in a lavender field, soft sunlight, cinematic shot, by makoto shinkai, anime style, highly detailed
(杰作,最高质量,1个女孩,单人,精致的眼睛,金色长发,微笑,站在薰衣草田里,柔和的阳光,电影镜头,新海诚风格,动漫风格,高细节)
你看,这完全是一堆标签的组合,几乎没有完整的句子结构。但对于Stable Diffusion来说,这是最高效的沟通方式。
2. 精确控制:权重和负面提示词
这是Stable Diffusion最强大的地方,也是和Midjourney最大的不同。
-
权重调整 (Weighting): 如果你特别想强调某个元素,可以用括号把它括起来增加权重。 比如
(red dress:1.3),意思就是红色裙子的重要性是普通词的1.3倍。多层括号((red dress))也有类似效果。 相反,用中括号[blue dress]可以降低权重。- 用法示例:
a girl in a (red dress:1.5),这样生成的图片里,裙子是红色的概率会大大增加。
- 用法示例:
-
负面提示词 (Negative Prompts): 这是Stable Diffusion的另一个核心功能。你不仅可以告诉它你“想要什么”,还可以明确告诉它你“不想要什么”。 几乎所有Stable Diffusion的用户界面都有一个专门的负面提示词输入框。
- 常用负面提示词:
low quality, worst quality, blurry, text, watermark, extra fingers, deformed hands, ugly。 这些词可以有效避免一些常见的AI绘画错误,比如多出来的手指或者奇怪的签名。 - 内容控制: 如果你想要一个没有人的风景画,可以在负面提示词里加入
no people, human。
- 常用负面提示词:
3. 技术参数的直接设定
在Stable Diffusion的各种操作界面(比如AUTOMATIC1111)里,图片的尺寸、迭代步数(Sampling Steps)、引导系数(CFG Scale)等技术参数都是直接通过设置选项来调整的,而不是像Midjourney那样写在提示词里。 这也体现了它作为“工程师”的特点——所有技术参数都清晰明了,供你精确调校。
总结一下,Midjourney像是在和一个充满创造力的艺术家对话,你要用生动的语言激发它的灵感,并给予它一定的创作自由。而Stable Diffusion则更像是在操作一台精密的仪器,你需要用结构化、标准化的指令去设定每一个参数,以求达到最精确可控的结果。
到底用哪个,没有绝对的好坏,完全看你的需求。如果你想要快速获得充满艺术感和惊喜的图片,不在乎对细节的绝对控制,那就和Midjourney聊天。如果你脑海里已经有了一幅非常具体的画面,需要精确控制每一个元素,甚至是避免某些元素的出现,那Stable Diffusion这位“工程师”会是你更好的合作伙伴。





评论前必须登录!
注册