玩AI绘画,提示词(Prompt)就是你的方向盘。但你可能会发现,同一个提示词,在不同的AI模型里跑出来的图,效果天差地别。这不是玄学,是因为每个模型“听懂”人话的方式不一样。搞懂它们的脾气,才能让AI真正为你打工。
Midjourney:像和艺术家沟通,讲究“意境”
Midjourney(简称MJ)像一个很有艺术细胞的画家。你不用跟它说得太细,它就能给你搞出很有氛围感的作品。MJ的提示词风格更偏向于自然语言和艺术性描述。
它的特点是:
* 擅长理解“感觉”: 你跟它说“一个孤独的宇航员在巴洛克风格的图书馆里喝咖啡”,它不仅能画出这个场景,还会自动给你加上电影般的灯光和构图。 它很会“脑补”,自动优化画面,让图看起来很“高级”。
* 对简短、有力的词反应很好: 有时候,一堆复杂的描述不如几个精准的风格词。比如,“赛博朋克,东京街头,雨夜,霓虹灯”,这几个词MJ就能给你一张氛围拉满的图。
* 参数是它的“开关”: MJ有很多后缀参数,这是它的一大特色。比如,你想做个手机壁纸,就在提示词后面加上 --ar 9:16(ar代表aspect ratio,宽高比)。想让风格更奇特一点,就试试 --style raw 或者调整 --stylize 的数值。这些参数是跟MJ沟通的“快捷键”,比用语言描述构图要直接得多。
怎么选?
如果你刚开始玩,或者你想要快速得到一张有艺术感、看起来很惊艳的图,那就用Midjourney。它很适合出概念图、艺术海报或者壁纸。你不需要懂太多技术细节,只要把想法用描述性的语言说出来,它就能给你惊喜。 缺点是,它有时候太有自己的想法,你想让它100%听你的,会有点难。比如让它精准地在图上写字,就比较费劲。
举个例子,在Midjourney里你可以这么写:
a girl in a white dress, standing on the beach, sun hat, ocean, orange sky, absurdres
这个提示词很简洁,就是几个核心元素和风格词的堆砌。MJ会自己去组织画面,构图和光影通常都不会差。
Stable Diffusion:像在开手动挡,要的是“精准控制”
Stable Diffusion(简称SD)则完全是另一种逻辑。它像一个技术高超的工程师,你得给它非常明确、技术性的指令。 SD是开源的,这意味着全世界的开发者都可以基于它训练各种各样的模型。
它的特点是:
* 指令要具体,甚至要用“公式”: 在SD里,提示词更像是一串代码。你会看到很多括号和数字,比如 (masterpiece:1.2), (best quality), a girl。括号是用来加强某个词的权重,数字越大,AI就越会重视这个元素。这在MJ里是没有的。
* 负面提示词(Negative Prompts)很重要: 这是SD的一大精髓。你不光要告诉它“画什么”,还要告诉它“不要画什么”。 比如,你怕它画出六根手指的手,就在负面提示词里写上 (deformed hands:1.5), extra fingers。这给了用户极大的控制权,可以避开很多AI绘画的常见问题。
* 模型决定风格,提示词负责细节: 用SD之前,你得先选一个“大模型”(Checkpoint)。有专门画二次元的,有专门画写实照片的,还有画水墨国风的。 你选了二次元模型,再怎么写“照片级真实”,效果也不会好。模型定下了风格的基调,你的提示词只是在这个基调上做微调。 此外,还有LoRA这种小模型,可以把它看作风格“补丁”,能让你的图更接近某个特定画师的风格或者某个角色的样子。
怎么选?
如果你对画面有非常具体的要求,比如角色的姿势、服装的细节、画面的精确构图,或者你想生成特定角色的同人图,那么Stable Diffusion是最好的选择。它学习成本更高,需要你花时间去了解不同模型和关键词的用法,但回报是无与伦比的控制力。
举个例子,在Stable Diffusion里,同样画海边的女孩,你可能得这么写:
正面提示词:
(masterpiece:1.2), best quality, 1girl, asian, blue eyes, short hair, straw hat, standing, blue bikini, on the beach, ocean waves, orange sky at sunset
负面提示词:
(worst quality:1.2), (low quality:1.2), lowres, monochrome, greyscale, multiple views, comic, sketch, blurry, deformed, disfigured, extra limbs, extra fingers
你看,这个指令就“技术”多了,它在告诉AI每一步应该怎么做,不该怎么做。
DALL-E 3:像和聊天机器人说话,强在“理解”
DALL-E 3(现在集成在ChatGPT里)的强项在于它对自然语言的理解能力。 它背后是强大的GPT模型,所以你基本可以像和人聊天一样跟它提要求。
它的特点是:
* 能听懂复杂的大白话: 你可以给它写一个很长、很具体的句子,甚至是一个小故事,它都能准确理解其中的逻辑关系。 比如,“画一个宇航员,他不是在月球上,而是在一个长满了巨大荧光蘑菇的森林里,手里还拿着一本旧书”,DALL-E 3能很好地处理这种包含多个元素和复杂关系的场景。
* 对话式修改: 这是它最方便的地方。你生成一张图后,可以直接说:“不错,但把背景改成广州塔下面”,它就能理解你的意思并且修改图片。 这种互动方式对新手极其友好。
* 生成文字能力强: 在AI绘画里,想让图里出现准确的文字一直是个难题。DALL-E 3在这方面做得比其他模型好很多,你让它在一个招牌上写“开业大吉”,它真的能写对。
怎么选?
如果你想创作有故事性的插画,或者需要精确表达一个复杂的场景,DALL-E 3是首选。 它不需要你学习特定的语法或参数,只要把你的想法用清晰的语言描述出来就行。特别适合做漫画、故事板或者需要配文的设计。
举个例子,在DALL-E 3里,你可以非常口语化地描述:
我想要一张图,一个穿着白色连衣裙、戴着草帽的女孩站在沙滩上。现在是傍晚,所以天空是橘色的,能看到海。我希望这张图有种安静、温暖的感觉,有点像电影截图。
这个提示词就像你在跟一个设计师提需求,DALL-E 3能很好地get到你的点。
如何选择?一个简单的决策流程
想清楚你要什么,是选择模型的关键。
-
我只是想快速出图,要好看、有艺术感就行。
- 选Midjourney。 它能帮你省掉很多调参数的麻烦,自动美化能力很强。
-
我对画面有非常具体的要求,必须精准控制每个细节。
- 选Stable Diffusion。 虽然上手慢,但你能控制从画风到角色一颦一笑的所有细节。
-
我想画一个复杂的场景,或者让AI帮我讲个故事。
- 选DALL-E 3。 它强大的语言理解能力能帮你把脑洞变成现实,而且修改起来很方便。
最后要记住,这些模型没有绝对的好坏,只是工具的侧重点不同。 一个厉害的AI画师,往往会在不同模型之间切换。比如用Midjourney快速获得灵感和构图,然后到Stable Diffusion里去细化和控制,最后如果需要加点文字,可能会再用DALL-E 3处理一下。所以,最好的方法是都去试试,找到最顺手的那一个,然后把它玩精。





评论前必须登录!
注册