AI做图,说白了就是你跟AI聊天,让它帮你画画。你说的越清楚,它画的就越接近你想要的。这东西不玄乎,就是个工具,你得学会怎么使。
一开始,很多人以为AI做图就是随便打几个字,比如“一只猫”,然后等奇迹发生。结果出来的图奇形怪状,根本不是那么回事。这就对了,因为你给的指令(Prompt)太模糊。AI就像一个什么都懂但没有主见的天才画家,你得告诉它画什么、怎么画。
写指令其实有个基本公式,掌握了这个,你就入门一半了。公式是这样的:主体 + 细节 + 风格。
咱们一步步拆开说。
第一步:确定你要画的主体
这是最基础的。你想画什么?一个人?一个动物?还是一栋建筑?关键是要具体。不要只说“一个女孩”,要说“一个有着红色卷发、戴着圆框眼镜的年轻女孩”。你看,细节一多,画面感就出来了。AI抓取的就是这些关键词。你给的词越精确,它脑补的空间就越小,结果就越可控。
第二-步:添加环境和动作细节
主体定下来之后,就要想她在哪,在干什么。是在“一个堆满旧书的图书馆里看书”,还是在“雨后的东京街头撑着一把透明雨伞散步”?这些环境和动作的描述能让画面立刻丰满起来。环境细节可以包括地点(比如“赛博朋克城市的霓虹灯小巷”)、天气(“暴风雨来临前的阴天”)和时间(“黄昏时分的金色阳光下”)。
第三步:定义画面风格和构图
这是决定图片质感的关键一步。你想要一张什么样的图?是“照片”,还是“油画”?风格非常多,你可以直接用艺术家的名字,比如“梵高风格”,或者用艺术流派,像“印象派”、“超现实主义”。你也可以指定具体的媒介,比如“水彩画”、“卡通漫画”、“3D渲染”等等。
构图也很重要。你想让观众怎么看这张图?是“特写镜头(close-up shot)”,还是“广角远景(wide-angle shot)”?是从下往上看的“仰视镜头(low-angle shot)”,还是平视?这些词都可以直接加到指令里。还有光线,比如“电影感灯光(cinematic lighting)”、“柔和的晨光(soft morning light)”,不同的光线会营造完全不同的氛围。
所以,一个比较完整的指令可能是这样的:
一个有着红色卷发、戴着圆框眼镜的年轻女孩,在雨后的东京街头撑着一把透明雨伞散步,周围是霓虹灯招牌和湿漉漉的地面,照片风格,特写镜头,电影感灯光,8K高清细节。
对比一下“一个女孩”,这条指令是不是清晰多了?AI拿到这种级别的指令,才不会瞎画。
第四步:使用“负面指令”排除你不想要的东西
有时候AI会画蛇添足,比如画出六根手指的人,或者画面里出现莫名其妙的文字。这时候就需要用到负面指令(Negative Prompt)。在很多平台里,你可以明确告诉AI什么东西不要出现。比如在Midjourney里,你可以用 --no text 来排除文字,或者 --no extra fingers 来避免多余的手指。 这是一个非常有用的功能,能帮你清理掉很多不理想的细节。
好用的平台有哪些?
市面上的AI做图平台很多,我挑三个主流的、我自己常用的聊聊,它们各有侧重。
-
Midjourney:艺术家的首选
Midjourney出来的图,艺术感特别强,效果惊艳。 很多人看到的那种特别华丽、细节丰富的AI画作,多半是出自它手。它的优点是图片质量高,风格多样。 但是它也有门槛。首先,它得在Discord这个聊天软件里用,你需要先注册一个Discord账号,然后加入Midjourney的服务器,通过发送指令/imagine来作图。 其次,它现在是完全收费的,没有免费试用。所以,如果你是想出高质量的艺术作品,或者专业的设计师,Midjourney是最好的选择。 -
Stable Diffusion:技术宅的乐园
Stable Diffusion是一个开源模型,这意味着它非常灵活,可定制性极高。 你可以下载模型在自己的电脑上运行(需要一张不错的显卡),也可以使用网上基于它搭建的各种平台(比如Leonardo.Ai)。 它的优点是自由度大,有海量的社区模型(Checkpoints、LoRA等)可以下载,能实现各种特定的画风或者画特定的人物。 但缺点就是学习成本比较高,如果你是自己部署,需要折腾一下环境,对于新手不太友好。 如果你喜欢钻研技术,想完全掌控出图的每一个细节,那Stable Diffusion绝对是你的菜。 -
DALL-E 3 (集成在ChatGPT和Copilot里):新手的最佳入门工具
DALL-E 3是OpenAI开发的,现在已经集成到了ChatGPT Plus和微软的Copilot里。 它是目前对新手最友好的平台。 最大的优势在于它对自然语言的理解能力超强。你不用像在Midjourney里那样费心去凑关键词,可以直接用大白话跟它说你想要什么。 比如你可以直接说:“帮我画一个宇航员在月球上骑马的场景,要画成毕加索的风格”,它就能很好地理解并执行。 它的出图质量也很不错,尤其是对于一些具体的、逻辑性强的场景,表现比其他平台更好。如果你是付费的ChatGPT Plus用户,可以直接在对话框里使用。如果想免费体验,可以用微软的Copilot。对于刚接触AI做图的人来说,我强烈建议从DALL-E 3开始。
一个实际案例
我给你走一遍我自己的思考过程。比如我想画一张“一只猫在古代中式书房里看书”的图。
我的第一个想法很简单,指令就是:一只猫在书房里看书。
结果可能会很奇怪,书房可能是西式的,猫的姿势也可能很诡异。
然后我开始优化,加入细节和风格:
一只橘猫,戴着一副小小的圆形眼镜,趴在一张红木书桌上,正在看一本线装古书,中式书房,背景是装满卷轴的书架,窗外是竹林,温暖的灯笼光线,水墨画风格。
这样一来,画面元素就非常清晰了。主体是“戴眼镜的橘猫”,动作是“看线装书”,环境是“中式书房、红木桌、书架、竹窗”,光线是“灯笼光”,风格是“水墨画”。
如果出来的图里猫的爪子不太对,我就会在下一轮迭代时加上负面指令,比如 --no deformed paws。
AI做图就是一个不断沟通和迭代的过程。不要指望一次就能出完美的图,多尝试调整你的指令,改变一些关键词,看看AI会给你什么反馈。这本身也是一个挺有意思的探索过程。








评论前必须登录!
注册