AI绘图的提示词(Prompt),这东西到底是模型提前设定好的,还是我们用户可以天马行空地随便写?
答案是:你可以完全自由创造,但模型能不能画出来、画成什么样,这背后有一套规则在起作用。
这不矛盾。
你可以输入任何你能想到的词,甚至是胡言乱语,模型都会尝试去理解和执行。但是,它最终能画出什么,取决于它“学习”过的海量数据和它本身的“思考”方式。所以,这既是自由的,也是有迹可循的。
我们来拆开看看这到底是怎么回事。
首先得明白,AI绘图模型,比如Midjourney或者Stable Diffusion,它们本身不认识“苹果”这个词。它们不“知道”苹果是圆的、能吃、有红色或绿色。它们所“知道”的,是“苹果”这个词在它们学习的上亿张图片和对应的文字描述中,通常和哪些像素组合在一起。
这个过程叫作“训练”。开发者会用海量的图片和描述这些图片的文字去“喂”给模型。比如,一张照片下面写着“a red apple on a wooden table”(一个红苹果在木桌上)。模型会同时分析图片里的像素和文字里的词。当它见了成千上万张带有“apple”这个词的图片后,它就开始把“apple”这个词和一堆代表着“苹果样子”的像素特征联系起来。
所以,当你输入一个提示词时,AI做的事情大致是这样的:
- 解析你的文字:它会用一个叫文本编码器(Text Encoder)的东西把你写的词“翻译”成一串数字,也就是向量。这串数字代表了你这些词在模型“知识库”里的数学表示。
- 图像生成:模型会根据这串数字,在一个充满随机噪点的画布上,一步步把符合这些数字特征的像素“画”出来,直到噪点变成一张清晰的图像。这个过程很像我们对着一团模糊的影子,慢慢辨认出它的轮廓和细节。
理解了这个基础,我们再回来看提示词的自由度问题。
你的创造是完全自由的,但模型的回应不是。
你可以写“一个骑着独角兽在月球上吃披萨的宇航员”,模型大概率能画出来。因为它在训练数据里见过“宇航员”、“独角兽”、“月球”和“披萨”,它能把这些概念的视觉特征组合起来。虽然它可能没见过一模一样的场景,但它有能力进行“想象”和拼接。
但如果你输入一串它完全没见过的、或者现实世界不存在的、非常抽象的描述,比如“一个充满着‘嘀哩咕噜’感觉的星期二下午”,那结果就很难预料了。模型会尽力去解析“嘀哩咕噜”和“星期二下午”这两个概念。它可能会去寻找训练数据里和这些词语沾边的图片,但因为这种描述太模糊,最终生成的图片可能就是一堆不知所云的色块。
所以,写提示词,本质上是在和模型的“知识库”对话。 你得用它能听懂的语言,去调动它记忆里的那些视觉元素。
写好一个提示词,其实是有方法的。它不像许愿,说一句话就完事了。一个好的提示词通常包含几个核心部分:
- 主体 (Subject):你最想画的核心东西是什么?一个人?一只猫?一栋建筑?这是最重要的部分。
- 媒介/风格 (Medium/Style):你希望这张图看起来像什么?是照片、油画、水彩画、动漫截图,还是某个特定艺术家的风格?比如,你可以加上“photo”(照片)、“oil painting”(油画),或者“in the style of Van Gogh”(梵高风格)。加上这些词,能直接影响画面的质感和整体感觉。
- 环境/背景 (Environment/Background):主体在什么地方?在森林里?在城市街道上?还是在太空里?背景的描述能让画面更完整。
- 构图/视角 (Composition/View):你希望从哪个角度看主体?是特写(close-up)、全身像(full body shot),还是远景(wide shot)?是从上往下看(top-down view)还是从下往上看(low angle)?这些词能帮你控制画面的布局。
- 光照 (Lighting):画面里的光线是怎样的?是柔和的日光(soft daylight),还是霓虹灯光(neon lighting)?是黄昏时的金色光线(golden hour),还是恐怖片里的顶光(rim lighting)?光照是决定画面氛围的关键。
- 颜色 (Color):你希望画面以什么色调为主?是鲜艳的(vibrant)、柔和的(pastel colors),还是单色的(monochromatic)?
- 细节/质量 (Detail/Quality):你希望画面有多精细?可以加上“high detail”(高细节)、“8K”这类词来提升画质。不过要注意,这些词并不是万能药,有时候加了反而会产生反效果。
我们来看个例子。
一个简单的提示词可能是:“a cat”(一只猫)。
你会得到一张猫的图片,但它可能很普通,背景也很随意。
现在我们用上面的结构来丰富它:
- 主体:a fluffy ginger cat with green eyes(一只毛茸茸的、有绿色眼睛的橘猫)
- 动作/状态:sleeping peacefully(安详地睡着)
- 环境/背景:on a stack of old books next to a window(在窗边一摞旧书上)
- 光照:warm afternoon sunlight streaming through the window(温暖的午后阳光从窗户照进来)
- 风格:digital painting, detailed and soft(数字绘画,细节丰富且柔和)
- 构图:close-up shot(特写镜头)
把它们组合起来就是:“close-up shot of a fluffy ginger cat with green eyes, sleeping peacefully on a stack of old books next to a window, warm afternoon sunlight streaming through the window, digital painting, detailed and soft.”
你看,这个提示词就具体多了。它给了模型非常清晰的指令,告诉它要画什么、长什么样、在什么环境下、是什么感觉。这样生成的图片,也更容易接近你想要的结果。
那么,模型有没有自己“预设”的提示词呢?
从某种意义上说,有的。但这不像是游戏里固定的技能列表。模型的“预设”更像是一种“倾向性”。
比如,很多模型在训练时,高质量、高分辨率的图片会和“masterpiece”(杰作)、“best quality”(最高质量)这类词一起出现。久而久之,模型就学到了,当它看到这些词时,就应该努力生成更精细、更好看的图片。这就是为什么很多人喜欢在提示词里加上这些“魔法词”。
同理,某些艺术家的名字,比如“Greg Rutkowski”(一位知名的幻想艺术家),因为在训练数据网站上他的作品被大量引用和标记,导致模型一看到这个名字,就会倾向于生成类似他那种史诗、奇幻风格的画作。这在早期甚至引发了一些争议,因为艺术家本人并没有授权AI模型去学习他的风格。
所以,这些所谓的“预设”或“魔法词”,其实是模型在学习过程中自己总结出来的“规律”。它们不是开发者硬编码进去的命令,而是从数据中浮现出来的强关联。用户可以利用这些规律,但也可以完全不用,创造自己独特的组合。
总结一下就是,AI绘图的提示词世界,是自由和规则并存的。
你的创造力是起点,你可以写任何东西。但是,想要得到好的结果,你就需要了解你正在使用的那个模型的“脾气”。它看过什么、擅长画什么、对哪些词反应更强烈。这个过程就像学习一门新的语言,或者和一位新朋友沟通。你慢慢会知道怎么说它才能听懂,怎么表达才能让它准确理解你的想法。
所以,不要害怕尝试。随便写,写错了也没关系。多看看别人是怎么写的,多测试不同的词语组合,你很快就能掌握和AI“对话”的技巧,让它画出你脑海中的画面。这本身也是一个充满探索乐趣的过程。





评论前必须登录!
注册