咱们聊聊用AI画画这事儿。你可能听过“提示词(Prompt)”,就是你给AI几个词,它给你吐张图出来。但现在还有个更厉害的玩法,叫“指令(Instruction)”。这两者不是一回事,弄混了会让你觉得AI不好用。
我们先说最常见的提示词。
提示词就像给AI点菜。你说“一个穿着宇航服的猫,坐在月球上,看着地球”,AI就根据这几个关键词去画。这背后,AI模型,比如Midjourney或Stable Diffusion,其实是在它看过的几十亿张图片里,找跟“猫”、“宇航服”、“月球”、“地球”这些标签相关的视觉元素,然后把它们缝合在一起。
这个过程有点像连连看。AI的脑子里有无数个碎片,你给它关键词,它就把对应的碎片找出来,然后拼成一张看起来合理的画。
所以,用提示词画画,本质上是一种“检索和重组”。你给的词越具体,它找到的碎片就越精确。比如,你只说“一只猫”,它可能会给你一只橘猫、一只黑猫,或者一只卡通猫,因为这些都符合“猫”这个标签。但如果你说“一只穿着蓝色毛衣的英国短毛猫”,它检索的范围就小多了,出来的图也更接近你想要的。
用提示-词有个很明显的好处,就是简单。你不需要懂画画,也不需要懂代码,只要会打字就行。这也是为什么大部分人刚接触AI绘画,都是从玩提示词开始的。
但是,它的问题也很突出。
第一,它很不稳定。你用同一个提示词,点两次生成,出来的图可能完全不一样。这是因为AI在“重组”碎片时,有很大的随机性。它每次都是重新“猜”你想要什么。这种感觉就像开盲盒,有时候有惊喜,但更多时候是“这画的什么玩意儿?”。
第二,它很难控制细节。比如,你想让画里的猫举起左手,而不是右手。用提示词几乎不可能做到。你可以在提示词里写“猫举起左手”,但AI很可能不听你的。因为它理解的是“猫”、“举手”这两个独立的视觉元素,至于哪个手,它分不清。这是因为大部分AI模型在训练时,并没有专门学习过“左”和“右”这种精确的空间概念。它们能识别物体,但很难理解物体之间的精确关系。
第三,它有“知识”盲区。有些东西,AI没见过,或者见得很少,它就画不出来。比如,你想画一个“宇-航员在海底弹吉他”,AI可能会画出一个穿着宇航服的人,旁边有一把吉他,背景是海底。但宇航员弹吉他的姿势可能会很奇怪,甚至吉他都是散架的。因为它在训练数据里,很少看到这几样东西凑在一起的图片。
所以,玩提示词,你更像一个“导演”,你给个大概的方向,但演员怎么演,你说了不算。
接下来说说指令生成图片。
如果说提示词是“点菜”,那指令就是给AI一份详细的“菜谱”。你不仅告诉它要做什么菜,还要告诉它每一步怎么做,盐放多少克,火候开多大。
用指令画画,AI的角色变了。它不再是一个只会拼图的工人,更像一个听话的助手。你通过更复杂的语言,甚至代码,来精确控制画面的每一个元素。
现在比较典型的支持指令的模型,比如DALL-E 3(通过ChatGPT使用时)和一些更新的模型,它们在理解自然语言方面比早期模型强得多。它们不只是识别关键词,而是真的在尝试理解你整个句子的“意图”和“逻辑”。
举个例子。你想画一幅画:一个红色的小球,放在一个蓝色的方块上面。
如果用提示词,你可能会写:“红色小球,蓝色方块,小球在方块上”。AI可能会画出小球在方块旁边,或者方块在小球上面。它只知道画面里要有这两个东西,但它们俩的“上下关系”,它很可能搞错。
但如果用指令,你可以这样写:“绘制一个场景。场景的中心是一个大的蓝色立方体。在这个蓝色立方体的正上方,放置一个小而光滑的红色球体。确保球体接触立方体的顶面中心点。”
你看,这个描述就很啰嗦,但它非常精确。它定义了物体(立方体、球体),定义了属性(蓝色、红色、大的、小的、光滑的),还定义了它们之间的空间关系(正上方、接触顶面中心点)。
一个能听懂指令的AI,会严格按照这个“菜谱”来画画。它会先画一个蓝色的方-块,然后在这个方块的上面,画一个红色的小球。最终的结果,可控性比用提示词高得多。
使用指令有几个核心区别:
第一,强调逻辑和关系,而不只是物体。指令生成更关注“谁对谁做了什么”、“A和B是什么关系”。比如,“一个男人把钥匙递给一个女人”,指令模型会努力画出“递”这个动作,而提示词模型可能只会画出一个男人、一个女人和一把钥匙,三者之间没什么互动。
第二,可修改性更强。因为指令是基于逻辑的,所以你可以对画面的某个部分进行精确修改。比如,你对刚才那张“红球蓝方块”的图不满意,你可以下新的指令:“保持其他所有东西不变,只把那个红色球体换成一个绿色的金字塔。”AI就能理解,它只需要修改那个球,而不需要把整张画都重新生成一遍。这种“局部重绘”的能力,是单纯用提示词很难做到的。
第三,它能理解更复杂的构图。你可以用指令来设计画面布局。比如:“画面分为左右两部分。左边是一个阴天的海滩,右边是一个晴朗的森林。两者之间有一条清晰的分割线。”这种对画面结构的宏观控制,是指令模式的强项。
当然,用指令也不是没缺点。它最大的问题就是门槛高。你需要用非常清晰、没有歧义的语言去描述你的想法。有时候甚至需要了解一些简单的编程或者脚本逻辑,才能写出高质量的指令。这对普通用户来说,比单纯想几个关键词要难得多。
总结一下实际操作上的不同。
使用提示词的流程是这样的:
1. 想几个关键词。比如“赛博朋克,城市,雨夜,霓虹灯”。
2. 把词丢给AI。
3. AI出图。
4. 不满意?换几个词,或者多点几次“生成”,直到抽到一个满意的为止。这个过程充满了不确定性。
而使用指令的流程是这样的:
1. 在脑子里构建一个非常具体的画面。
2. 用精确的自然语言,像写说明书一样,把这个画面描述出来。包括物体、颜色、位置、光线、构图等等。
3. 把这段详细的描述发给AI。
4. AI根据你的“说明书”生成图片。
5. 如果某个细节不满意,针对那个细节下达修改指令。比如“把背景里的那栋楼变矮一点”。
所以你看,提示词模式下,你和AI是“合作”关系,甚至可以说是AI在主导,你只是给它灵感。而在指令模式下,你和AI是“主仆”关系,你是绝对的主导,AI是执行你命令的工具。
这两种方式没有绝对的好坏,只是适用场景不同。
如果你只是想随便玩玩,快速得到一些有创意的、意想不到的图片,用提示词就够了。它简单、快速,而且那种随机性本身也很有趣。
但如果你是设计师、插画师,或者任何需要对画面有精确控制的创作者,那么学习如何使用指令就非常必要。它能帮你把脑子里的想法,一比一地复现出来,让AI真正成为你创作流程中的一个可靠工具,而不是一个只能开盲盒的玩具。
说到底,从提示词到指令的演变,反映了AI绘画技术本身的发展方向:从模糊的“灵感捕捉”,走向精确的“意图实现”。未来的AI绘画工具,一定会越来越听话,越来越能理解我们复杂的想法。而我们作为使用者,也需要从“猜词语”的思维,转变为“写说明书”的思维,才能真正用好它们。



评论前必须登录!
注册