我们输入的“提示词”是一串自然语言,AI并不直接“读懂”我们的话。它看到的是一堆代码和数字。这个过程大概是这样的:
第一步:拆解、编码你的指令。
你输入“一只猫在日落时分的海滩上戴着太阳镜”,AI会先用一种叫做“分词”(Tokenization)的技术把它拆开。 这串话可能被拆成“一只”、“猫”、“在”、“日落”、“时分”、“的”、“海滩”、“上”、“戴着”、“太阳镜”这些小单元。 每个单元(Token)都对应一个数字ID。
但光有ID还不够,因为“猫”和“狗”虽然都是动物,但在ID上可能差很远。所以AI需要把这些数字ID转换成一种叫“嵌入”(Embeddings)的东西。 嵌入是一个由几百个数字组成的列表,也就是一个高维向量。 这个向量能抓住词语的“意思”。比如,“猫”的向量和“老虎”的向量在数学空间里的距离会比“猫”和“桌子”的向量近得多。这就是自然语言处理(NLP)技术在背后起作用,它让电脑能够处理和分析人类语言。
所以,你的指令“一只猫在日落时分的海滩上戴着太阳镜”,最终变成了一长串代表着“概念”和“关系”的数字向量。
第二步:用CLIP模型连接文字和图像。
现在AI有了一串代表文字意思的数字,但它怎么知道这些数字对应什么样的画面呢?这里就要用到一个关键模型,叫CLIP(Contrastive Language-Image Pre-training)。 你可以把它想象成一个翻译官,专门负责翻译“文字概念”和“图像概念”。
CLIP的训练方式很有意思。开发者给它看了几亿对从网上扒下来的“图片-文字描述”组合。 它的任务很简单:判断哪张图片和哪段文字是“一对”。 比如,它会同时看到一张猫的图片和“这是一只猫”的文字,也会看到其他不相关的图片和文字。通过对比学习,CLIP学会了把意思相近的图片和文字在它的数学空间里拉得更近,而把不相关的推得更远。
举个例子,经过训练后,图片里那只猫的视觉特征向量,会和文字“一只猫”的文本特征向量在空间里挨得特别近。 正是因为有了CLIP,AI才能在你输入“猫”这个词的时候,在脑子里“想”到一个猫的样子。很多主流的AI绘图工具,比如DALL-E和Stable Diffusion,都用CLIP或者类似的模型来理解提示词。
第三步:扩散模型(Diffusion Model)从混乱中创造图像。
这是最神奇的一步。AI并不是像人一样“画”出来的,而是从一堆随机的噪点开始“变”出来的,这个过程叫做扩散。
想象一下,这个过程是反过来的。AI先学习一个“破坏”过程:它拿到一张清晰的图片,然后一步步地往上加噪点,直到这张图变成一片完全看不出内容的“雪花屏”。 这个过程会重复亿万次,AI就学会了每一步是怎么从清晰变模糊的。
然后,在生成图像时,它把这个过程完全倒过来。 它从一张纯粹由随机噪点构成的“雪花屏”开始,然后利用它在“破坏”过程中学到的知识,一步一步地把噪点去掉。
但它怎么知道要把这些噪点变成一只猫,而不是一辆车呢?
这就是提示词发挥作用的地方。在去噪的每一步,AI都会参照我们第一步和第二步得到的那个“文字概念”向量。这个向量就像一个导航,不断告诉扩散模型:“你现在去掉的这部分噪点,应该更像猫的轮廓”、“这里的颜色应该偏向日落的橙色”、“这个位置得有个太阳镜的形状”。
扩散模型会使用一个通常基于U-Net架构的神经网络来预测并移除噪声。 在每一步迭代中,模型都会努力让当前的图像在CLIP看来,与你的文字描述更匹配。 经过几十步甚至上百步的迭代,那些随机的噪点就逐渐被塑造成了一幅符合你描述的、清晰的图像。
所以,整个流程串起来就是:
1. 文本编码:你输入的文字被拆解成Token,再转化成能代表语义的向量(Embeddings)。
2. 图文连接:CLIP模型将文本向量翻译成AI能理解的视觉概念,建立起文字和画面的联系。
3. 图像生成:扩散模型从一张随机噪点图开始,在文本概念的指导下,一步步地去噪,最终还原出一幅清晰的图像。
这个过程并没有真正意义上的“理解”或“思考”,它本质上是一套极其复杂的数学运算和模式匹配。 AI通过学习海量数据,掌握了从A到B的映射关系——从文字的数字表示,映射到像素的排列组合。它不知道什么是“猫”,但它知道哪些像素组合在统计上最符合“猫”这个标签。





评论前必须登录!
注册