蜗蜗助手
让 AI 更懂你

从提示词生成图片的全过程是怎样的,AI在其中都做了些什么?

当你在输入框里敲下一句“一只戴着宇航员头盔的猫,漂浮在宇宙飞里,风格是数字艺术”,然后按下生成按钮,短短几十秒后,一张图片就出现在眼前。这整个过程看起来很简单,但背后其实是一套复杂的AI工作流程。我们可以把它拆解成几个关键步骤,看看AI在每一步都干了些什么。

第一步:AI如何读懂你的想法?

你输入的提示词,AI并不能直接理解。计算机能处理的是数字,而不是“猫”或者“宇宙飞船”这类文字。所以,第一件事就是要把你的文字转换成AI能看懂的语言——也就是一串串的数字,这串数字在专业上被称为“向量”(Vector)。

这个转换工作由一个叫做“文本编码器”(Text Encoder)的AI模型来完成,其中最出名的一个模型叫CLIP(Contrastive Language-Image Pre-training)。 CLIP这个模型在训练的时候,看了海量的图片和描述这些图片的文字。 它的目标很简单:学习把内容相似的文字和图片转换成在数学空间里位置相近的向量。

举个例子,经过训练后,无论是“狗”这张图片,还是“一只狗”这段文字,CLIP都会把它们转换成两个在空间里挨得很近的数字向量。而“猫”的图片或文字,则会被转换成离“狗”的向量比较远的一组数字。

所以,当你输入“一只戴着宇航员头盔的猫,漂浮在宇宙飞里”,CLIP就会把这句话拆解成几个关键部分,比如“猫”、“宇航员头盔”、“宇宙飞船”,然后把它们分别转换成对应的数字向量。 这些向量既包含了每个词的意思,也包含了它们之间的关系,共同构成了一个关于你想要画面的数学描述。 这个数学描述就是接下来所有工作的指导蓝图。

第二步:从一片“噪声”开始创作

有了这个数学蓝图,AI就要开始画画了。但AI画画的方式和人类完全不同。它不是从一张白纸开始的,而是从一张完全随机、看起来像老式电视雪花点的“噪声图”开始的。 这个过程的核心技术叫做“扩散模型”(Diffusion Model)。

你可以把扩散模型想象成一个技艺高超的雕塑家。给他一块随机形状的石料(噪声图),然后告诉他你想要一个“大卫”雕像(你的提示词向量)。这位雕塑家就会一点一点地凿掉多余的部分,逐渐让“大卫”的轮廓显现出来。

这个“一点一点凿”的过程,在AI这里叫做“去噪”(Denoising)。 整个过程是迭代进行的,可能需要几十个步骤。在每一步里,AI都会做两件事:

  1. 预测噪声:一个叫做U-Net的神经网络模型会分析当前的噪声图,并试图预测出哪些部分是“多余的”噪声。
  2. 去除噪声:根据U-Net的预测,系统会从图片中减去一小部分噪声。

这个过程会不断重复。一开始,图片是一片混沌,但每经过一步去噪,图片的轮廓和细节就变得清晰一点。慢慢地,“猫”的形态、“头盔”的光泽和“宇宙”的星辰就会从噪声中“浮现”出来。

AI如何确保画出来的东西是你想要的?

关键就在于,U-Net在预测噪声的时候,并不是凭空乱猜。它每一步都会回头看看你最初给的那个由提示词转换来的“数学蓝图”(也就是CLIP生成的向量)。 这个蓝图就像一个导航,时刻提醒着U-Net:“嘿,我们现在要画的是一只猫,不是狗;它戴着头盔,不是帽子;背景是宇宙,不是草地。”

这种机制确保了去噪的每一步都是朝着你想要的方向前进的。如果某一步去噪后的结果和提示词的向量在数学空间里“离得远了”,AI就会在下一步进行修正,让它重新靠近目标。 这就是AI如何把你的文字想法,落实到具体的像素上的。

第三步:从抽象到具体,最终成像

在扩散模型的整个去噪过程中,AI其实不是在直接操作我们平时看到的像素图片。直接处理高分辨率的像素图计算量太大了,速度会非常慢。 为了解决这个问题,研究人员引入了一个叫做“变分自编码器”(Variational Autoencoder,简称VAE)的东西。

VAE包含两个部分:一个编码器(Encoder)和一个解码器(Decoder)。

  • 编码器:在去噪开始之前,AI会用VAE的编码器把一张高分辨率的空白图片(或者有时是你提供的参考图)压缩到一个尺寸小得多、人眼看不懂的“潜在空间”(Latent Space)里。 整个去噪过程,也就是U-Net大显身手的阶段,都是在这个计算量更小的潜在空间里完成的。 这就好比建筑师先在沙盘上推演模型,而不是直接去盖一栋真的大楼,效率高得多。

  • 解码器:当几十步的去噪过程在潜在空间里全部完成,得到一个最终的、包含了所有画面信息的抽象“数据团块”后,VAE的解码器就会接手工作。 它的任务是把这个抽象的数据团块“翻译”回我们能看懂的像素空间,也就是把它解码成一张正常的高分辨率图片。

经过VAE解码器这一步,你最终才看到了屏幕上那张清晰、具体的图片。所以,整个流程可以概括为:

  1. CLIP理解指令:将你的提示词翻译成AI能懂的数学语言(向量)。
  2. U-Net在潜在空间创作:从一张随机噪声开始,在CLIP的指导下,一步步地在低维度的潜在空间里去噪,逐渐形成画面的雏形。
  3. VAE最终呈现:将潜在空间里完成的作品,解码成一张我们能看到的像素图片。

这三个核心组件(CLIP、U-Net、VAE)协同工作,构成了从文字到图像生成的全过程。 每一次你点击生成按钮,背后都是这样一套精密、复杂的计算流程在快速运转。它不只是简单的“搜索和拼接”图片,而是一个根据你的指令,从无到有进行创作的过程。

赞(0)
未经允许不得转载:蜗蜗助手 » 从提示词生成图片的全过程是怎样的,AI在其中都做了些什么?

评论 抢沙发

评论前必须登录!

 

你的AI灵感库与创作引擎

给想象力一个支点,让蜗蜗助手撬动AI的无限可能。

立即了解联系我们

登录

找回密码

注册