蜗蜗助手
让 AI 更懂你

根据提示词生成图片的工作原理是什么?

你输入“一个宇航员在月球上骑马”,几十秒后,一张栩栩如生的图片就出现了。这整个过程看起来像魔法,但背后是一套清晰的、一步一步的计算机工作流程。拆开来看,其实就是三步:先理解你的话,然后从一团随机的“雪花点”开始画画,最后把画好的东西放大给你看。

第一步:AI怎么听懂人话?靠的是“连连看”

首先,电脑并不懂“宇航员”或者“马”是什么意思。它只认识数字。所以,第一步就是要把你输入的文字,转换成一串它能理解的数字。这个任务是交给一个叫做“文本编码器”(Text Encoder)的模型来完成的。

目前最主流的技术之一叫做CLIP(Contrastive Language-Image Pre-training)。 你可以把它想象成一个玩“连连看”的高手。在训练它的时候,研究人员会给它看上亿张图片和描述这些图片的文字。 比如,一张狗的照片,旁边配上文字“一只狗”。CLIP的目标就是学习把内容相似的文字和图片,转换成在数学空间里位置很近的数字组合,也就是“向量”。

经过这种海量的训练,CLIP就建立了一个庞大的“翻译”系统。 当你输入“一个宇航员在月球上骑马”时,CLIP会做几件事:
1. 拆分词语:它会把这句话拆成几个关键部分,比如“宇航员”、“月球”、“马”。
2. 翻译成向量:然后,它会把每个词语转换成对应的数字向量。这些向量不仅包含了词语本身的意思,还包含了它们之间的关系。 比如,“骑”这个动作的向量,就会和“宇航员”与“马”的向量产生关联。

最后,这些向量组合在一起,就形成了一个对你想要画面的完整数学描述。这个数学描述,就是接下来所有工作的指导蓝图,它告诉AI“你要画的东西,在数学上长这个样子”。

第二步:从一团“电视雪花”开始画画

有了这个数学蓝图,AI就要开始画画了。但它的绘画方式和人类完全不同。它不是从一张白纸开始,而是从一张完全随机、看起来就像老式电视机没信号时的“雪花点”图像开始的。 这个核心技术,叫做“扩散模型”(Diffusion Model)。

这个过程可以分成两个阶段来理解:

阶段一:学习过程(搞破坏)

在训练阶段,扩散模型做的事情其实是在“搞破坏”。 过程是这样的:
1. 拿一张好图片:从训练图库里拿一张清晰的图片,比如一张猫的照片。
2. 一步步加噪声:然后,程序会开始一小步一小步地往这张图片上添加随机的“噪点”(专业的说法是高斯噪声)。
3. 直到变成纯噪声:这个过程会重复很多次,比如几百上千步,直到原来的猫完全看不见,只剩下一片纯粹的、无意义的噪声。

关键在于,在每一步添加噪声的过程中,AI都会记录下来“我是如何把图片变模糊的”。 它学习的是从稍微模糊的图片预测出更模糊的图片,最终的目标是学会预测每一步添加的噪声本身是什么。 经过数亿张图片的反复练习,这个AI模型就成了一个“噪声专家”。

阶段二:生成过程(反向创作)

当你给出提示词,AI开始为你生成图片时,它就把上面那个“搞破坏”的过程完全反过来。 这个反向的过程叫做“去噪”或“采样”。

  1. 生成一张随机噪声图:首先,AI会生成一张和你要求尺寸一样的、完全随机的噪声图。
  2. 对照蓝图去噪:然后,它拿出第一步里由CLIP生成的“数学蓝图”(你的提示词向量),开始对照着这个蓝图,一步一步地从噪声图里减去它认为“多余”的噪声。
  3. 迭代几十次:这个去噪的过程不是一次完成的,而是迭代进行的,可能需要20到100个步骤。 在每一步,一个叫做U-Net的神经网络会分析当前的图像,并结合你的提示词,预测出这一步应该去除哪些噪声。 比如,它会想:“根据提示词,这个区域未来应该是个马头,那么我现在应该把这里的噪声调整成更像马头的轮廓。”
  4. 画面逐渐清晰:一开始,图片是一片混沌,但每经过一步去噪,图片的轮廓和细节就清晰一点。 慢慢地,“宇航员”的头盔、“马”的形态和“月球”的表面就会从噪声中“浮现”出来。

这个过程就像一个雕塑家,从一块随机形状的石头(噪声)开始,根据脑海中的蓝图(提示词),一点点凿掉多余的部分,最终让作品显现出来。

第三步:为什么这么快?因为AI走了“捷径”

你可能会想,直接在高清大图上进行这种反复的加噪、去噪计算,应该会非常慢。确实如此。早期的模型就是这么做的,效率很低。 现在的模型,比如Stable Diffusion,用了一个聪明的办法来加速,这个办法叫做“潜在空间”(Latent Space)。

你可以把“潜在空间”理解成一个“压缩版”的世界。 AI并不直接处理1024×1024像素的高清图片,而是先用一个叫做“变分自编码器”(VAE)的东西,把这张大图压缩成一张非常小的、肉眼无法理解的“信息图”,比如64×64像素。 这张信息图就是所谓的“潜在空间”里的表示。

这张小图虽然尺寸小,但它保留了原始图片最重要的特征和信息。 整个“去噪”的过程,也就是第二步里最耗费计算资源的部分,都是在这张小小的“信息图”上完成的。 这就好比你修图的时候,不是直接修改巨大的原始文件,而是先编辑一个缩略图,速度快得多。

当几十步的去噪全部在潜在空间里完成后,AI会得到一张最终的、压缩版的“信息图”。最后一步,再由VAE的另一部分——“解码器”,把这张信息图“解压”出来,还原成一张我们能看懂的高清大图。

所以,完整的工作流程是这样的:
1. 文本编码:你输入提示词,CLIP模型把它翻译成数字向量(指导蓝图)。
2. 图像压缩与加噪:AI在潜在空间里生成一张随机的噪声“信息图”。
3. 潜在空间去噪:在文本向量的指导下,AI通过几十步迭代,把这张噪声“信息图”逐步去噪,变成一张包含最终画面信息的“信息图”。
4. 图像解码:最后,VAE解码器把这张最终的“信息图”放大,还原成一张高清的、你看得懂的图片。

通过在压缩的潜在空间里完成核心计算,整个生成过程的效率得到了巨大的提升,这就是为什么你只需要几十秒就能得到一张图片的原因。

赞(0)
未经允许不得转载:蜗蜗助手 » 根据提示词生成图片的工作原理是什么?

评论 抢沙发

评论前必须登录!

 

你的AI灵感库与创作引擎

给想象力一个支点,让蜗蜗助手撬动AI的无限可能。

立即了解联系我们

登录

找回密码

注册