玩AI图片生成,尤其是“以图生图”的时候,最常遇到的问题就是,怎么让新生成的图片既有新意,又保留原图的样子?有时候AI的发挥太自由,改得面目全非,有时候又太保守,跟原图几乎没区别。这中间的度,其实就是靠调整几个关键参数来控制的。这事不复杂,搞懂了逻辑,上手就快。
我们得分开说,因为不同的工具,用的参数和逻辑不太一样。主流的就说两个:Midjourney 和 Stable Diffusion。
Midjourney:靠“图片权重”参数 –iw
Midjourney的操作比较直接,它主要靠一个叫“图片权重”(Image Weight)的参数来控制相似度,代码是 --iw。 你可以把它理解成一个开关,用来调节你给的那张参考图对最终结果的影响大小。
--iw 这个参数后面跟一个数值,不同版本的Midjourney范围可能有点区别,但通常在0到3之间。 数值越高,AI在画画的时候就越会盯着你的原图,生成的图片在构图、颜色、主体形态上就越像原图。 反过来,数值越低,AI就越会听从你输入的文字提示(prompt),自由发挥的空间就越大。
我们来看具体怎么用,假设你有一张猫的照片,想把它变成梵高风格的油画。
- 上传图片,获取链接:先把你的猫图发给Midjourney机器人,拿到一个图片链接。
- 写提示词:在
/imagine对话框里,先把图片链接粘贴进去,然后空一格,再写你的文字要求,比如“a cat in the style of Van Gogh’s Starry Night”(一只猫,梵高星空风格)。 - 加上 –iw 参数:最后,在提示词的末尾加上
--iw和一个数值。
现在就是关键了,这个数值怎么选?
- 如果你想让结果非常像原图,只是稍微改改风格,可以把
--iw设得很高,比如--iw 2或者--iw 3。 这样做,AI会严格遵守原图的构图和猫的姿势,然后把梵高的笔触和色彩叠加上去。结果就是,一看就知道还是那只猫,但画风变了。 - 如果你想让AI多点创意,只是把原图当个灵感来源,那就把
--iw调低,比如--iw 0.5。 这样一来,AI主要参考你的文字提示,它可能会画一只全新的猫,只是在构图或者颜色上,能看出一点原图的影子。 - 如果不加这个参数呢? Midjourney会使用一个默认值,通常是1。 这个值比较均衡,既会参考原图,也会听文字的话,适合大多数情况。
举个真实例子,我想把一张人物照片变得更有动漫感。我上传了照片,然后写的提示词是“[图片链接] a young man, anime style, clean line art –ar 2:3”。
- 当我设置
--iw 2时,生成的人脸、发型、甚至衣服的褶皱都和原图高度一致,就是画风变成了日式动画。 - 当我把参数改成
--iw 0.7,人物的基本姿势还在,但脸型和五官已经被AI大幅修改成它理解的“动漫帅哥脸”了,跟原图的相似度就下来了。
所以,用Midjourney控制相似度的核心就是反复试验 --iw 的数值,找到那个最符合你想法的平衡点。
Stable Diffusion:两个核心工具,两种控制逻辑
Stable Diffusion要复杂一些,但控制也更精确。它主要有两个方式来处理图生图的相似度问题:一个是基础的 img2img(图生图)功能,另一个是更强大的 ControlNet 插件。
1. img2img里的“去噪强度”(Denoising Strength)
img2img 是Stable Diffusion最基本的功能,它的逻辑是给一张初始图片加上一些“噪点”,然后再根据你的文字提示把这些噪点“去掉”,重新生成一张清晰的图片。 控制相似度的关键参数就叫“去噪强度”(Denoising Strength)。
这个参数的取值范围是0到1。它的意思直接翻译过来有点怪,你可以这样理解:
- 数值越低(比如0.1 – 0.4):AI在原图上做的改动就越小。 它只在原图的基础上做一些微调,大部分细节都会保留。生成图和原图的相似度非常高。 比如你想给一张照片换个滤镜,或者稍微修复一下瑕疵,就可以用低数值。
- 数值越高(比如0.7 – 1.0):AI的创作自由度就越大,它会更倾向于听从你的文字提示,而把原图的结构和内容大面积重画。 这时候生成的图片可能和原图差别很大,只保留一个大概的构图或颜色感觉。
我们还是用那只猫举例。在Stable Diffusion的 img2img 界面上传猫的照片,文字提示写“Van Gogh style painting of a cat”。
- 设置Denoising Strength为0.3:结果会是一张看起来几乎和原图一模一样的照片,只是笔触上多了一点油画的质感。猫的毛发细节、光影都还在。
- 设置Denoising Strength为0.75:这时候AI就开始大刀阔斧地改了。 它会保留猫的大概轮廓和姿势,但背景、光线、甚至猫的五官都可能被重新绘制成梵高的那种卷曲、夸张的风格。
- 设置Denoising Strength为1:这基本就等于没用原图,AI完全根据文字提示自己画了一张全新的画,原图的信息几乎都被忽略了。
所以,Denoising Strength 就像一个控制“重绘程度”的滑块,数值越小越保守,数值越大越激进。
2. ControlNet:像素级的精准控制
如果说 img2img 只是给AI一个大概的方向,那 ControlNet 就是给AI画好了“骨架”,让它在这个骨架里填肉。 这是目前控制图片相似度最精确的工具,它通过提取原图的特定信息(比如轮廓、姿势、深度)来强制约束生成过程。
ControlNet里有很多模型,每个模型负责提取一种信息。想控制相似度,最常用的有几个:
- Canny:提取图像的边缘轮廓。这就像把原图变成一张黑白的线稿。AI在生成新图时,必须严格遵守这个线稿的结构。 比如你想把一张真人照片变成卡通画,但又不希望人物的姿势和物品的位置改变,用Canny就最合适。
- Depth:提取图像的深度信息,也就是物体的前后关系。这能保证新生成的图片在空间结构上和原图一致。
- OpenPose:专门用来识别人体的姿态,提取出骨骼点。如果你想让生成的角色摆出和原图一模一样的姿势,用这个模型就对了。
使用ControlNet时,除了选择合适的预处理器和模型,还有两个参数很重要:
- 控制权重(Control Weight):这个参数决定了ControlNet提取的“骨架”对最终结果的影响有多大。 权重设为1,AI就会严格按照骨架来画;如果适当降低权重,比如0.7,AI在遵守骨架的同时,也会有一点点自由发挥的空间。
- 控制步数范围(Starting/Ending Control Step):这个参数用来控制ControlNet在生成过程的哪个阶段起作用。通常我们保持默认就行,让它全程参与。但在一些高级玩法里,比如想让图片前期自由发挥、后期再用ControlNet来规范结构,就可以调整这个参数。
举个实际操作的例子:我想把一张建筑照片换成赛博朋克风格,但我要求建筑的轮廓和结构一点都不能变。
- 在Stable Diffusion的
txt2img或img2img界面写好提示词,比如“cyberpunk city, neon lights, rainy night”。 - 展开下方的ControlNet插件栏,把建筑照片上传进去。
- 勾选“启用(Enable)”。
- 在“控制类型(Control Type)”里选择
Canny。它会自动匹配对应的预处理器和模型。 - 点击生成。
这样,无论AI怎么添加霓虹灯和雨夜的氛围,最终生成的图片里,建筑的每一条边、每一个窗户的轮廓都会和原图保持一致。这就是ControlNet的强大之处,它把相似度的控制从“感觉”层面提升到了“结构”层面。





评论前必须登录!
注册