当你看到一张AI生成的图片,觉得特别棒,也想自己做一个类似的,但又不知道它的提示词(Prompt)是怎么写的,这时候“以图生图”反推提示词的方法就派上用场了。简单说,就是你给AI一张图片,让它反过来告诉你生成这张图可能用了哪些关键词。
这主要有两种思路:一种是直接用AI绘画工具自带的功能,另一种是借助第三方的在线工具。这两种方法操作起来都不复杂。
方法一:使用AI绘画工具自带的“反推提示词”功能
很多主流的AI绘画工具,比如Midjourney和Stable Diffusion,都内置了分析图片并生成提示词的功能。这样做的好处是,生成的提示词能更好地适配这个工具本身,更“地道”。
Midjourney的 /describe 命令
Midjourney是目前最受欢迎的AI绘画工具之一,它有一个专门的命令叫/describe,就是为“以图生图”设计的。
具体操作步骤是这样的:
- 打开Discord,进入Midjourney频道: 你需要在Discord里使用Midjourney。随便进入一个新手频道(newbies)或者你和Midjourney机器人的私聊窗口都可以。
- 输入
/describe命令: 在聊天框里输入斜杠/,会自动弹出一系列命令,你选择或直接输入describe,然后按回车。 - 上传你的图片: 这时候会弹出一个图片上传窗口,把你想要分析的图片拖进去,或者点击选择文件。
- 等待AI分析: 图片上传后,Midjourney的机器人会开始分析这张图,通常一分钟之内就能搞定。
- 获取并使用提示词: 分析完成后,Midjourney会给出四条它认为可能生成这张图片的提示词。 每条提示词前面都有一个编号,比如1、2、3、4。你可以直接点击这些编号按钮,Midjourney就会用对应的提示词开始画图。当然,你也可以把这些提示词复制出来,自己修改一下再用。
需要注意的是,/describe 生成的提示词不一定能100%还原原图,它更多是提供一种创作灵感和方向。 AI每次分析同一张图片,给出的结果也可能不一样。 这种方法主要是为了抓住原图的核心风格和主体特征,比如人物的穿着、背景的氛围等。
Stable Diffusion的“图生图”反推功能
如果你用的是Stable Diffusion,特别是像AUTOMATIC1111这样的WebUI版本,操作也很直接。 它内置了两种反推提示词的工具:CLIP和DeepBooru。
操作步骤如下:
- 切换到“图生图”(img2img)标签页: 打开Stable Diffusion的界面,找到并点击“图生图”选项。
- 上传参考图片: 把你想要分析的图片上传到指定的区域。
- 点击反推按钮: 在图片下方,你会看到两个按钮,分别是“CLIP反推提示词”和“DeepBooru反推提示词”。
- CLIP:这个工具倾向于生成一个完整的、描述性的句子来概括图片内容。
- DeepBooru:这个工具更擅长识别动漫风格的图片,并生成一系列精准的标签式关键词,比如“solo, hat, smile, sitting”等。
- 生成并调整: 点击其中一个按钮后,相应的提示词就会自动填充到上方的提示词框里。 之后你就可以点击“生成”按钮,看看效果怎么样。通常,自动生成的提示词需要手动修改和补充,才能达到更好的效果。
这种方法的优点在于,你可以根据图片风格选择不同的反推工具,特别是DeepBooru对二次元风格的识别非常准确。
方法二:使用独立的在线“图片转提示词”工具
除了AI绘画工具自带的功能,现在网上也有很多免费的在线工具,专门用来把图片转换成提示词。 这类工具的好处是不用登录,操作简单,而且通常会为不同的AI绘画平台(如Midjourney, Stable Diffusion等)生成对应的提示词格式。
这类网站的操作流程基本都一样:
- 打开网站: 在浏览器中打开一个“Image to Prompt”工具网站,比如ImagePrompt.org或者其他类似的免费网站。
- 上传图片: 网站界面通常很简洁,直接把你的图片拖拽上去或者点击按钮上传就行了。
- 选择目标AI模型(可选): 有些网站会让你选择生成的提示词是给Midjourney用的,还是给Stable Diffusion或其他模型用的,这样生成的提示词格式会更有针对性。
- 生成并复制提示词: 点击“生成”按钮,工具就会分析图片并给出一串详细的提示词。 你可以直接复制这些提示词,然后粘贴到你的AI绘画工具里去用。
这种方法的优势是方便快捷,而且很多工具都是免费的,每天还有一定的免费使用次数。 它们利用AI技术分析图片的主体、风格、颜色、构图等关键元素,然后生成描述性的文本。
如何写出更好的提示词:一些个人经验
无论你是用哪种方法生成的提示词,都很少能一次就得到完美的结果。自动生成的提示词更像是一个起点,一个很好的参考。要想让最终生成的图片更接近你的想法,还需要对提示词进行“迭代优化”。
我的经验是,一个好的提示词结构通常包含这几个部分:主体 + 细节 + 风格 + 构图。
- 主体:这是你画面的核心,必须最先说清楚。比如“一个穿着宇航服的猫”。AI模型通常会更重视提示词开头的词语,所以把最重要的内容放前面。
- 细节:主体的细节是什么?比如“宇航服是白色的,头盔上有裂痕,猫的眼睛是绿色的”。细节越丰富,画面内容就越具体。
- 风格:你想要什么感觉的画?是“照片级真实感”,还是“梵高风格的油画”,或者是“日本动漫风格”?直接告诉AI,它就能模仿。
- 构图和光线:画面是怎么安排的?比如“特写镜头”、“广角”、“从下往上拍”。光线是怎样的?“柔和的晨光”、“电影感的灯光”、“霓虹灯闪烁的夜晚”。这些都能极大地影响画面氛围。
举个例子,一个简单的提示词可能是“a cat on the moon”。但一个经过优化的提示词可能是:“A photorealistic image of a fluffy ginger cat in a detailed astronaut suit, sitting on the moon’s surface, looking at the earth in the distance, cinematic lighting, wide-angle shot, 8k, hyper-detailed.”(一张照片级真实感的图片,一只毛茸茸的姜黄色猫咪穿着精细的宇航服,坐在月球表面,望着远处的地球,电影感光线,广角镜头,8K分辨率,超高细节。)
通过这种方式不断添加和调整关键词,你就能更好地控制AI,让它画出你真正想要的东西。所以,把图片转成提示词只是第一步,真正有趣的部分在于后续的修改和创作过程。





评论前必须登录!
注册