目前市面上的AI工具,在理解中文指令这方面,表现有好有坏。有些工具虽然出图效果惊艳,但你用中文跟它沟通,它总有点“听不懂人话”的感觉。而另一些,特别是国内厂商开发的,明显更懂中文语境里的那些弯弯绕绕。
我们直接来看几个主流工具的具体表现。
DALL-E 3:理解力不错的“标准答案”
DALL-E 3是集成在ChatGPT Plus里的工具,它最大的优势就是能很好地理解自然语言。 你不用像用其他工具一样去凑关键词,基本上想到什么就可以直接说什么,像聊天一样。
举个例子,如果你输入一个长句:“一个穿着宇航服的熊猫,坐在月球表面的陨石坑边上,手里拿着一杯珍珠奶茶,背景是地球。” DALL-E 3可以准确地把每一个元素——宇航服、熊猫、月球、陨石坑、珍珠奶茶和地球——都画出来,而且位置关系基本不会错。它对中文句子结构的解析能力很强。
但是,DALL-E 3的中文理解更偏向于字面意思。 如果指令里包含了一些有中国文化深层含义的词,它就可能犯错。比如,你要它画“一盘鱼香肉丝”,它生成的图片里很可能真的会出现一条鱼。因为它不理解“鱼香”是一种味型,而不是真的有鱼。同样,对于一些古诗词,它能画出字面描绘的景象,但很难体现出诗句背后真正的意境。
所以,用DALL-E 3,你可以放心大胆地用中文描述具体、直接的画面,它基本都能听懂。可一旦涉及需要文化背景知识才能理解的概念,效果就要打折扣。
Midjourney:画风顶级,但中文理解像“翻译腔”
Midjourney是目前公认的、图片生成质量和艺术感最强的工具之一。 它生成的图片非常细腻,光影和构图都有很高的水准。
问题在于,Midjourney的中文理解能力相对较弱。虽然它支持中文指令,但感觉上它会先把中文翻译成英文,再根据英文去理解和作画。 这就导致两个问题。
第一个问题是信息丢失或曲解。在翻译过程中,一些中文特有的 nuances(细微差别)会消失。比如,你想要一种“水墨丹青”的风格,它可能会理解成普通的黑白画,而丢失了水墨画里那种特有的笔触和韵味。它对中国元素的理解也比较刻板,比如画“中国风的城市”,出来的可能就是飞檐、灯笼这些符号的简单堆砌。
第二个问题是它几乎无法在图片里正确生成汉字。 如果你的指令是“一个写着‘开业大吉’的招牌”,那招牌上的字基本就是一堆无法辨认的乱码。这是它一个很明显的短板。
使用Midjourney的建议是,如果你想画中国风的题材,最好还是用英文指令,并且把画面元素描述得非常具体。不要用一些很抽象或者文化概念很强的中文词,比如直接告诉它要有“bamboo forest”(竹林)、“traditional pavilion”(传统亭子),而不是笼统地说要“中式园林”。
Stable Diffusion:需要调校的“技术专家”
Stable Diffusion是一个开源模型,这意味着它有非常高的灵活性和定制空间。 单就基础模型而言,它和Midjourney一样,也是一个以英文数据为核心训练出来的工具,直接用中文指令效果并不稳定。
但它的强大之处在于,有很多开发者专门针对中文环境,用大量的中文图文数据对它进行了“二次训练”,推出了很多中文特化模型。 比如有一个叫“太乙”的模型,就是用了2000万个中文图文对进行训练的。
用了这些特化模型之后,Stable Diffusion对中文的理解能力会发生质变。它不仅能听懂指令,还能画出真正符合中国审美和文化背景的图像。这时候你再让它画“鱼香肉丝”,它就不会画出鱼了。 让它画“红烧狮子头”,也不会画出狮子。
操作上,使用Stable Diffusion会比前面两个工具复杂一些。你需要先下载和安装一个图形界面(比如Stable Diffusion WebUI),然后去下载并加载这些中文特化模型。这需要一点动手能力。
总结一下,如果你愿意花时间去配置,Stable Diffusion加上合适的中文模型,是对中文指令理解得最深入、最准确的工具之一。
国产AI工具:真正的“本土选手”
国内很多科技公司也推出了自己的文生图工具,比如百度的文心一格、阿里巴巴的通义万相、字节跳动的即梦AI和豆包,还有智谱AI的智谱清言等等。 这些工具从开发之初就是基于中文语料库进行训练的,可以说是“母语者”。
它们的优势非常明显:
第一,对中文词汇和语法的理解非常自然和准确。无论是成语、俗语还是网络热词,它们都能理解。比如你要画“杯弓蛇影”,它们能画出那种恐慌、猜疑的氛围,而不仅仅是杯子和蛇。香港大学经管学院发布的一份评测报告显示,在图像生成方面,字节跳动的即梦AI和豆包,以及百度的文心一言表现都很突出。
第二,对中国文化和审美的把握更到位。 比如,你想生成一个“符合东方审美的古典美人”,国产工具生成的形象通常会比国外工具更贴近我们文化中的标准。 它们对各种中国传统艺术风格,比如国画、工笔、版画等的模仿也更地道。网易开发的“丹青”模型,就特别强调了其生成图片更具东方美学。
当然,国产工具也并非完美。在一些评测中,它们有时候在处理一些指定的具体物体时,会生成一些奇形怪状的东西。 另外,图片的整体精细度和艺术性,跟顶级的Midjourney相比,目前可能还有一些距离。而且,多轮对话修改图片的能力,各个工具的表现也参差不齐,有时候修改后的结果并不理想。
总的来说,如果你追求的是对中文指令,特别是那些蕴含了文化、历史和审美内涵的指令的深度理解,那么国产AI工具是首选。它们也许在某些方面还不够完美,但它们是真的“懂中文”。
到底怎么选?
选择哪个工具,取决于你的具体需求。
- 如果你需要快速、准确地将脑中的具体画面呈现出来,而且不涉及复杂的文化概念,DALL-E 3是最好的选择。它的易用性和对自然语言的理解能力很强。
- 如果你追求的是顶级的画面质量和艺术风格,并且不介意用英文描述或者接受一点“文化误解”,那就用Midjourney。它的出图效果确实能打。
- 如果你是个技术爱好者,愿意折腾,希望获得对中文最精准的像素级控制,那么花点时间去配置带有中文特化模型的Stable Diffusion,效果会让你惊喜。
- 如果你的需求和中国文化、历史、审美紧密相关,希望AI能真正理解你的中文“梗”和“点”,那么直接选用国内的AI绘画工具,比如文心一格、即梦AI或通义万相,体验会顺畅得多。








评论前必须登录!
注册