蜗蜗助手
让 AI 更懂你

当前主流AI模型对AI作图提示词中文的支持度如何?

直接说结论,当前主流AI模型对中文提示词的支持,就像一个会说几句中文的外国人。简单打个招呼、点个菜问题不大,但想让他理解“只可意会不可言传”的中式美学,或者让他念对一首唐诗,那基本上就是在难为他。

这个问题的核心,不在于模型“懂不懂中文”,而在于它“吃什么长大的”。

一、国外的月亮,真的不圆:Midjourney、DALL-E 3们的“中文翻译腔”

我们先聊聊大家用得最多的几个国外模型,比如Midjourney、Stable Diffusion和DALL-E 3。你把中文丢给它们,它们都能出图。但这个“出图”的过程,背后其实有个“翻译”步骤。

大部分这类模型的训练数据,绝大部分是英文互联网上的图片和文字描述。你可以把它想象成一个只吃西餐长大的孩子,他的味蕾和营养吸收系统都是围绕西餐构建的。你突然给他一盘宫保鸡丁,他能吃下去,但消化起来可能就不是那个味儿了。

具体来说,问题出在两个地方:

首先是“自动翻译”带来的偏差。当你输入中文提示词时,很多模型会先在内部把它翻译成英文,再根据英文去理解和生成图像。 比如OpenAI就明确提到,DALL-E 3会把你输入的简单提示词,在后台优化成更详细、更丰富的英文提示词。 这个过程就像你跟一个翻译软件说话,中间多了一道手续,信息必然会有损失。

举个我自己的例子。有一次我想生成一张有“江湖气息”的图片,我输入了“一个背着剑的侠客,在落日下的古道上行走”。Midjourney给我的图,怎么看都像一个穿着古装的西方人,在玩角色扮演,背景像是欧洲中世纪的石板路。它理解了“剑”、“落日”、“人”,但“侠客”、“古道”这些充满中式文化意象的词,经过翻译后,就只剩下表面的符号,失去了内在的神韵。

其次,是对文化概念的理解错位。AI作图模型是通过学习海量“图片-文字”配对来工作的。如果它的训练库里,绝大多数关于“龙”的图片都是西方那种长着翅膀、会喷火的大蜥蜴,那你输入中文的“龙”,它大概率给你的也是那玩意儿,而不是我们熟悉的、象征祥瑞的神兽。这是根本性的数据偏见,短时间内很难改变。

有用户在社区里分享过经历,他们尝试用AI生成一些包含中国汉字的艺术图像,结果非常失败。 AI并不理解汉字作为符号的意义和形态美学,只会把它当成一个普通的图形来处理,结果往往不伦不类。 甚至有时候,你用中文提示词,它生成的图片里会出现随机的、类似亚洲风格的艺术元素,因为它只识别出这是“亚洲文字”,然后就随便抓了一些它资料库里被打上“亚洲”标签的东西给你。

所以,现在很多国内用户玩Midjourney的实际操作是什么?先自己用翻译软件把中文想法转成英文,甚至还要学习一套专门的“提示词工程学”,用英文去堆砌细节,比如“cinematic lighting”(电影感光效)、“hyper-realistic”(超写实)、“8K”等等,想办法让那个外国AI能听懂。 网上甚至有专门把中文提示词优化成Midjourney专用英文提示词的工具。 这本身就说明了直接用中文有多不靠谱。

二、为什么英文更好使?聊聊技术上的“偏心”

这背后有技术原因,不是玄学。AI模型处理文字,第一步是“分词”(Tokenization)。简单来说,就是把一句话切成一个个小单元。对于英文这种以空格隔开单词的语言,分词相对直接。但中文博大精深,一个字、一个词都可能包含丰富信息。

英文模型的分词器,天生就是为处理字母语言设计的。它在处理中文时,效率会变低,甚至会错误地切分词语,导致语义理解出现偏差。这就像让一个只会用刀叉的人去拿筷子夹花生米,他也能夹,但就是很别扭,一不小心就掉了。

而且,问题的根源还是数据。高质量的中文图文数据对,相比英文来说,数量上存在巨大差距。而且中文互联网的数据环境也更复杂,很多数据质量不高,甚至充满了垃圾信息。 这导致AI模型在学习中文时,“教材”的数量和质量都跟不上。OpenAI的GPT-4o就被发现其用于训练分词器的中文数据被垃圾网站污染,导致中文词库里充斥着很多垃圾内容。

三、国产模型正在“扳回一城”

那么,是不是用中文就没法好好玩AI作图了?也不是。这两年国内的AI发展很快,出现了一批专门针对中文环境训练的“本土模型”,情况就完全不一样了。

比如百度的文心一格(ERNIE-ViLG)和阿里的通义万相,它们从出生开始,就是“吃着中餐长大的”。 它们的训练数据里包含了海量的中文内容,对中文的语义和文化有着天生的亲和力。

百度的文心ERNIE-ViLG模型在发布时,就强调了它强大的中文语义理解能力,甚至在一些图文生成任务的权威数据集上,效果超过了当时的DALL-E等模型。 比如你给它一句古诗词,“春江水暖鸭先知”,它生成的画面意境,就比国外模型靠谱得多。因为它不仅仅是识别了“江”、“鸭子”这几个物体,而是通过大量学习,理解了这句诗背后的整个场景和氛围。

同样,阿里的通义万相也支持中英文提示词,并且在处理包含中国元素的指令时表现出色。 还有像Qwen-Image这样的新模型,在设计时就考虑到了双语能力,能够准确地在图片中嵌入中文和英文字符,并且对复杂指令的理解很到位。 Z-Image也是一个例子,它原生支持中英文双语文本的渲染。

这些国产模型最大的优势,就是对“只属于中文”的概念的理解。比如“水墨画风格”、“赛博朋克风的长安城”、“春节的烟火气”,这些描述背后蕴含的文化背景和审美范式,是国外模型很难通过简单翻译去捕捉的。而国产模型因为学习了大量的相关本土数据,反而能更准确地还原出我们想要的感觉。

四、所以,到底该怎么用?

说了这么多,给个实际的建议。

第一步:判断你的需求。如果你想生成的是具有普适性的、风格化强烈的图像,比如“一只猫在太空舱里”,或者“一个女孩的迪士尼风格画像”,那么用Midjourney这类国外主流模型,然后把你的想法用简单的中文表达,或者直接翻译成英文,效果通常不错。因为这些概念在全世界的认知是共通的。

第二步:处理复杂的中文概念。如果你要生成的图像包含强烈的中国文化元素、特定历史背景或者抽象的意境,比如“宋代文人庭院里的雅集”、“道家仙山的缥缈感”,那我强烈建议你首选国产模型。直接用中文输入,它们给出的结果会远比国外模型“翻译”过来的要地道。

第三-步:具体操作的小技巧。
* 使用国外模型时,尽量用短句、核心词,避免复杂的语法和修饰。比如,不要说“我想要一张体现了母子情深、氛围温馨、光线柔和的画”,可以说“一个母亲抱着婴儿,温柔的微笑,温暖的光线,特写”。
* 如果不满足于简单描述,可以借助一些提示词工具或者网站,它们能帮你把简单的想法扩展成AI更容易理解的结构化英文提示词。
* 尝试国产模型时,可以更大胆地使用中文特有的描述。比如直接用诗句、成语,或者一些网络流行语,有时候反而会有惊喜。像阿里云的通义万相就提供了详细的中文提示词指南,教用户如何通过主体、场景、风格等要素来构建指令。

总的来说,AI作图对中文的支持正在从“能用”向“好用”发展。国外模型虽然功能强大,但在中文理解上始终隔着一层文化和技术的纱。而国产模型的崛起,真正让用母语进行流畅的创意表达成为了可能。未来,随着模型训练数据的进一步丰富和算法的优化,这种语言上的壁垒会越来越低。

赞(0)
未经允许不得转载:蜗蜗助手 » 当前主流AI模型对AI作图提示词中文的支持度如何?

评论 抢沙发

评论前必须登录!

 

你的AI灵感库与创作引擎

给想象力一个支点,让蜗蜗助手撬动AI的无限可能。

立即了解联系我们

登录

找回密码

注册