蜗蜗助手
让 AI 更懂你

AI绘画中文提示词的识别度和支持度现在怎么样了?

现在用AI绘画工具处理中文提示词,情况比一两年前好太多了。当时你输入中文,它大概率会给你一堆乱七八糟的东西,感觉就像它根本没看懂。现在,像Midjourney V6、Stable Diffusion XL和DALL-E 3这些主流模型,已经能很直接地理解大部分中文描述了。 比如你输入“一个戴着眼镜、坐在书堆旁的橙色猫咪”,它基本上能准确画出来,猫是橙色的,有眼镜,旁边也有书。

但是,这种“听懂了”很多时候只停留在表面。如果你想让它画点有深度的、包含中国文化内涵的东西,问题就来了。现在的AI就像一个学中文很努力的外国人,日常对话没问题,但你要跟他聊成语典故、唐诗宋词里的意境,他就马上露馅。

根本问题在于,这些主流AI模型的核心训练数据大部分是英文的。 它们思考和运作的“母语”是英语。所以,当你输入中文提示词时,它很可能在后台默默地做了一件事:先把你的中文翻译成英文,然后再去理解和作画。 这个翻译过程就是一道坎,很多关键信息和文化韵味就在这里被磨掉了。

这就产生了一个“翻译税”。你交了这笔税,得到的就是一个打了折扣、有点变味儿的结果。举个例子,你输入“一个典型的中国美女”,AI可能会生成一个东亚面孔的女性,但她的五官轮廓、神态甚至穿着,都可能带着浓浓的西式审美。因为它数据库里关于“美女”的标签,绝大多数都和西方图像关联在一起。结果就是,画出来的不是丹凤眼、柳叶眉的古典美人,反而更像是在好莱坞电影里扮演中国公主的演员。

这个“翻译税”在处理一些抽象或者有文化特定含义的词汇时,表现得特别明显。比如中国的“江湖”,这个词在英文里没有一个能完全对应的单词。翻译软件可能会把它翻成“rivers and lakes”,AI也就真的给你画了江和湖。但我们想要的“江湖”是那个充满侠客、恩怨、道义的文化符号。这个感觉,AI目前还抓不住。

再说说成语。成语是中文里最难啃的骨头之一,因为它们背后都有故事和比喻义。你让AI画“画蛇添足”,它真的会给你画一条蛇,然后多此一举地给它加上几只脚。它理解了字面意思,但完全错过了“多此一举”这个核心寓意。同样,你让它画“对牛弹琴”,出来的画面就是一个对着牛弹琴的人,画面可能还挺美,但那种“白费力气、不懂欣赏”的讽刺意味就没了。

最难表现的是“意境”。这是中国古典美学的核心。比如唐代诗人柳宗元的“孤舟蓑笠翁,独钓寒江雪”。你把这句诗直接丢给AI,它能画出关键元素:一条船、一个穿着蓑衣戴着斗笠的老头、在下着雪的江上钓鱼。这些元素都对。但是,这句诗的灵魂在于那种天地间苍茫一片、人与自然融为一体的孤寂与高洁的意境。AI生成的画,往往只是元素的机械组合,画面可能很精致,但就是没有那种味道。它画的是一件事,而不是一种感觉。

还有一个大问题是文化元素的混淆。中国的历史悠久,不同朝代的服饰、建筑、器物风格差异巨大。你想要一张“唐朝仕女图”,AI给你的可能是一个穿着看起来像汉服,但发型又是清朝的,手里还拿着一个不知道哪个朝代的扇子的女性。因为它数据库里的标签可能是笼统的“ancient Chinese lady”,没有细分到“唐朝”、“宋朝”或者“明朝”。 对于它来说,这些细节的区别太细微了,需要海量的、经过精确标注的中文数据来训练,而这正是目前所缺乏的。

不过,说了这么多问题,也不是说中文提示词就没法用了。恰恰相反,只要你了解了AI的这个脾气,就能找到和它沟通的正确方法。下面这些方法,是我自己实践下来觉得确实管用的。

第一步,也是最重要的一步:用“中英混合”的方式写提示词。这听起来有点奇怪,但效果很好。基本原则是:用中文定义核心、具体的物体,用英文定义风格、氛围和技术参数。

为什么这么做?因为像“一个穿着红色汉服的女孩在竹林里”这种具体描述,用中文表达最直接,AI现在的版本也能准确识别。但是,那些关于画面质感的词,比如“电影感光线 (cinematic lighting)”、“细节丰富 (highly detailed)”、“虚幻引擎 (unreal engine)”、“宫崎骏风格 (style by Hayao Miyazaki)”,这些词在AI的英文数据库里有海量对应的图像。用英文来指定这些风格,等于直接调用它最擅长的能力库,效果比你用中文去描述“像电影一样的光”要好得多。

一个可以直接套用的模板是这样的:
[中文描述的核心画面主体],[英文描述的画面细节和构图],[英文描述的艺术风格或艺术家],[英文描述的灯光和画质]

举个实际例子:
一只白狐站在雪中,看着远方 (a white fox standing in the snow, looking into the distance), full body shot, winter forest background, cinematic lighting, ultra realistic, photography, shot on Sony A7IV

你看,核心内容“白狐”、“雪地”是中文,但构图、光线、画质这些,全换成英文。这样出来的图,主体明确,而且质感和氛围也更能达到预期。

第二步,把复杂的想法拆解成简单的描述。不要用太文学化、太抽象的语言。AI是个“直肠子”,你得把话掰碎了喂给它。

比如,你脑子里想的是“一个失意的书生在月下独酌,感叹怀才不遇”,如果你直接这么输入,AI会很困惑。“失意”、“怀才不遇”这些情绪太复杂了。

你应该把它翻译成一个具体的画面,像个导演一样告诉AI每个细节:
一个古代中国书生 (an ancient Chinese scholar), 穿着朴素的白色长袍 (wearing a simple white robe), 独自坐在一个旧木桌旁 (sitting alone at an old wooden table), 桌子上有一个酒壶和一个杯子 (a wine pot and a cup on the table), 他正抬头看着窗外的满月 (he is looking up at the full moon outside the window), 他的表情看起来很难过 (his expression looks sad), 夜晚,光线很暗 (night time, dark and moody lighting)

这么一拆解,AI就能准确执行了。虽然过程麻烦一点,但这是保证出图效果的关键。你得把自己想象成一个只能理解最基本指令的机器人,然后用这种方式跟它沟通。

第三步,可以试试国内的AI绘画工具。像百度的文心一格、阿里的通义万相,这些模型因为是基于中文环境开发的,对中文的理解,特别是对中国文化元素的理解,天然就有一些优势。 它们在生成一些具有浓厚中国风的图片时,比如水墨画、仙侠场景、传统建筑等,可能会给你带来惊喜。虽然在整体的图像质量和艺术风格多样性上,可能跟Midjourney还有差距,但作为一种补充,绝对值得一试。

总的来说,AI绘画对中文提示词的支持度确实是“在路上”的状态。它已经从完全不懂,进步到了能进行基本对话的水平。 但离真正理解中文的博大精深,还有很长的路要走。这背后的根本原因,是高质量中文训练数据的缺乏。

对于我们用户来说,没必要干等着技术自己进化。通过“中英混合”和“拆解描述”这些方法,我们现在就能有效地绕开它的弱点,发挥它的长处,让它为我们画出想要的画面。和AI打交道,就像驯服一头有点笨但力气很大的牛,你得顺着它的毛摸,用它能听懂的语言,才能让它好好干活。

赞(0)
未经允许不得转载:蜗蜗助手 » AI绘画中文提示词的识别度和支持度现在怎么样了?

评论 抢沙发

评论前必须登录!

 

你的AI灵感库与创作引擎

给想象力一个支点,让蜗蜗助手撬动AI的无限可能。

立即了解联系我们

登录

找回密码

注册