我们和AI聊天时,感觉它有时候很聪明,有时候又很蠢。特别是当你用一些俚语、双关语或者提到某个文化背景里才有的梗时,AI的反应经常让人哭笑不得。这背后其实是一个挺根本的问题:AI理解语言的方式,和我们人类完全是两码事。我们靠的是生活经验、情感和文化背景,而AI靠的是在海量数据里找到的统计规律。

要搞清楚AI怎么处理这些复杂的人类语言,得先从它的“大脑”——也就是大型语言模型(LLM)——如何工作说起。它的核心能力不是“理解”,而是“预测”。你给它一句话,它就根据以前“读过”的几十亿个句子,来预测下一个最可能出现的词是什么。这个过程里,文化、俚语和双关语就成了它的大难题。
AI处理文化背景,其实是在“模仿”而不是“理解”。大型语言模型被投喂的数据,绝大部分是英文内容,而且主要反映的是美国等西方国家的文化价值观。 有研究就发现,你用英文问ChatGPT-3一些关于枪支管控或者移民的问题,它给出的答案会很明显地偏向美国的价值观。 这不是因为它有自己的政治立场,而是因为它“学习”的材料里,大部分就是这么讨论这些问题的。结果就是,AI成了一个有文化偏见的“学舌鸟”。
另一个很直观的例子是AI画图。之前就有过AI图片生成器把历史人物的肤色和性别搞错的案例,这同样是因为训练数据里的文化偏见。 AI并不知道一位古代诗人应该是黄皮肤还是白皮肤,它只知道根据它看过的图片数据,某个职业或身份的人“通常”长什么样。这种基于统计的“刻板印象”,就是AI处理文化背景的直接体现。
那么,我们怎么才能让AI更好地理解我们想表达的文化背景呢?关键在于,你要在提示词里把这些背景信息说得明明白白。这个方法叫做“文化提示”(cultural prompting)。
具体可以分几步走:
第一步,直接告诉它文化场景。 不要只说“给我写一份商业计划书”,而是说“为一位韩国潜在合作伙伴写一份商业计划书,内容要强调在讨论具体业务前,先建立良好关系的重要性”。 这样一来,AI就能调动它数据库里和韩国商业文化相关的模式,生成的内容也就更贴切。
第二步,给AI一个人设。 比如,“为一个住在东京、平时很喜欢玩电子游戏的年轻职场人,起草一份职业发展规划”。 这里的“东京”、“年轻职场人”和“喜欢玩游戏”都是具体的文化标签,能帮AI缩小范围,生成更有针对性的内容。
第三步,直接指出AI可能存在的偏见。 你可以在提示词里加上一句:“请避免典型的西方中心主义视角,多考虑……” 这相当于手动帮AI“校准”它的文化罗盘。
接下来聊聊俚语和俗语。AI处理这些非正式语言的能力,比处理文化背景要稍微好一点,但原理是相通的。它不是通过查字典来理解“内卷”或者“YYDS”是什么意思,而是通过分析这些词汇出现的上下文。 模型在训练时,看过无数次“卷”这个词和“竞争”、“压力”、“加班”这些词一起出现,它就会把它们关联起来。当你在提示词里用“卷”的时候,它就会预测你接下来可能会提到相关的话题。
现代AI模型用的“Transformer架构”在这种上下文理解上帮了大忙。 你可以把它想象成一个超级厉害的阅读理解系统,它在读一句话的时候,会同时关注到每个词和句子里其他所有词的关系,然后给这些关系分配不同的“权重”。 所以当它看到“spill the beans”(泄露秘密)这个短语时,它会注意到“beans”(豆子)和“surprise party”(惊喜派对)之间的强关联,从而判断出这里不是真的在说豆子洒了。
但是,这种方法有明显的短板。如果一个俚语太新、太小众,或者你用得太含糊,AI就很容易“翻车”。 因为它的数据库里还没有足够多的样本让它建立起可靠的关联,所以它只能退回到字面意思去理解。比如,一个不那么常见的习语“chew the fat”(闲聊),如果上下文不够清晰,AI很可能就会理解成真的在“嚼肥肉”。 而且有些研究发现,模型在内部计算时,会给俚语分配比标准用语更低的概率,这说明它知道这是个“不寻常”的用法,但到底是什么意思,它还是有点拿不准。
至于双关语,这可以说是AI语言理解能力的“终极考验”。因为它常常依赖于我们人类对声音的感知,而这恰恰是AI的盲区。
举个很经典的例子,有一个日英双关的冷笑话:「今朝毎朝」。 这四个汉字在日语里读作“kesa mai asa”,字面意思是“今天早上,每天早上”。 如果你把这几个字输给AI,它会很认真地告诉你就是这个意思。但任何一个懂点英语和日语的人,只要把它的读音念出来,就会马上反应过来,这听起来就像“kiss my ass”。
为什么AI就是get不到这个点?因为AI处理语言的流程是先把文字转换成一串数字,也就是“词向量”(embedding)。这个过程非常适合捕捉词语的意义和它们之间的逻辑关系,但它会把声音信息给丢掉。 AI的路径是“文字→意义”,而这个双关语的路径是“文字→声音→另一门语言的意义”。AI没有办法实现这种跨越声音的“跳跃”,它的处理流程是单行道。
这个问题揭示了AI的一个根本局限:它没有我们这样的多模态感知体验。它不“听”也不“看”,它只是在处理数据。它对语言的理解是纯粹数学和统计层面的,缺乏物理世界的经验作为锚点。所以,那些依赖于字形、字音或者特定文化经验才能理解的语言游戏,对AI来说就几乎是无法破解的难题。
所以说到底,AI在理解提示词里的文化背景、俚语和双关语时,本质上都是在做一个基于大数据的“连连看”游戏。它不知道什么是文化,也不懂什么是幽默,它只是在被它“读过”的海量文本里,寻找最匹配的那个模式。
我们作为用户,要想让它更好地为我们服务,关键就是要理解它的这套工作逻辑。你不是在跟一个“人”交流,你是在操作一个极其复杂的工具。 所以,你的指令必须清晰、直接、不含糊。你给出的上下文越丰富,它需要“猜”的部分就越少,输出的结果自然也就越接近你的预期。与其期待AI能“听懂”我们的言外之意,不如学会如何用它能“看懂”的方式,把我们的意思说明白。








评论前必须登录!
注册