你有没有觉得,AI生成的真人图片有时候看着特别怪,就是那种说不出的别扭和诡异? 这就是“恐怖谷”效应。 说白了,就是一个东西太像人、但又不是人的时候,会让人本能地感到害怕。 很多AI图片就卡在这个尴尬的位置。 问题不在AI,问题在于我们没跟它说清楚。
想让AI生成的图片跨过恐怖谷,关键在于提示词要无限接近真实世界的摄影逻辑,而不是绘画逻辑。 你不能只告诉它“画一个美女”,你要让它模拟一个摄影师在特定环境下,用特定设备,拍一个特定状态的人。
第一步:忘掉“完美”,拥抱瑕疵
真实的人脸不是光滑的塑料,而是有纹理、有毛孔、有雀斑的。 这是避免“恐怖谷”的第一要义。 AI默认会追求一种数学上的完美,比如皮肤绝对光滑、五官绝对对称,但这恰恰是看起来假的原因。
所以,提示词里必须强制加入描述皮肤真实质感的词。
直接看例子:
* 别这样写: a beautiful woman (一个美女)
* 要这样写: detailed skin texture, pores, freckles, skin imperfections (细腻的皮肤纹理、毛孔、雀斑、皮肤瑕疵)
把这些词加进去,AI就会开始模拟真实皮肤的细节,而不是生成一个光滑的假人。 你甚至可以更具体,比如 subtle wrinkles around the eyes (眼周的细微皱纹),这会让人物看起来更有年龄感和真实感。
第二步:像摄影师一样思考光线、相机和镜头
这是最重要的一步,也是很多人忽略的一步。 一张照片的质感,很大程度上是由光线和拍摄设备决定的。 你需要在提示词里,为AI设定好这些物理世界的参数。
光线是灵魂。
不同的光线会营造完全不同的氛围和真实感。 不要只说“light”,要具体。
soft natural light(柔和的自然光): 这是最常用的,能让皮肤看起来很舒服,不会有生硬的阴影。golden hour light(黄金时刻的光): 太阳快落山时的光线,色调偏暖,非常适合拍人像。cinematic lighting(电影感光效): 对比度更强,更有故事感。Rembrandt lighting(伦勃朗光): 一种经典的布光技巧,脸部一侧会有个标志性的三角光。
指定相机和镜头。
这听起来很专业,但效果拔群。 因为不同的相机品牌、不同的镜头,拍出来的照片在色彩、锐度、景深(背景虚化)上都有独特的风格。 AI的数据集里包含了海量真实照片,它知道这些参数意味着什么。
- 相机型号:
shot on a Sony α7 IV(用索尼α7 IV拍摄),Fujifilm X-T4等。 这会影响照片的色彩科学。 - 镜头规格:
85mm f/1.4 lens(85毫米 f/1.4镜头)。85mm是经典的人像焦段,f/1.4代表大光圈,能带来漂亮的背景虚化效果,让主体更突出,照片更有层次感。
把这些组合起来,提示词就从“画一个人”变成了“模拟一次真实的人像摄影”。
第三步:精确定义人物特征,尤其是眼睛和表情
AI生成的眼睛经常显得空洞无神,这是“恐怖谷”的主要来源。 必须在提示词里把眼睛的细节讲清楚。
- 关键是“神”:
expressive eyes(有表现力的眼睛) 是一个好词,但还可以更具体。detailed eyes with catchlights(有细节和眼神光的眼睛) 是一个杀手锏。 “眼神光”(catchlights)就是映在瞳孔上的光源反光,这是让眼睛看起来“活”的关键。 - 表情要微妙: AI很难理解复杂的人类情感。 你让它生成
happy(开心),它可能会给你一个夸张的假笑。 最好用更具体、更微妙的描述。- 不要用:
happy face - 试试:
a gentle smile(温柔的微笑),a pensive expression(沉思的表情),a slight smirk(一丝不易察觉的微笑)。
- 不要用:
第四步:直面“手”这个大难题
AI画手经常出错,多一根或少一根手指是常事,这也是一个非常容易触发“恐怖谷”的地方。 虽然新版的模型(比如Midjourney V6)已经改善很多,但这依然是个挑战。
有几个策略可以处理:
- 回避: 最简单的方法。 在构图上让人物的手不出现。 比如
hands in pockets(手在口袋里),arms crossed(双臂交叉),或者直接拍面部特写close-up portrait。 - 正面对抗(用负面提示词): 在负面提示词(Negative Prompt)里明确告诉AI不要什么。 这个后面会详细说。
第五步:负面提示词是你的安全网
负面提示词(Negative Prompt)和你想要生成的内容同样重要。 它是告诉AI“千万不要画成这样”的指令。 对于避免“恐怖谷”,这是一个必备工具。
这是一组可以直接使用的、非常有效的负面提示词,专门用来排除那些假人感很强的元素:
3D, render, CGI, cartoon, painting, illustration, video game, plastic, smooth skin, doll, disfigured, deformed, bad anatomy, extra limbs, extra fingers, mutated hands, blurry
这组词的作用是:
* 排除数字感:3D, render, CGI 告诉AI不要生成三维渲染或电脑特效的感觉。
* 排除艺术风格:cartoon, painting, illustration 确保它生成的是照片,而不是绘画。
* 排除假人材质:plastic, smooth skin, doll 直接命中了“恐怖谷”的要害。
* 排除常见错误:disfigured, deformed, bad anatomy 以及关于手部的词,是用来修正AI容易犯的生理结构错误。
综合案例对比
我们把所有知识点串起来,看一个“之前”和“之后”的对比。
一个糟糕的提示词:
A photo of a beautiful woman, smiling.
(一张美女的照片,在微笑。)
* 可能的结果: 皮肤光滑得像塑料,笑容僵硬,眼神空洞,整体感觉像个游戏角色。
一个优秀的提示词:
Prompt:
Photorealistic close-up portrait of a 28-year-old Japanese woman with subtle freckles and a gentle smile. Her hair is slightly messy. Shot on a Fujifilm X-T4 with a 56mm f/1.2 lens. The lighting is soft natural window light, creating detailed catchlights in her expressive eyes. Detailed skin texture with visible pores is crucial.
(一个28岁日本女性的逼真面部特写肖像,有淡淡的雀斑和温柔的微笑。 她的头发有些凌乱。 使用富士X-T4相机和56mm f/1.2镜头拍摄。 光线是柔和的自然窗光,在她富有表现力的眼睛里创造出细节丰富的眼神光。 细腻的皮肤纹理和可见的毛孔至关重要。)
Negative Prompt:
3D, render, CGI, cartoon, painting, doll, plastic, smooth skin, bad anatomy, disfigured, blurry.
这个优秀的提示词几乎为AI模拟了一场真实的拍摄。 它明确了:
* 人物: 年龄、国籍、特征(雀斑、发型)、表情(温柔的微笑)。
* 设备: 具体的相机和镜头,这决定了色彩和景深。
* 光线: 柔和的窗光,保证了真实感和眼神光。
* 关键细节: 强制要求了皮肤纹理、毛孔和眼神光。
* 安全网: 用负面提示词排除了所有导致“假”的因素。
按照这个逻辑去写提示词,AI生成真人图片的成功率会高很多。 核心就是,别把AI当成一个凭空想象的画家,而是把它当成一个需要具体指令的、经验丰富的摄影师助理。 你给的指令越符合物理世界的规律,它反馈给你的结果就越真实。





评论前必须登录!
注册