为什么我们会被吉卜力刷屏?原来是 OpenAI 故意放宽限制。
最近几天,OpenAI 革新的 GPT-4o 图像功能给大家带来了不少乐趣,各路社交媒体都被「吉卜力」风格的图像、视频刷了屏。机器之心还尝试了制作了《甄嬛传》的名场面(视频如下,制作方法参见《GPT-4o 整活!3 个小时、6 个镜头重现吉卜力版《甄嬛传》名场面》)。
其实,除了效果的大幅提升,这次 GPT-4o 更新还有一个值得关注的变化 —— 内容限制似乎比以前少了很多,很多公众人物 —— 如马斯克、特朗普 —— 现在都可以生成。而之前,模型会直接拒绝这类请求。
图源:https://x.com/morganlinton/status/1905081523768095049/photo/1
GPT-4o 生成的雷军相关图像。
为什么会发生这种变化?昨晚,OpenAI 的模型行为负责人 Joanne Jang 发文做出了解释。
她表示:
OpenAI 正从敏感领域的全面拒绝转向更精确的方法,专注于防止现实世界的伤害。目标是保持谦逊:认识到我们不知道的有多少,并让自己能够随着学习而适应。
图像有一种独特而强大的震撼力;它们能带来无与伦比的愉悦和冲击。与文本不同,图像超越语言障碍,唤起各种情感反应。它们能立即阐明复杂的想法。
正因为图像具有如此大的影响力,我们在制定政策和行为方面感到比其他发布更重的责任。
当涉及到发布新功能时,我们的观点已经在多次发布中演变:
1. 相信用户的创造力胜过我们自己的假设。 AI 实验室员工不应该成为决定人们应该或不应该创造什么的仲裁者。发布后我们总是感到谦卑,发现了我们从未想象过的使用案例 —— 甚至有些事后看来如此明显,但由于我们视角有限而没有想到。
2. 清晰地看到风险,但不要忽视对用户的日常价值。 专注于潜在危害很容易,广泛的限制总是感觉最安全(也最容易!)。我们经常发现自己在质疑,「当同样的梗图可能被用来冒犯或伤害人们时,我们真的需要更好的梗图功能吗?」。但我认为这种框架本身就有缺陷。它暗示着细微的、日常的好处必须在假设的最坏情况下证明自己,而这种情况低估了这些快乐、幽默和联系的小时刻如何真正改善人们的生活。
3. 重视未知、无法想象的可能性。 也许是由于我们对损失厌恶的认知偏见,我们很少考虑不作为的负面影响;有些人称之为「无形的墓地」,尽管这有点太阴暗和极端。新功能解锁的二阶或间接影响:所有那些因为我们害怕最坏情况而从未实现的积极互动、创新和想法现在可以实现了。
应对这些挑战很困难,但我们的目标是最大限度地发挥创造自由,同时防止真正的伤害。
公众人物:我们知道处理公众人物可能很棘手 —— 尤其是当新闻、讽刺和被描绘人物的利益之间的界限变得模糊时。我们希望我们的政策公平平等地适用于每个人,无论他们的「地位」如何。但我们决定不做「谁足够重要」的裁判,而是创建一个选择退出列表,让任何可能被我们的模型描绘的人自己决定。
「冒犯性」内容:当涉及到「冒犯性」内容时,我们推动自己反思任何不适是源于我们的个人意见或偏好,还是源于对现实世界造成伤害的可能性。在没有明确指导方针的情况下,模型以前会拒绝诸如「让这个人的眼睛看起来更亚洲化」或「让这个人更胖」的请求,无意中暗示这些特征本身就是冒犯性的。
……
总之,以上种种考虑,加上 OpenAI 在精确评估技术方面的进步,促使他们采取了更宽松的政策。
Joanne Jang 还引用了同事 Jason Kwon 的一句话:「船在港口最安全;最安全的模型是拒绝一切的模型。但这不是船或模型的用途。 」
这也解释了为什么我们现在可以看到那么多吉卜力风格的图像,因为 GPT-4o 现在被允许模仿皮克斯、吉卜力等创意工作室的风格。
不过,OpenAI 现在仍限制模型模仿在世艺术家的个人风格,因为一旦放开,关于 AI 训练数据集中版权作品合理使用的争论又会变得棘手。
目前已经可以看到的是,GPT-4o 所带来的效果提升正在给广告、影视、游戏等行业带来新变化。
把 GPT-4o 和其他工具一起使用,往往会给人带来新的惊喜。
不过,OpenAI 并没有公布 GPT-4o 的图像处理技术细节,只提到采用了类似语言模型的自回归方法。所以,关于其背后技术,目前有很多猜测。
如果你有更合理的猜想,欢迎在评论区留言。
参考链接:
https://x.com/joannejang/status/1905341734563053979
https://techcrunch.com/2025/03/28/openai-peels-back-chatgpts-safeguards-around-image-creation/