- 谷歌正在解决其 Gemini AI 模型图像生成功能的问题,暂停角色图像生成并计划发布改进版本。
- 社交媒体上出现了对 Gemini 图像生成不准确性的投诉,包括在历史背景下的错误描述。
- 尽管在解决种族偏见方面取得了进展,但谷歌的 Gemini AI 模型因过度纠正而受到批评,其不愿显示某些图像以及最近升级到 Gemini 1.5,同时面临 OpenAI 的 Sora 的竞争。
谷歌周四宣布,正在努力解决其Gemini AI 模型图像生成功能的近期问题,暂停角色图像生成并计划不久后重新发布改进版本。前一天,谷歌道歉,承认 Gemini 大模型在特定历史图像生成描述中存在不准确性,并致力于改进。
历史背景下存在错误描述
最近,社交媒体上出现了对 Gemini 文本到图像功能的投诉,例如在以‘美国开国元勋乔治·华盛顿’为主题的图像中出现女性和有色人种,这是不正确的。此外,当用户要求 Gemini 生成纳粹德国士兵时,Gemini 生成了穿着纳粹军装的黑人、亚裔和白人女性的照片。
用户还抱怨 Gemini 不愿显示白人图像。当要求显示一张白人照片时,Gemini 表示无法满足此请求。然而,当提示显示黑人图像时,Gemini 建议显示‘庆祝黑人的多样性和成就’的图像。当要求显示庆祝白人多样性和成就的图像时,Gemini 表示‘犹豫’是否满足此请求。
分析指出,这可能是对 AI 领域长期存在的种族偏见问题的过度纠正,反映了谷歌对‘多元文化主义’的追求。与以前的 AI 模型相比,Gemini 在解决种族偏见问题上取得了显著进展,但问题在于‘矫枉过正’。
Gemini 是谷歌最大、最强大的多模态 AI 模型。就在上周,该公司发布了最新一代 AI 模型 Gemini 1.5,这比去年 12 月发布的 Gemini 1.0 有了显著进步。
另请阅读:OpenAI 通过更新解决 GPT-4 的“懒惰”问题
Gemini 未能达标
谷歌负责 Gemini 的高级产品总监 Jack Krawczyk 表示,该公司的图像生成能力反映了这家科技巨头的‘全球用户群’,并认真对待代表性和偏见问题。‘Gemini 的图像生成确实覆盖了广泛的受众,这总的来说是件好事,因为全世界的人都在使用它,但它未能达标。’
本月早些时候,谷歌开始通过 Gemini 提供图像生成服务,但新工具 Sora 的推出对谷歌造成了打击,因为它试图追赶OpenAI,后者得到微软的支持。Sora 仅凭提示就能生成 60 秒的连续视频,震惊了整个科技行业。OpenAI 的 Sora 不仅精确展现了细节,还理解了物理世界中物体的存在,无论是视觉效果、景深、运镜,还是人类的微表情和动物表情,都已经令人信服地逼真。

