- 所有 Gemini 模型都能处理和使用不仅仅是文字的内容。它们在多种音频、图像和视频、庞大的代码库以及不同语言的文本上进行了预训练和微调。
- Gemini 的应用和模型也完全独立于 Imagen 2,可以在公司的一些开发工具和环境中使用。
- 由于 Gemini 模型是多模态的,理论上它们可以执行一系列多模态任务。
谷歌正试图利用 Gemini 引起轰动,这是一个旗舰级的生成式 AI 模型、应用和服务套件。然而,尽管 Gemini 在某些方面看起来很有前途,但根据我们的非正式评测,它在其他方面表现不佳。那么什么是 Gemini?如何使用它?它与竞争对手相比如何?
什么是 Gemini?
Gemini 是谷歌长期承诺的下一代 GenAI 模型系列,由谷歌的人工智能研究实验室 DeepMind 和 Google Research 开发。它有三个版本:
- Gemini Ultra,旗舰级 Gemini 模型
- Gemini Pro,一个“活”的 Gemini 模型
- Gemini Nano,一个较小的“精简版”模型,可在 Pixel 8 Pro 等移动设备上运行
所有 Gemini 模型都经过训练,具有“天然的多模态性”——换句话说,能够处理和使用不仅仅是文字的内容。它们在多种音频、图像和视频、庞大的代码库以及不同语言的文本上进行了预训练和微调。这使得 Gemini 有别于谷歌自己的 LaMDA 等模型,后者专门针对文本数据进行训练。LaMDA 无法理解或生成文本以外的任何内容(例如文章、电子邮件草稿),但 Gemini 模型则没有这种限制。
Gemini 应用与 Gemini 模型有什么区别?
谷歌再次展示了其在品牌塑造上的欠缺,从一开始就没有明确指出 Gemini 与 Web 和移动平台上的 Gemini 应用(前身为 Bard)是分开的。Gemini 应用只是一个界面,通过它可以访问某些模型——你可以将其想象为谷歌 GenAI 客户端。
顺便提一下,Gemini 的应用和模型也完全独立于 Imagen 2,后者是谷歌的文本到图像模型,可以在公司的一些开发工具和环境中使用。别担心,感到困惑的不止你一个人。
Gemini 能做什么?
由于 Gemini 模型是多模态的,理论上它们可以执行一系列多模态任务,从转录语音到为图像和视频添加字幕,再到生成艺术作品。这些功能尚未达到生产阶段(稍后会详细介绍),但谷歌承诺在不久的将来会实现所有这些以及更多功能。谷歌在最初的 Bard 发布中表现严重不佳。最近,该公司还发布了一段视频,声称展示了 Gemini 的能力,但结果证明视频被大量篡改,或多或少只是愿景。

