谷歌 Gemini 1.5 Pro 现可聆听音频：无需转录即可从视频音频中提取信息

谷歌 Gemini 1.5 Pro 现可聆听音频

谷歌为 Gemini 1.5 Pro 赋予了听觉能力。该模型现可处理上传的音频文件，从财报电话会议或视频音频中提取信息，无需书面转录。谷歌还将通过 Vertex AI 公开预览 Gemini 1.5 Pro。此外，文本到图像生成模型 Imagen 2 也迎来更新，包括图像元素的添加与移除功能。

谷歌对 Gemini 1.5 Pro 的更新赋予了该模型听觉能力。该模型现在可以聆听上传的音频文件，并从财报电话会议或视频音频等内容中生成信息，而无需参考书面转录。谷歌还通过 Vertex AI 公开预览 Gemini 1.5 Pro。Gemini 1.5 Pro 能够处理文本、代码、视频，以及现在的上传音频流（包括视频中的音频），它可以聆听、分析和提取信息，而无需相应的书面记录。Gemini 1.5 Pro 是谷歌重塑品牌后的机器人，之前称为 Bard，而 Gemini 1.5 Pro 是该模型的最新版本，今年二月已向部分开发者提供。谷歌还宣布将通过其构建 AI 应用程序的平台 Vertex AI，首次向公众开放 Gemini 1.5 Pro。Gemini 1.5 Pro 首次发布于二月。谷歌在拉斯维加斯的 Cloud Next 大会上分享了此次更新的细节。在将 Gemini Ultra LLM（为其 Gemini 高级聊天机器人提供动力）称为 Gemini 家族中最强大的模型之后，谷歌现在将 Gemini 1.5 Pro 称为其最强大的生成模型。该公司补充说，这个版本具有更好的学习能力，无需额外的模型调整。Gemini 1.5 Pro 的公开文档上下文可供没有 Vertex AI 访问权限的用户使用。另请阅读：OpenAI 语音克隆工具仅需 15 秒样本即可模仿你的声音。文本到图像生成模型 Imagen 2 并非谷歌获得更新的唯一大型 AI 模型。Imagen 2

是一款文本到图像生成模型，将有助于增强 Gemini 的图像生成能力，并添加修复和修补功能，允许用户添加或删除图像中的元素。Imagen 的许多新功能，尤其是内画和外画，此前已出现在其他文本到图像模型中，如 Stability AI 的 Stable Cascade 和 Getty 的 iStock 生成式 AI，更不用说在新款三星 Galaxy 手机上的更广泛的消费者可用性了。

谷歌 Gemini 1.5 Pro 现可聆听音频

信号简报

运营面

市场背景

关注事项

深度趋势背景

战略圈

领导联盟

战略圈简报

领导联盟简报