- 谷歌的 Ellmann 项目利用 Gemini AI 根据用户照片生成个性化生活故事。
- 谷歌将 Gemini AI 授权给 Google Cloud,实现多模态信息处理。
- 谷歌强调在开发 Ellmann 时,要兼顾创新与用户隐私。
谷歌发布了“Ellmann 项目”,这是一项富有远见的计划,旨在利用 AI 技术处理用户照片和搜索引擎查询。该项目设想创建一个“个人生活故事讲述者”,利用 Gemini AI 等大语言模型(LLM)从用户照片中提取信息,并生成一个能够精确回答用户查询的聊天机器人。
Ellmann 项目的主要目标是通过分析用户照片中的模式,并将这些信息转化为对话式 AI 体验,为用户提供独特而详细的生活概览。尽管 Ellmann 是否会被整合到拥有超过十亿用户、存储了数万亿张照片和视频的 Google Photos 中尚不确定,但谷歌正在积极探索利用 AI 技术优化其产品线的方法。
Gemini AI:多模态突破
谷歌 AI 阵容的最新成员之一是 Gemini,该模型在某些场景下已经超越了 OpenAI 的 GPT-4。谷歌打算将 Gemini 授权给 Google Cloud 用户,让他们能够开发定制化功能。Gemini 的突出特点在于其“多模态”能力,使其能够理解文本、图像、视频、音频等多种内容。
在一次内部会议上,Google Photos 的一位高管展示了 Ellmann 项目,强调了大语言模型在呈现用户现实生活体验“鸟瞰图”方面的潜力。Ellmann 旨在通过传记、过往记录和照片来深度理解上下文。例如,通过分析一系列片段,Ellmann 能够识别出像大学生活这样的主题。

另请阅读:一窥 Alphabet 的 Gemini:旨在挑战 ChatGPT-4 的 AI 模型
Ellmann Chat
据内部文件显示,谷歌设想中的 Ellmann Chat 是一个聊天机器人,打开时就已经对个人生活有了全面的了解。用户可以提出诸如“我有宠物狗吗?”这样的问题,并得到详细回答,包括宠物的名字以及喜欢和狗相处的家庭成员的信息。Ellmann 还可以协助回答有关搬迁的问题,推荐与用户当前居住环境相似的城镇。
另请阅读:谷歌推出 AI 驱动的 NotebookLM,提升笔记体验
平衡创新与伦理考量
谷歌强调,Ellmann 仍处于早期探索阶段,其正式发布取决于在解决隐私和安全问题的同时确保对用户有用。许多科技公司都在努力利用新技术创造更个性化的用户记忆,Ellmann 项目只是其中之一。
无论是 Google Photos 还是 Apple 的相册,这两个平台都在积极分析照片以识别模式并自动创建相册。尽管 AI 驱动的个性化记忆前景听起来很美好,但谷歌和苹果技术中的不完美——比如过去误认个人的事件——提醒我们,该领域的挑战依然存在。
Ellmann 项目代表着向 AI 驱动的个性化叙事迈出的重要一步,有可能重塑用户与数字记忆的互动方式。随着技术的不断进步,在创新与解决伦理问题之间取得平衡仍然是这些发展的关键方面。AI 的发展方向从来不是取代人类,也不是用“平均”数据抹杀个体性。大数据和算法的进步有助于讲述个性化故事,这是一个非常积极的趋势。

