向更快的Gemini模型改进的AI代理和Imagen3问好

随着谷歌 I/O 2024 活动的进行，该公司重点介绍了其 AI 模型 Gemini 将通过新家族和 AI 代理进行改进的几种方式。

正如博客文章中详细介绍的那样，Google 正在欢迎其 Gemini 生态系统的新成员“Gemini 1.5 Flash”。继二月份推出1.5 Pro后，该公司表示，很快就发现其应用程序需要“更低的延迟和更低的服务成本”。 Gemini 的 1.5 Flash 型号据称比其 Pro 型号更轻，因此速度更快、效率更高。

谷歌表示 Flash 可以处理“大规模、高频率的任务”。该公司补充说，闪存可以处理大量数据，并提供超越其大小的质量。测试表明，1.5 Flash 模型在摘要、聊天应用程序、图像/视频字幕、数据提取、表格等方面表现出色。

谈到 1.5 Pro 模型，谷歌表示它将继续努力进行更新，最新更新旨在改善 AI 的推理和编码。该模型的图像和视频基准理解已针对 MMMU、AI2D、MathVista、ChartQA、DocVQA、InfographicVQA 和 EgoSchema 推出。

下一代 Pro 型号已升级，可遵循“日益复杂”和“细致入微”的指令。谷歌表示，用户甚至可以为 1.5 Pro 模型指定产品级行为，例如角色、格式和样式。 Gemini API 和 AI studio 引入了音频理解功能，这意味着 1.5 Pro 型号可以为上传到后者的图像和视频提供“理由”。

谷歌补充说，计划将 1.5 Pro 模型应用到 Gemini Advanced 和 Workspace 应用程序中。在 I/O 期间，有人调侃称升级后的模型将适用于 Gmail 和NotebookLM。谷歌在其最近的人工智能笔记应用程序中迅速展示了 1.5 Pro 的多模态功能。它表明，用户可以让人工智能模拟对话，以更容易理解的方式提供更大的信息。

猜你喜欢

最新文章