谷歌Gemini 1.5 Pro API:具有原生音频理解、系统指令、JSON 模式等新功能

gemini2024-05-18 19:29:0784

先做个广告:需要购买Gemini帐号或代充值Gemini会员,请加微信:gpt-app

谷歌在今天宣布将在180多个国家/地区推出Gemini 1.5 Pro 的API,首次提供原生音频(语音)理解能力以及全新的File API,使得文件处理更加便捷。此外,还推出了系统指令和JSON模式等新功能,赋予开发者对模型输出的更多控制权。最后,谷歌发布了性能卓越的下一代文本嵌入模型,超越了同类产品的表现。

推荐使用Gemini中文版,国内可直接访问:https://ai.p6p6.cn 

官方介绍:https://developers.googleblog.com/2024/04/gemini-15-pro-in-public-preview-with-new-features.html

以下是官方全文翻译:

谷歌在180多个国家/地区推出Gemini 1.5 Pro API:具有原生音频理解、系统指令、JSON 模式等新功能

在Google AI Studio获取API密钥,并从Gemini API Cookbook开始操作。

不到两个月前,我们向开发者推出了Gemini 1.5 Pro模型,供其试用。我们惊讶于社区利用我们开创性的100万个上下文窗口功能所取得的调试、创作和学习成果。

今天,我们首次通过Gemini API公共预览版在180多个国家/地区推出Gemini 1.5 Pro,并首次提供原生音频(语音)理解能力以及全新的File API,使得文件处理更加便捷。此外,我们还推出了系统指令和JSON模式等新功能,赋予开发者对模型输出的更多控制权。最后,我们发布了性能卓越的下一代文本嵌入模型,超越了同类产品的表现。

前往Google AI Studio创建或访问您的API密钥,开始构建您的应用吧!

解锁音频和视频模态的新用例

我们扩展了Gemini 1.5 Pro的输入模态,使其在Gemini API和Google AI Studio中都具备音频(语音)理解能力。此外,Gemini 1.5 Pro现在还能够对Google AI Studio中上传的视频的图像(帧)和音频(语音)进行推理。我们期待不久后将为此功能提供API支持。

您可以上传讲座的录音,比如这场来自Jeff Dean的包含117,000+个标记的讲座,Gemini 1.5 Pro能够将其转化为带有答案解析的测验。

Gemini API 改进

今天,我们将满足众多开发者的核心需求,推出以下改进:

  • 系统指令:现在,您可以在Google AI Studio和Gemini API中使用系统指令来引导模型的响应。通过定义角色、格式、目标和规则,您可以针对特定用例调整模型的行为。

  • JSON模式:现在您可以指示模型仅输出JSON对象。这一模式让您能够从文本或图像中轻松提取结构化数据。您可以使用cURL开始操作,Python SDK的支持也将很快推出。

  • 函数调用优化:我们增加了选择模式的功能,帮助您限制模型的输出,从而提升其可靠性。您可以选择输出文本、函数调用或仅输出函数本身。

全新高性能嵌入模型

从今天开始,开发者将通过Gemini API访问我们新一代的文本嵌入模型。新模型text-embedding-004(在Vertex AI中为text-embedding-preview-0409)在MTEB基准测试中表现出卓越的检索性能,超越了具有相似维度的现有模型。

这只是未来几周内Gemini API和Google AI Studio即将推出的一系列改进中的首批。我们将继续努力,使Google AI Studio和Gemini API成为使用Gemini构建应用的最佳平台。今天就在Google AI Studio中开始使用Gemini 1.5 Pro,探索我们新推出的Gemini API Cookbook中的代码示例和快速入门,并加入我们的Discord社区频道。




代充值chatgpt plus

本文链接:https://www.google-gemini.cc/gemini_82.html

谷歌 Gemini Pro谷歌Gemini 1.5谷歌发布大模型gemini ai无焦虑谷歌发布大模型gemini概念股谷歌推出多模态大模型gemini谷歌的gemini是什么谷歌最强模型gemini登场谷歌称gemini开创原生多模态时代gemini谷歌宣传视频gemini谷歌硬件

相关文章