谷歌Gemini 1.5 Pro API：具有原生音频理解、系统指令、JSON 模式等新功能

gemini2025-05-07 06:52:301135

先做个广告：需要购买Gemini帐号或代充值Gemini会员，请加微信：gptchongzhi

谷歌在今天宣布将在180多个国家/地区推出Gemini 1.5 Pro 的API，首次提供原生音频（语音）理解能力以及全新的File API，使得文件处理更加便捷。此外，还推出了系统指令和JSON模式等新功能，赋予开发者对模型输出的更多控制权。最后，谷歌发布了性能卓越的下一代文本嵌入模型，超越了同类产品的表现。

推荐使用Gemini中文版,国内可直接访问：https://ai.gpt86.top

官方介绍：https://developers.googleblog.com/2024/04/gemini-15-pro-in-public-preview-with-new-features.html

以下是官方全文翻译：

谷歌在180多个国家/地区推出Gemini 1.5 Pro API：具有原生音频理解、系统指令、JSON 模式等新功能

在Google AI Studio获取API密钥，并从Gemini API Cookbook开始操作。

不到两个月前，我们向开发者推出了Gemini 1.5 Pro模型，供其试用。我们惊讶于社区利用我们开创性的100万个上下文窗口功能所取得的调试、创作和学习成果。

今天，我们首次通过Gemini API公共预览版在180多个国家/地区推出Gemini 1.5 Pro，并首次提供原生音频（语音）理解能力以及全新的File API，使得文件处理更加便捷。此外，我们还推出了系统指令和JSON模式等新功能，赋予开发者对模型输出的更多控制权。最后，我们发布了性能卓越的下一代文本嵌入模型，超越了同类产品的表现。

前往Google AI Studio创建或访问您的API密钥，开始构建您的应用吧！

解锁音频和视频模态的新用例

我们扩展了Gemini 1.5 Pro的输入模态，使其在Gemini API和Google AI Studio中都具备音频（语音）理解能力。此外，Gemini 1.5 Pro现在还能够对Google AI Studio中上传的视频的图像（帧）和音频（语音）进行推理。我们期待不久后将为此功能提供API支持。

您可以上传讲座的录音，比如这场来自Jeff Dean的包含117,000+个标记的讲座，Gemini 1.5 Pro能够将其转化为带有答案解析的测验。

Gemini API 改进

今天，我们将满足众多开发者的核心需求，推出以下改进：

系统指令：现在，您可以在Google AI Studio和Gemini API中使用系统指令来引导模型的响应。通过定义角色、格式、目标和规则，您可以针对特定用例调整模型的行为。

JSON模式：现在您可以指示模型仅输出JSON对象。这一模式让您能够从文本或图像中轻松提取结构化数据。您可以使用cURL开始操作，Python SDK的支持也将很快推出。
函数调用优化：我们增加了选择模式的功能，帮助您限制模型的输出，从而提升其可靠性。您可以选择输出文本、函数调用或仅输出函数本身。

全新高性能嵌入模型

从今天开始，开发者将通过Gemini API访问我们新一代的文本嵌入模型。新模型text-embedding-004（在Vertex AI中为text-embedding-preview-0409）在MTEB基准测试中表现出卓越的检索性能，超越了具有相似维度的现有模型。

这只是未来几周内Gemini API和Google AI Studio即将推出的一系列改进中的首批。我们将继续努力，使Google AI Studio和Gemini API成为使用Gemini构建应用的最佳平台。今天就在Google AI Studio中开始使用Gemini 1.5 Pro，探索我们新推出的Gemini API Cookbook中的代码示例和快速入门，并加入我们的Discord社区频道。

代充值chatgpt plus