Gemini论文全解读:全面超越GPT4V

gemini2024-05-17 10:06:48480

先做个广告:需要购买Gemini帐号或代充值Gemini会员,请加微信:gpt-app

Gemini论文全解读:全面超越GPT4V

推荐使用Gemini中文版,国内可直接访问:https://ai.p6p6.cn 

Part1 核心梳理

Gemini系列模型是一开始就使用多模态数据(包括文字、音频、图片、视频、PDF文件等)训练的大模型,其中视频数据训练是通过将视频编码为一系列帧序列,视频帧(图像)可以与文本或音频实现混合训练。

Gemini系列模型分为Ultra、Pro、Nano三个版本,都支持上下文32K理解,其中:

1)Ultra版本是性能最强的版本,在对应的TPU基础设施中能够展现出最高效率,在多项测试中Ultra版本性能超过GPT4V(后文有详细测试结果);

2)Pro版本是性价比优化的版本,在推理、多模态等方面也有较强能力,Pro版本具有良好延展性,可以在几周内完成预训练,在多项测试中仅次于GPT4V,强于PaLM2、Claude2、LLaMA2、GPT3.5等主流大模型;

3)Nano:是通过对其他模型蒸馏得来的4位模型,有1.8B和3.25B两个版本,分别针对低内存和高内存设备,支持在本地部署

Gemini训练过程中对基础设施、算法、数据集进行创新:

1)基础设施:Gemini由谷歌TPUV5e和TPUV4训练,并在训练过程中展现出工程化创新,如将4096个TPUV4每个芯片连接到一个专用的光学交换机,可以在大约10秒内动态重新配置4x4x4芯片立方体为任意的3D环形拓扑结构的超级节点,对Gemini Ultra还有热维护等功能的针对性部署。针对Ultra版本需要的高额片间互联速率,谷歌运用了OCS光交换等多个专利技术,文中暂未给出最终速率。

图:TPUV4超级节点架构图

图:谷歌OCS光交换技术

2)算法:使用单控制算法、XLA编译器等技术优化训练过程,还通过预防SDC等问题实现稳定训练。

3)数据集:通过分词技术提高Gemini训练和推理速度,还通过一系列过滤方法保证用于训练的数据的高质量

Part2 与其它大模型对比

我们通过在超过50个基准测试中对Gemini模型系列进行评估,研究了这些模型在六种不同能力上的趋势,这些能力包括:“事实性”,涵盖开放式/封闭式检索和问答任务;“长文本”,涵盖长篇摘要、检索和问答任务;“数学/科学”,包括数学问题解决、定理证明和科学考试任务;“推理”,需要算术、科学和常识推理的任务;“多语言”,涉及多种语言的翻译、摘要和推理。具体的任务列表请参见附录。我们观察到,随着模型规模的增加,Gemini模型家族在推理、数学/科学、摘要和长文本方面持续提高了质量。在所有六种能力中,Gemini Ultra是最优秀的模型。而Gemini Pro作为Gemini模型家族中第二大的模型,在性能上也非常有竞争力,并且在提供服务时更加高效。

指令调优测试:Gemini Ultra>GPT4V

数学测试:Gemini Ultra>GPT4V

图像理解:Gemini Ultra>GPT4V

学科知识测试:除科学外其它Gemini Ultra>GPT4V

图像生成能力:英语表现Pro会超过Ultra

视频理解:Gemini Ultra>SOTA(不确定是否包含GPT4V)

通过Youtube等内部测试集测试翻译能力Pro>Nano,证明参数量增长可以带动模型性能增长

Part3 Gemini其它特点

通过指令微调可以提升Gemini的能力

Gemini对多模态输入展现出良好表现

Gemini训练中使用谷歌一致的负责任AI方式

Gemini的回答具有避免冒险的特点

公司提出了一种新方法,其中模型生成k个思维链样本,如果模型的确定性超过阈值,则选择多数投票结果,否则采用贪婪选择样本。阈值针对每个模型根据验证集表现进行了优化。这种新方法被称为“不确定性路由的思维链”。其背后的想法是,在模型明显不一致时,思维链样本可能会降低性能,相比于最大似然决策。在Gemini Ultra和GPT-4上比较了这种新方法的收益。结果显示,Gemini Ultra相比仅使用思维链样本更多地受益。GPT-4的性能从使用贪婪采样的84.2%提高到使用32个样本的不确定性路由思维链方法的87.3%,但它已经通过使用32个思维链样本实现了这种提升。相反,Gemini Ultra的性能显著提高,从使用贪婪采样的84.0%提高到使用32个样本的不确定性路由思维链方法的90.0%,而仅使用32个思维链样本则略微提高至85.0%。

图:Gemini Ultra与GPT4V对比思维链能力

 Part4 Gemini使用案例

多模态推理图像理解任务

代码能力

数学能力

视频理解能力

免责声明:本文档所有信息来自谷歌Gemini技术报告、《TPU v4: An Optically Reconfigurable Supercomputer for Machine Learning with Hardware Support for Embeddings》、《transforming google’s datacenter network via optical circuit switches and software-defined networking》,可能有翻译不准确风险,任何情况下不构成投资建议,不代表民生证券观点。

计算机团队介绍

吕伟:民生证券计算机行业首席分析师,北京大学理学硕士,2021年加入民生证券研究所。



分析师承诺

本报告署名分析师具有中国证券业协会授予的证券投资咨询执业资格并登记为注册分析师,基于认真审慎的工作态度、专业严谨的研究方法与分析逻辑得出研究结论,独立、客观地出具本报告,并对本报告的内容和观点负责。本报告清晰准确地反映了研究人员的研究观点,结论不受任何第三方的授意、影响,研究人员不曾因、不因、也将不会因本报告中的具体推荐意见或观点而直接或间接收到任何形式的补偿。


投资者适当性说明

《证券期货投资者适当性管理办法》于2017年7月1日起正式实施,通过本微信订阅号/本账号发布的观点和信息仅供民生证券的专业投资者参考,完整的投资观点应以民生证券研究院发布的完整报告为准。若您并非民生证券客户中的专业投资者,为控制投资风险,请取消订阅、接收或使用本订阅号/本账号中的任何信息。本订阅号/本账号难以设置访问权限,若给您造成不便,敬请谅解。我司不会因为关注、收到或阅读本订阅号/本账号推送内容而视相关人员为客户;市场有风险,投资需谨慎。


免责声明

民生证券股份有限公司(以下简称“本公司”)具有中国证监会许可的证券投资咨询业务资格。

本报告仅供本公司境内客户使用。本公司不会因接收人收到本报告而视其为客户。本报告仅为参考之用,并不构成对客户的投资建议,不应被视为买卖任何证券、金融工具的要约或要约邀请。本报告所包含的观点及建议并未考虑个别客户的特殊状况、目标或需要,客户应当充分考虑自身特定状况,不应单纯依靠本报告所载的内容而取代个人的独立判断。在任何情况下,本公司不对任何人因使用本报告中的任何内容而导致的任何可能的损失负任何责任。

本报告是基于已公开信息撰写,但本公司不保证该等信息的准确性或完整性。本报告所载的资料、意见及预测仅反映本公司于发布本报告当日的判断,且预测方法及结果存在一定程度局限性。在不同时期,本公司可发出与本报告所刊载的意见、预测不一致的报告,但本公司没有义务和责任及时更新本报告所涉及的内容并通知客户。

在法律允许的情况下,本公司及其附属机构可能持有报告中提及的公司所发行证券的头寸并进行交易,也可能为这些公司提供或正在争取提供投资银行、财务顾问、咨询服务等相关服务,本公司的员工可能担任本报告所提及的公司的董事。客户应充分考虑可能存在的利益冲突,勿将本报告作为投资决策的唯一参考依据。

若本公司以外的金融机构发送本报告,则由该金融机构独自为此发送行为负责。该机构的客户应联系该机构以交易本报告提及的证券或要求获悉更详细的信息。本报告不构成本公司向发送本报告金融机构之客户提供的投资建议。本公司不会因任何机构或个人从其他机构获得本报告而将其视为本公司客户。

本报告的版权仅归本公司所有,未经书面许可,任何机构或个人不得以任何形式、任何目的进行翻版、转载、发表、篡改或引用。所有在本报告中使用的商标、服务标识及标记,除非另有说明,均为本公司的商标、服务标识及标记。本公司版权所有并保留一切权利。


代充值chatgpt plus

本文链接:https://www.google-gemini.cc/gemini_5.html

Gemini谷歌Gemini 的特点如何使用谷歌Gemini模型如何使用Gemini模型如何使用谷歌Gemini如何使用GeminiChatGPTGoogle Gemini跟ChatGPT对比Gemini API KeyGemini API

相关文章