报告

华鑫证券:电力设备行业点评报告:谷歌发布原生多模态大模型Gemini,有望推动具身智能发展

admin2023-12-12 07:30 65人已围观 下载完整内容

简介事件美国当地时间12月6日,谷歌发布原生多模态大模型Gemini1.0,其中GeminiUltra复杂度最高,能够处理最为困难的任务;Pro能力稍弱,是一个可扩

事件

美国当地时间12月6日,谷歌发布原生多模态大模型Gemini1.0,其中GeminiUltra复杂度最高,能够处理最为困难的任务;Pro能力稍弱,是一个可扩展至多任务的最佳模型;Nano则是一款可以在手机端侧运行的模型。

投资要点

GoogleDeepMind持续推进大模型发展

DeepMind成立于2010年,采用跨学科方法构建通用人工智能系统,并于2015年推出了AlphaGo,是第一个击败围棋世界冠军的计算机程序;GoogleBrain于2011年启动,于2017年推出了著名的Transformer架构,后来Transformer也成了几乎所有大语言模型的基础模型,同时Brain团队后续还在机器人领域中使用PaLM-SayCan的大语言模型,并创造了机器人领域第一个视觉语言动作模型(RT-2)。谷歌于2023年4月将这两个世界领先的实验室合并成立了GoogleDeepMind,在此基础上谷歌一直持续推进大模型的发展。

继2022年推出PaLM模型之后,2023年3月谷歌推出了PaLM-E具身多模态语言模型,由大语言模型PaLM(5400亿参数)和视觉模型ViT(220亿参数)结合而成。

2023年5月,在谷歌I/O2023大会上,合并后的GoogleDeepMind推出PaLM2模型,相较于其前身PaLM,PaLM2在高级推理、翻译和代码生成等任务上表现更加优秀。

此次推出的Gemini是一款原生的多模态大模型,传统的多模态模型是将文字、图片、声音等模态经过处理之后的组合系统,他们的统一协调性并不强。而Gemini是原生多模态架构,拥有无缝的跨模态的能力。目前GeminiPro已经上线谷歌Bard,支持文字与图片输入。

Gemini在多项测试中表现较好,算力需求更上一层

Gemini系列中最强的模型GeminiUltra在32个基准测试中的30个取得了行业最强的成绩,同时也是第一个在MMLU(著名的知识与逻辑测试)上达到人类专家水平(得分超过90%)的模型。除了文本,GeminiUltra在多模态的推理任务中同样有很大的突破,在最近的MMMU基准测试中,它关于多学科任务的图片问题得到了62.4%,比此前的最佳模型(GPT4)高出5%以上。

Gemini同样是以Transformer模型为基础模型,训练GeminiUltra在多个数据中心使用了大量的TPUv4加速器,数量相较于此前谷歌旗舰模型PaLM-2有了明显提升。

Gemini将进一步推动具身智能发展

以chatgpt为代表的语言类大模型展现出了庞大的先验知识库与强大的通识理解能力,但是大部分模型仍主要以单一文字模态为主。而对于具身智能而言,所需的模态不仅是文字,还有图片视频等,未来嗅觉、味觉、触觉、温度、湿度等同样是需要引入模型的模态。可以说多模态是人形机器人行业发展的必由之路。

此前谷歌发布的RT-2模型,由大语言模型PaLM与视觉模型ViT结合而成,成功引入多模态训练,尽管也能够理解、执行任务,但其本质是不同模态的模型各自训练好之后的结合,而Gemini是真正的端到端多模态,即在训练大模型的时候就同步穿插各种模态的数据,并且展现出优秀的能力,无需对多种模态进行拆分,预计以Gemini为基础的机器人大模型也将逐步问世,这将推动具身智能的模型进一步发展。

我们看好Gemini推出并应用于具身智能领域后对于机器人行业带来的板块效应,对电力设备板块维持“推荐”评级。

风险提示

机器人下游发展不及预期;算力与算法模型更新迭代不及预期;行业竞争加剧风险等。

  • 微信公众号

下载完整内容

文章评论


评论0

    站点信息

    • 微信公众号:扫描二维码,关注我们