【沃资讯】12月7日消息,谷歌公司于北京时间7日凌晨发布了其最新的多模态模型——Gemini。这一模型被宣称是谷歌迄今为止最强大、最通用的模型,具备归纳和流畅理解、操作和组合文本、代码、音频、图像和视频等不同类型信息的能力。
Gemini 1.0推出了三个不同尺寸的模型,分别为Ultra、Pro和Nano。其中,Ultra是规模最大、功能最强大的模型,适用于高度复杂的任务;Pro则是适用于各种任务的最佳模型;而Nano则是端侧设备上最高效的模型。
据沃资讯了解,Gemini目前已经应用于多个谷歌产品和平台,包括聊天机器人Bard和智能手机Pixel 8 Pro。未来几个月,Gemini将进一步应用于Google旗下更多产品和服务,例如Search、Ads、Chrome和Duet AI。
Gemini在性能上展现出了令人瞩目的特点。Gemini Ultra在大规模多任务语言理解(MMLU)测试中的得分率为90.0%,超过了人类专家,而GPT-4的得分率为86.4%。在图像理解方面,Gemini Ultra在新的MMM基准测试中的得分率为59.4%,明显优于GPT-4V的得分率56.8%。
Gemini不仅仅在语言理解方面表现优异,还在复杂推理能力上展现出强大的实力。例如,在阅读、过滤和理解信息的过程中,Gemini可以从数十万份文件中提取见解,为科学家处理大量研究论文提供了便利。在一次演示中,Gemini在短短的午餐时间内帮助科学家阅读了20万篇论文,并呈现了更新数据后的新图表。
Gemini 1.0的应用还不仅限于文本理解,它还能理解、解释和生成Python、Java、C++、Go等编程语言的高质量代码。谷歌表示,Gemini的多模态能力有助于更好地理解具有微妙差异的信息,为回答与复杂主题相关的问题提供了更多可能性。
谷歌同时发布了Cloud TPU v5p,这是一款功能最强大、效率最高、可扩展性最强的TPU系统,旨在支持训练前沿AI模型。这将加速Gemini的开发,帮助开发者和企业客户更快地训练大规模生成式AI模型,从而更迅速地推出新产品和新功能。Gemini 1.0的API将于12月13日起通过Google AI Studio或Google Cloud Vertex AI提供给开发者和企业客户。