谷歌DeepMind新AI模型：让机器人无训练执行现实任务？-科技-沃资讯

谷歌DeepMind新AI模型：让机器人无训练执行现实任务？

发布时间：2025-03-12 23:52 来源：ITBEAR 作者：钟景轩

谷歌DeepMind在人工智能领域再次迈出重要一步，推出了两款旨在增强机器人现实世界应用能力的新型AI模型。这一消息在科技界引起了广泛关注。

其中一款名为Gemini Robotics的模型，融合了视觉、语言和行动能力，使机器人能够在未经特定训练的情况下，理解并适应新环境。这一突破性进展得益于Gemini 2.0，谷歌最新的AI旗舰模型。据DeepMind机器人部门的高级总监Carolina Parada介绍，Gemini Robotics通过引入物理行动的新模态，将Gemini的多模态世界理解能力应用到了现实场景中。

Gemini Robotics在构建高效机器人所需的三大核心领域——通用性、互动性和灵活性上取得了显著进展。它不仅能够应对各种新情境，还在与人类及环境的互动中表现出色，且能执行更加精细的物理操作，如折纸或开启瓶盖等。

另一款模型名为Gemini Robotics-ER（具象推理），它被描述为一种先进的视觉语言模型，能够“理解复杂且动态的世界”。Parada解释说，在日常活动中，如装便当盒时，机器人需要考虑物品的位置和操作步骤，这正是Gemini Robotics-ER所擅长的。机器人专家可以通过该模型与现有的低级控制系统对接，实现由Gemini Robotics-ER驱动的新功能。

DeepMind的研究员Vikas Sindhwani透露，公司正在开发一种“分层安全策略”，并指出Gemini Robotics-ER模型已被训练用于评估特定情境下动作的安全性。DeepMind还发布了新的基准和框架，以推动AI领域的安全研究。去年DeepMind推出了“机器人宪法”，这是一套受艾萨克·阿西莫夫启发的机器人行为规范。

在合作方面，DeepMind与Apptronik携手，共同致力于“打造下一代人形机器人”。同时，DeepMind还向包括Agile Robots、Agility Robotics、波士顿动力和Enchanted Tools在内的多家“受信任的测试者”开放了Gemini Robotics-ER模型。Parada表示：“我们专注于开发能够理解物理世界并在其中行动的智能，我们非常期待将这一技术应用于多个领域和多种表现形式。”

更多>同类内容