最近,华为离职的“天才少年”彭志辉宣布了一项新成果,智元启元大模型正式发布。智元机器人官微发布了首个通用具身基座大模型Genie Operator-1(GO-1),并附上一段视频展示了该模型通过学习人类视频来完成递送水杯、制作餐点和迎接外宾等任务。视频还展示了仿真数据采集及大规模真机数据采集的过程。
从性能上看,GO-1在成功率方面大幅领先已有模型,平均提高了32%。实验显示,它在倒水、清理桌面和补充饮料等任务中表现尤为突出。为了有效利用高质量的AgiBot World数据集以及互联网上的大规模异构视频数据,增强策略的泛化能力,智元提出了Vision-Language-Latent-Action(ViLLA)架构。
去年底,智元机器人联合上海人工智能实验室等单位开源了百万真机数据集项目AgiBot World,涵盖超过100种真实场景,其中40%为家居场景,20%为工业场景,收录了80余种人类生活必备技能。尽管如此,带动作标签的真机数据量仍然有限,远少于互联网规模的数据集。基于ViLLA架构,可以采用隐式动作来建模当前帧和历史帧之间的变化,从而将外部动作知识转移到通用操作任务中。
GO-1大模型能够快速适应新任务,并支持部署到不同的机器人本体。这将加速具身智能的普及,使机器人从依赖特定任务的工具向具备通用智能的自主体发展。3月7日,智元机器人的联合创始人稚晖君(彭志辉)在微博预告了这一发布,相关微博阅读数超过10万,视频播放量超过1050万。