基于强化学习(Reinforcement Learning,RL),「逐际动力双足机器人P1」第一次来到位于深圳的郊野公园塘朗山,零样本、无保护、全开放进行测试,开箱即跑,在完全陌生的野外环境中,高动态完成了在多种复杂地形上的移动,表现出强化学习训练后,优异的控制力和稳定性。
逐际动力在强化学习有着长期的积累,目前聚焦把强化学习的前沿技术转化为系统化研发能力,支持产品功能开发,并提出了自己的强化学习研发体系,主要包括Real2Sim2Real闭环、神经网络架构设计、数据生成机制与训练算法设计等三大核心版块,搭配不断完善的流程管理和算法验证,推动人形机器人重要功能的开发。
双足机器人P1在狭窄沟渠中高动态稳定行走
P1是逐际动力在中国率先推出的一款新颖的双足机器人,也是逐际动力强化学习系统化研发与模块化测试的重要平台,用于推进双足基础运动能力的研发和迭代。P1成功征服野外森林,正是逐际动力强化学习系统化研发的成果,也是三大核心版块能力的体现。
Real2Sim2Real闭环
从Real2Sim到Sim2Real,打通数据到数据的自动闭环,不管是采集物理世界数据生成仿真模型,还是把仿真后的策略部署到硬件上,从数据的生成、迁移到部署,逐际动力的目标是实现全过程自动化,最大限度降低人工干预,缩小仿真和现实之间的差距,提高训练的效率和质量。
神经网络架构设计