成本高数据少掣肘人形机器人迭代,数据瓶颈亟待突破——
四川如何为人形机器人产业打造“摇篮”?
四川如何为人形机器人产业打造“摇篮”?
在2025中关村论坛年会、2025年德国汉诺威工业博览会上,日益灵活、更加智能的人形机器人备受瞩目。人形机器人被视作具身智能落地的核心终端。具身智能是人工智能与机器人学交叉的前沿领域,强调智能体(如机器人、无人机等)通过物理实体与环境实时交互,实现感知、认知、决策和行动一体化。
当前,我国在人形机器人领域已展现出一些先发优势,但仍存在技术创新能力不足、高质量数据集缺乏等问题。数据是驱动具身智能行业发展的关键要素之一,数据不足则会限制人形机器人的灵活性和智能化水平。为了让人形机器人获得更多的数据,一种全新的人工智能基础设施——开源训练场应运而生。简单讲,开源训练场是为人形机器人提供训练、测试与研发的综合性基础设施,通过模拟真实世界的复杂场景与任务需求,提升人形机器人的智能水平、运动能力及算法迭代效率。开源训练场形成“数据—模型—场景”闭环,被比作“机器人摇篮”。
发展人形机器人产业,这样的“摇篮”必不可少。四川该如何为人形机器人产业打造“摇篮”?川观智库对话学者、走访企业并结合研究报告等,提出建议参考。
着力点1 做“数据粮仓”
大城市做算法,中小城市做数据
在未来,行业特色、本地特色场景数据将成为各地的重要竞争资源。
围绕不同的资源,地方可形成训练数据的特色竞争力
当上海的研究员穿戴高精度光学设备,为全尺寸人形机器人示范动作时,西北某小镇一群本地技工,正对着农田摄像头标注玉米秸秆的弯曲角度——两个看似不相干的画面,实则勾勒出当前人形机器人发展的图景之一:大家都忙着做数据采集。
人形机器人要想大规模商业化应用,需要海量的高质量数据来训练和优化算法,通过大量试验和场景训练提高可靠性和精准性。四川省人工智能研究院高级研究员、四川具身人形机器人科技有限公司首席执行官冯振宇直言,就目前技术发展趋势看,数据资源就好比是农耕时代的土地资源、现代社会的电力资源。
给人形机器人采集的高质量数据通常在现实世界中获取,采集方式主要有直接接触数据(真机数据)和间接接触数据(人工控制数据)两种。最理想的数据采集方式是通过人形机器人本体直接触达物理世界,让其准确理解真实环境,这就是真机数据。但是,大规模真机数据的采集成本高昂,需要投入许多人力、物力和时间资源,数据标注和采集设备都存在门槛。与此同时,物理世界的运行规律错综复杂,数据的采集往往难以全面反映所有相关的物理现象与知识。尤其是在复杂的力学环境中,现有的数据采集手段难以精准捕捉所有细微的力学变化与影响因素,这将影响到数据的完整性和准确性。绵阳乐聚机器人技术有限公司总经理黄珍祥介绍,当前人形机器人领域数据集多基于厂商自采集,但存在两大问题,一是不同厂商的数据差异大,二是单个厂商积累数据有限。
助力数据采集,训练场应运而生。今年1月,位于上海的国家地方共建人形机器人创新中心启用具身智能训练场,这是全国首个异构人形机器人训练场。所谓异构人形机器人,就是指不同厂家生产的,在形态、功能、技术架构、应用场景等方面存在差异的人形机器人。在这个训练场里,重点围绕智能制造、民生服务以及特种作业等国家重点领域的场景应用,配备先进的传感器和数据采集系统,在高度还原的环境中对机器人进行任务训练,成为“多机、多场景、多任务”异构人形机器人数据采集的重要阵地。
四川也在推动训练场建设。日前发布的《四川省促进人工智能产业链发展若干政策》提出,夯实数据基础,鼓励企业牵头建设符合国家相关标准要求的高质量数据集。随后,成都高新区推出14条举措支持人工智能(机器人)产业高质量发展,支持数据服务能力提升。
“现阶段确实需要政府支持,需要大厂牵头。”冯振宇透露,四川拟以该公司为执行单位,依托川内众多机构力量,筹建西部地区首个高能级的人形机器人数据采集工厂。多名业内人士称,要前瞻部署未来发展,需要各地早谋划早行动,为训练场扩容提质。
综合受访者的研判,在未来,行业特色、本地特色场景数据将成为各地的重要竞争资源。他们建议,中小城市可以利用土地、人力的低成本优势,做人形机器人“数据粮仓”的特色供应商。具体来说,中小城市可组织低成本人力团队,针对本地特色场景如农田、中小型工厂、乡镇街道等,进行动作捕捉、环境扫描等数据采集,利用本地现有的工业厂房、闲置仓库等资源,开放或改造成为训练场地,为数据采集和人形机器人训练提供物理空间。
围绕不同的资源,地方可形成训练数据的特色竞争力。如农业大县可以关注农业生产场景,重在采摘力度、土壤感知等交互数据,以及山地、梯田等复杂地形的运动数据等,也可以与人形机器人企业合作,建立试验田,不仅为人形机器人产业积累独特的数据资源,还能推动农业生产的智能化发展。
“大城市做算法,中小城市做数据。”一位受访者比喻说,这种分工就像技术落地的“林间套种”。他提醒地方从细微处做出特色,提升数据集多样性,比如对机器人导航数据中的障碍物、语音指令中的方言进行标注。
着力点2 做开源社区
推动数据共享与标准化,降低采集成本
四川应做自己的人形机器人开源社区,重在提供开源创业基础资源及设施,
征集优质开源解决方案,进行财政补贴和投融资支持等
训练场与开源社区的紧密结合,是人形机器人产业技术突破和规模化应用的重要驱动力。从实践看,上海的国家地方共建人形机器人创新中心在启用具身智能训练场前,就搭建起了OpenLoong人形机器人开源社区。该开源社区可对训练场中生产的高质量数据进行分类分级逐步开源,形成开源数据集。这些开源数据集提供给所有开发者用来训练模型、优化算法等,推动人形机器人的技术创新。
“开源是一种允许用户自由使用、修改、复制或分发软硬件、数据与信息原始资源的生产方式。”中国信息通信研究院云计算与大数据研究所开源和软件安全部主任郭雪表示,开源是数字时代的新型生产方式,开源社区是具身智能时代的关键基础设施,目前全球总规模已突破4亿个。
四川省人工智能行业协会秘书长陈章提到,四川已有130多家大模型相关企业,但超九成企业聚焦技术层,涉及上下游的数据供应商相对缺乏。他呼吁搭建开放合作的产业生态平台,推动数据共享与标准化,降低数据采集成本。
开源社区在数据方面起到重要作用,包括减少重复的数据采集,解决数据不统一、不兼容的问题,推动人形机器人生态建设中的标准化进程等。“借鉴OpenLoong人形机器人开源社区的发展,四川应该做自己的人形机器人开源社区,并争取进入国家级平台。”四川省软件行业协会副秘书长李勇认为,根据《“十四五”软件和信息技术服务业发展规划》,国家计划到2025年建设2—3个有国际影响力的开源社区,这是四川开展相关工作的重要政策支撑。
郭雪指出,四川开源体系各要素发展水平较高,但整体开源发展依托于OpenHarmony、OpenEuler等全国性开源项目,原创开源项目及分支开源项目发展相对缓慢,开源商业化、国际化水平相对不高。
在推进开源社区发展壮大方面,政府能做什么?郭雪建议,对全省开源社区分级分类,并根据所处阶段,提供不同形式的公共服务。针对人形机器人开源社区,重在提供开源创业基础资源及设施,征集优质开源解决方案,进行财政补贴和投融资支持等。
李勇认为,推进开源社区发展,全省各地各级政府都有参与空间。比如积极组织本地相关企业、高校、科研机构加入开源社区;设置与人形机器人开源社区相关的交流活动、奖项和赛事,吸引用户;提供场地或资金,支持外来高校、科研院所在本地合作建立数据集实验室之类的平台,提升社区的技术实力和创新能力;通过打造和开放地方特色应用场景,吸引人形机器人企业入驻,促进开源社区与实际应用的结合。(川观智库研究员 李媛莉)