稚晖君:智元跑在特斯拉前面,资本不会只看Demo就掏钱

杰西卡 发自 副驾寺 智能车参考 | 公众号 AI4Auto 具身智能的重心正在发生偏移。 过去,行业热衷的是展示机器人可以做什么——跳舞、翻跟头、跑马拉松,每一次动作突破都能引发刷屏。同时,大批各行各业的技术大牛入局,吸引资本竞相涌入。但浪潮之下,Demo的叙事也正在逐渐失效。 如今,行业普遍瞄准了新的问题:机器人能稳定干活吗?能复制到一千台、一万台吗?能...

杰西卡 发自 副驾寺 智能车参考 | 公众号 AI4Auto 具身智能的重心正在发生偏移。 过去,行业热衷的是展示机器人可以做什么——跳舞、翻跟头、跑马拉松,每一次动作突破都能引发刷屏。同时,大批各行各业的技术大牛入局,吸引资本竞相涌入。但浪潮之下,Demo的叙事也正在逐渐失效。 如今,行业普遍瞄准了新的问题:机器人能稳定干活吗?能复制到一千台、一万台吗?能在真实产线上创造可量化的价值吗? 不可否认,衡量标准已经切换。量产一致性、数据闭环效率、场景作业成功率,取代了炫技式的动态性能,成为新的行业坐标。 在2026上海MWC(世界移动通信大会)现场,智元机器人联合创始人兼CTO稚晖君(彭志辉),分享了对于这一背景下产业路径的看法。 他提出了一个“部署态”的概念,强调具身智能需从开发验证转向实际生产力输出。 他还透露,依托“三智一体”的技术框架,智元已在工业场景中完成万台级交付。这意味着具身智能正在脱离实验室,开始在物理世界承担具体的、可量化的生产任务。 演讲实录传达如下,仅做流畅性编辑: 三智一体部署态,共筑具身生产力新格局 各位嘉宾,各位移动通信、人工智能与机器人产业的朋友们,大家好,我是智元的彭志辉。 我今天分享的题目是“三智一体部署态,共筑具身生产力新格局”。 过去几年,我们谈论AI时,更多聚焦于数字世界——模型参数、算力、应用入口。从MCP到Skill,到Harmony,再到如今的Loop Engineering,Agent生态持续演进。 但我们认为,接下来更关键的问题是,AI如何从数字世界真正走向物理世界,如何从“回答问题”走向“在物理世界中自主完成任务”。 这不是一次性的文本生成,而是持续运行、持续学习、持续创造生产力的过程。 今天我想把这个问题放到更大的产业视角来看: 当大模型能力、本体硬件可靠性与真实场景数据在同一窗口开始收敛,AI的落地方式将发生哪些根本性变化?我们如何从软件应用时代,真正进入具身智能大规模部署的时代? 这正是我们一直在说的——从开发态走向部署态。 对移动通信领域而言,这件事同样高度相关。过去,移动通信连接的是人、手机与各类终端;未来,越来越多的连接对象将是自主运行的智能体。它们在真实世界中感知、决策、执行、反馈,而且不是偶尔在线,而是长期在线。 Token:AI时代的货币 黄仁勋在GTC上提到,每一次推理、每一次决策、每一次生成,本质上都是Token的流动。我们非常认同这一判断——Token不只是技术计量单位,它越来越像AI时代的货币。 目前我们讨论的Token消耗,更多集中在聊天工具、代码助手、图像视频生成软件上。这些任务边界清晰,调用频次有上限,Token大多流转于数字世界之内。 但具身智能体不同。它在物理世界中持续运行,每时每刻都在感知环境、理解任务、规划动作、执行反馈,并根据结果不断修正下一步行动。 具身智能体的任务空间,是数字世界与物理世界的总和,面对的是连续的、多模态的、充满不确定性的输出。 因此,未来最大的Token消耗者,将是现实世界中的具身机器人——它既是执行器,也是流量入口;既是劳动者,也是模型连接物理世界的端口。 这也不只是我们一家的判断,整个行业都在发生类似的集体转向。 特斯拉强调规模化量产,计划年底实现数千台量产,而我们目前走在其前面;NVIDIA也在推动物理世界智能进入生态建设阶段,背后逻辑很清晰——GPU算力的下一个增长极,可能不在数据中心,而在真实的物理世界。 就连以技术炫技著称的波士顿动力,近来也开始聚焦商业价值的创造——资本已不再为单纯的demo买单,真实场景下的落地价值才是关键。 我们内部用一条“XYZ曲线”来描述具身智能产业的发展阶段。 X曲线是过去两年大家熟悉的阶段——机器人跳舞、表演、展示情绪价值。这一阶段体现的是基础技术突破,验证了底层可能性,但价值天花板相对较低。 接下来我们将进入Y曲线,即“部署态”的成长期。 这一阶段的重点是:机器人不只是能动,还要能干活。它将进入交互智能与作业智能的场景化部署阶段,数据飞轮开始形成,生产力价值真正得以体现。 大约5年后,我个人预计将进入Z曲线的普及期。届时,数据量将实现量变到质变,具身智能将迎来类似大语言模型“GPT时刻”的突破,最终走向群体智能与更高水平的价值创造。 智元的核心范式:三智一体 基于上述判断,智元成立三年来,一直在探索如何打通数字世界与物理世界之路,并由此提出了独有的“三智一体”范式。 具身智能的实现,不能依赖单一技术突破,而需要四个维度的协同: 本体决定了能进入什么场景——双足机器人适合与人交互,轮式机器人在安全性、效率与成本上更适合工厂应用,四足机器人则适合特种场景。 我们拥有多形态本体,但它们基于同一套平台框架构建。 运动智能决定机器人能否在开放环境中稳定、可靠、高效地运行。这是基础智能,是一切上层能力的前提。 作业智能决定机器人能否创造劳动生产力价值,是商业化的核心。机器人必须能够自主闭环地完成搬运、装配、取放等具体任务,而且要做得比人更快、更稳、成本更低。 交互智能决定机器人能否顺畅融入人类的工作流与服务流。机器人并非孤立存在,它需要与人协作、沟通、理解意图。没有交互智能,机器人永远只是工具,无法成为人类的伙伴。 目前,智元是全球唯一同时具备这四层全栈能力、且完成超过万台量产的机器人公司——这一进度甚至走在特斯拉前面。 在本体布局上,智元已形成多形态系列化矩阵:全尺寸的“远征系列”双足机器人,中尺寸/半尺寸人形(去年单款出货超过5000台),面向工业制造的轮式机器人,以及四足机器人。 过去,机器人行业长期存在实验室能力与量产能力之间的巨大落差——一台样机能跑,不代表1000台能稳定交付;1000台能交付,也不代表10000台能保持产品的稳定性与一致性。 为此,我们非常重视量产验证,从2023年的几台样机,到2024年突破1000台,到去年底的5000台,到本月底即将突破15000台。 这背后真正检验的,是系统工程能力——供应链与制造一致性是否可控,质量体系是否能够支撑。机器人要成为生产力基础设施,必须首先成为可靠的工业品。 在商业化推进方面,我们不是一上来就挑战最复杂的任务(比如家庭保姆),而是沿着“环境复杂度”与“任务复杂度”两个维度逐步升级。 2024年,我们从接待讲解、科研教育、数据采集等相对简单的场景切入;2025年,开始进入安防巡检、物流分拣、工业制造等高价值场景。 在三智能力进展方面: 运动智能方面,我们推出了自研的运动基座模型BFM-2,核心思想是让机器人的“小脑”不再学单一动作,而是学习统一的泛化动作分布,实现高效、实时、高鲁棒性的动态动作执行。 此外,我们的生成式运动模型,可以根据语音或上下文指令,让机器人自主生成配套肢体语言;感控一体模型AGILE则将动作与视觉感知端到端结合,快速响应环境变化。 作业智能方面,我们的核心是让机器人从“理解任务”走向“完成任务”。 我们推出了AGIBOT WORLD(真实世界数据平台)、Genie Sim(基于世界模型的仿真与评测系统)、自研VLA基座模型,以及SOP在线分布式强化学习系统,让机器人在真实部署中实现自我闭环、自我纠错与自我进化。 我们用真实世界产数据→仿真训练→模型输出→真实执行→数据反馈,最终形成完整的数据飞轮。 我们的模型能力在各项权威基准上,均超越了海外标杆(Physical Intelligence的π0.5及Root),世界模型也登顶WorldArena榜首。 一个典型案例是江西南昌龙旗的平板生产线,具体工作需要将易碎的平板玻璃精细放入工装夹具。 传统工业机械臂因轨迹化编程无法胜任,过去只能依赖工人手感操作。我们通过数据驱动方式,实现了接近100%的成功率,且节拍快于人工,目前正在进行7×24小时直播验证。 交互智能方面,我们推出了机器人原生的端到端交互模型WITA-Omni。 区别于将视觉、语音、动作分割处理的传统方案,WITA-Omni将看、听、说、动全部端到端融合训练,让机器人真正成为有连续存在感、在场感、人格感的智能体,而非一个会说话的音箱。 我们将其定位为“灵犀”产品线,认为人形机器人将是人机交互的终极形态—— 从一维文本命令行,到二维图形界面,再到三维具身实体,人机交互的下一次革命将发生在人形机器人上。目前已在安踏、海底捞等客户及地铁场景实际运营,今年下半年将大规模推广。 生态建设与商业模式创新 封闭生态无法支撑繁荣的产业发展。我们持续推进开源工作,包括最大的具身数据集、作业开发平台、Go系列VLA基础模型等,目前已吸引超过2万名开发者、累计下载量超过100万次。 在生态技术体系层面,我们推出了业界首个开放完整的具身智能生态技术架构AIMA(AI Machine Architecture),以统一架构融合三智一体,构建开放标准化的具身智能开发与应用生态。 底层我们还在构建具身时代原生操作系统“灵渠OS”——之前我在华为工作过,操作系统被卡脖子的教训让我意识到,宜早不宜晚,我们现在就开始布局。 4月17日,我们正式启动智元原生生态发展计划,未来5年投入22亿元(今年已投入超过1亿元),涵盖科技创新与教育人才培养,希望集合各方力量共建生态基础设施。 在商业模式上,我们今年推出了机器人租赁模式——我们叫RaaS(Robot as a Service)。 其实就像雇佣人类员工,买的是他的工作时间,而非买断其人生;同理,随着机器人智能化作业能力的提升,租赁将成为未来机器人落地部署的主流模式。 我们通过子公司擎天租,将逐步构建全球化的机器人租赁网络。 最后,在过去几年,智元主要做了三件事: 第一,用多形态本体与超万台量产验证,将具身智能从实验室推向工业与生产生活; 第二,用运动智能、作业智能、交互智能与真实场景数据闭环,将单点demo推向可部署、可复制的真实场景落地; 第三,通过开源数据集、基础模型、操作系统等生态开放,将公司内部能力转化为行业可复用、可共建的基础能力。 这件事不是一家公司能唱的独角戏,需要机器人公司、模型公司、运营商、云服务商、行业客户、开发者与全球生态合作伙伴共同参与。 智元希望以三智一体的全栈能力、部署态的数据飞轮和开放生态,与大家一起推动具身智能从技术阶段走向真正的规模部署,共同开启物理世界智能基础设施的新阶段。

查看原文