机器人行业还没到GPT1水平科技漫谈现在业内都靠 VLA 视觉语言动作模型、世界模型冲人形机器人赛道,但看完这次对话我反倒产生疑问,这两项技术真能拉具身智能跨过 GPT1 的分水岭吗?先说 VLA,它能让机器人看懂画面听懂指令,解决基础图文转动作的问题,但局限很明显,只解决视觉语言层面,物理世界的力反馈、温度触感、突发场景应变依旧覆盖不到。还有世界模型,能提前模拟物理场景推演动作,减少实体试错成本,可模拟环境和现实永远有落差,现实里地面打滑、物品形变、温度变化都是模拟很难复刻的。二者只能算是阶段性补丁,而非行业终局。就算模型迭代再快,姚总提到的1亿小时真实交互数据绕不开,模型只是算力工具,缺少真实世界千万种突发情况的实操积累,光靠虚拟推演是催生不出真正的具身智能的。
