2025-12-29 10:39:00

2025年，机器人领域教给我的3件事 @DrJimFan

1⃣️硬件走在软件前面，但硬件可靠性严重限制了软件迭代速度我们已经看到了极其精妙的工程杰作：Optimus、e-Atlas、Figure、Neo、G1等等。但问题是，我们最好的AI还远没有把这些前沿硬件的潜力榨干。（机器人）身体的能力，明显强过大脑目前能发出的指令。然而，要“伺候”这些机器人，往往需要一整个运维团队。机器人不像人类那样会自我修复：过热、马达损坏、诡异的固件问题，几乎是日常噩梦。错误一旦发生，就是不可逆、也不宽容的。真正被scaling的，只有我的耐心。

2⃣️机器人领域的基准测试，依然是一场史诗级灾难在大模型世界里，人人都知道MMLU、SWE-Bench是怎么回事。但在机器人领域没有任何共识：用什么硬件平台、任务如何定义、评分标准是什么、用哪种模拟器，还是直接上真实世界？按定义来说，每个人都是SOTA——因为每次发新闻，都会临时定义一个新的benchmark。每个人都会从100次失败里，挑出那次最好看的demo。到2026年，我们这个领域必须做得更好，不能再把可复现性和科学规范当成二等公民。

3⃣️基于VLM的VLA路线，总感觉不太对VLA指的是Vision-Language-Action（视觉-语言-动作）模型，目前这是机器人大脑的主流范式。配方也很简单：拿一个预训练好的VLM checkpoint，在上面“嫁接”一个动作模块。但仔细想想就会发现问题。VLM 本质上是被高度优化用来爬诸如视觉问答这类 benchmark的，这直接带来两个后果：VLM的大多数参数，都服务于语言和知识，而不是物理世界；视觉编码器被主动训练去丢弃低层细节，因为问答任务只需要高层理解，但对机器人来说，微小细节对灵巧操作至关重要。因此，VLA 的性能没有理由随着VLM参数规模的增长而线性提升。问题出在预训练目标本身就不对齐。 #AI #Robtics