跳转至

序言

不是讲"机器人是什么"的书。是 LLM 装进机器人之后,按下 deploy 之前要做的几十个判断的书。


考虑这样一种已经在公开 demo 里反复出现过的失败:一台用 OpenVLA fine-tune 出来的 7-DoF 机械臂被要求把一个咖啡杯从桌子左边挪到右边。

它非常自信地朝桌面以下三十厘米的虚空伸了过去。碰上桌面之后还在往下压,伺服电机嗡嗡发热。整个过程没有任何"我搞错了"的迹象。它在按自己脑子里的画面执行,那个画面里桌子的高度被它估错了三十厘米,但没有任何反馈回路告诉它停下来。

工程师一巴掌拍在急停按钮上。整个动作前后不到两秒。

两秒之内能想明白一件事:端到端策略和经典控制器在物理世界出错的方式完全不一样。经典控制器报错。端到端策略走样。报错的 bug 能定位、能复现、能写一个 unit test 给它兜住;走样的 bug 你只能继续训,希望下一次 epoch 它别再这么自信地撞桌子。

2022 年之前没人需要纠结这个问题,因为没人把神经网络当完整的 policy 跑过 30 秒以上的连续控制。RT-1 在 2022 年底把这扇门撬开了一条缝。RT-2 在 2023 年中把缝撬大。2024 年下半年 Physical Intelligence 的 π0 出来之后,这条路开始对工业界铺开。到 2026 年现在,每家具身公司都在跑某种形式的 VLA,有的家庭机器人原型已经能 2 小时不重启地干杂活。

这是一个所有判断都在重写的窗口期。


这本书写给三种人。

第一种:ML 那边的事你大概懂,机器人这边的事单看也懂,但你卡在两者拼起来的判断上。你能讲清楚 transformer 的 KV cache,能在白板上画 attention pattern,能在 H100 上跑 70B 模型推理。同时你也大概知道 PD 控制、ROS 话题、URDF 是什么。但当你的老板把一台 ALOHA 推到你面前说"三个月做个 demo 出来",你不知道第一步是搜集 teleop 数据,还是先把 LLM 拿来当 high-level planner,还是直接去 fine-tune OpenVLA。

第二种:你做了五年传统机器人,写过 MoveIt 的 motion planner、调过 Kalman filter、在工厂部署过 ABB 机械臂。然后 2024 年公司转型说我们要做具身大模型,给你两个 RTX 4090 和一篇 RT-2。你看完那篇 paper 知道它说什么,但不知道下一步该用 LeRobot 还是自己写训练循环,不知道 teleop 多少条数据够用,不知道 sim2real gap 这两年到底缩了没缩。

第三种:你懂点 ML,机器人完全是新领域。Twitter 上每周一波具身公司估值新闻,看 1X NEO 那段倒水视频看得激动,但不知道里面哪些是真本事、哪些是 cherry-pick;想看懂这些公司到底在赌什么、哪几家活得过 2028 年、未来五年值不值得跳进去。这一类读者先读"前置篇"那三章(形态与运动学 / 感知与定位 / 控制与抓取),把 SLAM、impedance control、6-DoF pose 这些词的直觉建起来,再回到第 1 章。每段正文也尽量把判断的形状说清楚,遇到生词跳过去也能跟上整章的论点。配合 LLM 边读边问,比从头啃 Tedrake 入门快

这本书的目标是把这三边卡住的判断说清楚。它不是 PyTorch 教程。不是 ROS2 文档。不是 sim 平台对比评测。它是关于在 2026 年这个具体节点上,做一台或评估一台用 LLM 当大脑的机器人,每天要做的几十个 yes/no 判断


下面这些立场,这本书都反对。写在前面省得每一章重新解释。

端到端必胜论。"以后所有问题都会被一个足够大的 VLA 模型端到端解决"是这两年最常听到的一句话。这话部分是对的,很多以前你以为只能分层做的事情,端到端确实能做,而且做得更柔和。但也只是部分对。长程任务、回退、对未见物体的泛化,端到端到现在没有任何说服力的解决方案。书里第 1 章和第 6 章会反复说这件事。

人形必然论。"因为世界是为人设计的,所以机器人最终一定是人形"。这句话听起来漂亮,但只在一类场景下成立。仓库里、工厂里、医院里,轮式底盘 + 一只胳膊比双足人形便宜十倍、稳定五倍、安全二十倍。第 11 章会专门讲为什么人形是一种昂贵的固执。

仿真已死论。VLA 出来之后一些人觉得真实数据加上互联网视频就够了,sim 是上一代的事。错的。第 7 章会讲为什么 sim 在 2026 年比 2020 年更重要,只是用法变了。

Demo 即真理。Twitter 上一段 30 秒的视频不是产品,是 marketing。第 9 章会教你怎么读一个 demo video,怎么从五种典型剪辑手法里看出哪一段是真本事,哪一段是 cherry-pick。

Teleop 无限好。teleoperation 是这两年最被高估的数据来源之一。它能拿到很干净的标签,但也带进很多人的偏见和懒。第 8 章会讲 teleop 数据的代价。

对齐 = 安全。LLM 那边搞 alignment 那一套,照搬到具身机器人不够。一个会写歧视性笑话的聊天机器人和一台会把六十公斤金属手臂砸下去的机器人不是一类风险。第 10 章会重新定义具身安全。

每一章都会有偏见。希望你读到偏见时有反应:同意、不同意、不确定都可以。只有没反应才糟糕。


这本书不教的几件事,划清楚。

怎么训一个 transformer。Karpathy 的 nanoGPT、HuggingFace 的 transformers 文档比这本书清楚一千倍。

怎么写 ROS2 节点。ROS 官方教程、Articulated Robotics 那个 YouTube 频道更适合。

机械臂的运动学/动力学推导。Russ Tedrake 的 Underactuated Robotics 和 Kevin Lynch 的 Modern Robotics 都免费在线,不需要再写一本。

强化学习的算法细节。PPO、SAC、Diffusion Policy 的实现细节,OpenAI Spinning Up 加 LeRobot 源码就够了。

这些都是优秀的资料。这本书做的是它们之间没有人写的那部分:怎么判断该用哪个


读法。

序言和第 1 章按顺序读。第 1 章把"端到端 vs 分层"这个本书最贯穿的判断尺立起来,后面所有章节都会回头引它。

第二、三部分(第 2-10 章)按你工作里正在卡的那一章先看也行。但建议至少把第 7 章(仿真到现实)和第 9 章(评估)翻一遍,因为 90% 的具身 demo 死在这两件事上,而绝大多数从业者低估了它们。

第四部分(第 11-14 章)是回头看格局的几章。第 14 章给我自己留的,预测哪几样东西在 2030 年还不会变。

每章末尾会有几个练习。大多数不是写代码,是让你回去重新看一段你认识的 demo video,或者重新读一篇你以为你读过的 paper,问几个不一样的问题。重做一遍带不同问题的阅读,比写新代码进步快


最后一句立场,是关于这本书自己的寿命。

我估计这本书有效期大概到 2028 年。在那之后,要么硬件层(电池密度、触觉传感器、低成本灵巧手)有突破让一切假设重写,要么数据层(互联网级具身视频)有突破让端到端那一派彻底取胜,要么工业部署让现在很多看似前沿的判断变成常识。这都是好事。摄影那本书写完五年我希望还能用,这本书写完两年要是过时了,说明这个领域真的在动

下一章:第 1 章 端到端与分层