第 14 章 五年后¶
这一章是我从 2026 年 5 月写下的预测,目标年份是 2030 到 2031。预测的意义不在于猜对,在于明确说出押注是什么、依据是什么、什么时候证伪。如果两年后回头看这一章一半都说错了,那是这本书最好的一种过时方式。
序言里我说过这本书的有效期大概到 2028 年。这一章是同一句话的反面:到 2030 年,下面这些事还没怎么动,你就该警惕;下面这些事真的动了,你就该跟着调整方向。
预测难写在于人会本能往两个极端靠:要么"五年后什么都变了"的科技乌托邦腔,要么"五年后跟今天差不多"的犬儒腔。这两种腔都不诚实。机器人这件事真实的节奏是:硬件慢、数据快、算法在两者之间被夹着走。接下来三组各五条预测,按这个节奏排。
我也不会假装自己在押每一条都同样有把握。下面分了三档:不会变、会变、可能变也可能不变。最后一档是写给我自己看的,免得过两年我引用这一章的时候只挑命中的来念。
第一组 不会变的五件事¶
接触动力学的 sim2real 还是会很难。这件事 2010 年代就难,2020 到 2026 这几年并没有真的解决,只是被 VLA 那一线的成功掩盖了。问题的根在物理,不在算法。摩擦系数、表面微观纹理、软材料的本构方程、湿润度、温度,这些量在仿真里要么没建模、要么用一个粗糙的常数代替。第 7 章讲过为什么 sim 在 2026 年比 2020 年还重要,但那是对运动学和视觉而言的。一旦任务进入需要精细力控的接触片段,sim2real 鸿沟会立刻显现出来。MuJoCo 3、Isaac Lab、Drake 这几年都在加 contact-rich 的支持,但本质上仍然在做有限元和刚体之间的插值近似。我赌到 2030 年,装一根软线进一个孔、给一只软玩具系蝴蝶结、把生鱼片摆盘这种任务,仿真训出来的 policy 直接 zero-shot 到真机上,仍然会大概率失败。能跑通的仍然是"sim 训大致动作 + 真机几百到几千条数据 fine-tune"这套两段流程。
灵巧手仍然贵且不可靠。2026 年现在五指人手级别的灵巧手价格大约在 5 万到 30 万美元之间,MTBF(平均无故障时间)按真实使用算大多在 200 小时以下。这个数据点过去十年改善得非常慢。原因很物理:人的手指里塞了 30 多块肌肉、上百条腱、几千个机械感受器,要在直径不到 2 厘米的指节里复刻这种密度,机械、电气、传感、散热每一项都被推到工艺极限。Shadow Hand 是 2005 年代的东西,2026 年的 Shadow 新版本核心结构和价格区间没怎么动。Tesla Optimus 试着用一只 11-DoF 的简化手压成本,Figure 02 走的是类似的路线,1X NEO 干脆只在指尖加触觉的两指夹爪。简化手有用,量产手便宜,但真正"和人一样灵巧的手"在 2030 年还会是科研奢侈品。家庭机器人会绕开这个问题,不会等它解决。
长程任务仍然需要分层。第 1 章和第 6 章的判断我在这里再赌一次:到 2030 年,5 分钟以上的连续任务依然需要某种形式的层级结构。不一定还是 LLM-VLA-控制器三层,可能演化成 LLM 当 monitor 而不是 planner、VLA 内部自己长出 hierarchy(Helix 那一线在试)、或者用层级强化学习把分层学到网络里(Berkeley 和 DeepMind 的 HRL 复兴)。但 flat 的、一个网络从开机一路吐到关机的 5 分钟连续控制,到 2030 年仍然不会是稳健做法。原因是数据。teleop 收 5 分钟连续轨迹的成本是 30 秒片段的 50-100 倍,而且 5 分钟里的失败模式组合爆炸,一旦中间某一步崩了后面都是脏数据。这是一个被数据经济学锁死的问题,不是算力问题。
99% 的问题仍然吃掉 80% 的工程时间。这是第 12 章那条工程定律的延续。一台机器人 demo 跑通到产品 ship 中间的差距,我估计 2030 年仍然是工程的几十倍代价,不会因为模型变强而消失。原因是 demo 的失败模式是连续的(精度不够、动作不流畅、偶尔抓不稳),而产品的失败模式是离散的、对抗性的(猫跳上桌、小孩往传感器糊果酱、电源闪断、Wi-Fi 降级、用户把工作区改了一半)。模型再强也只能压住前一类,后一类需要架构、回退逻辑、监控、运维。没有哪条 scaling law 会自动解决"用户家把猫窝放在了机器人充电桩前面"。
评估仍然落后于训练。第 9 章说过这条。到 2030 年我赌评估这件事仍然是这个领域最破的环节。原因是评估本质上需要真机时间,而真机时间不能并行不能加速不能在云上租。哪怕仿真评估在 2030 年更逼真,关键的"和真机的差异"那一段仍然只能在真机上量。Hugging Face 的 LeRobot 那边一直在推一个统一 leaderboard,但你看 2026 年的状态会发现各家公司报的指标几乎不可比。到 2030 年我们大概还在为"成功率"是按 trial 算还是按 task 算、是不是包含 reset、reset 算谁的时间这些事吵架。这不是技术的问题,是利益的问题。每家公司都希望自己的指标定义最好看。
第二组 会变的五件事¶
触觉传感器会便宜一个数量级并且普及。Meta 的 DIGIT 把视觉触觉从研究玩具推到了能小规模出货的状态,2024 到 2025 这一段中国和欧洲冒出至少十家做低成本电容触觉、磁性触觉、压阻阵列的小公司。我赌到 2030 年,给一台中端机器人的每一根手指装上 1000 个以上触点的触觉皮肤,单只手的触觉硬件成本会跌到 200 美元以下(2026 年大约是 2000-5000 美元)。背后的推动力有两条:一是手机、可穿戴设备里的微型电容传感器代工链已经成熟,二是 VLA 需要触觉输入这件事被工业界承认了。π0 后续工作里把触觉作为输入流的版本明显更稳,这个信号传得很快。触觉一旦便宜到可以"洒"在每一处接触面上,sim2real 那条故事就会被部分改写。不是 sim 变好了,是真机数据里多出了一个新的反馈通道,让策略有机会自己学到接触模式。
家用人形会先在轮式半人形上落地。第 11 章讲过为什么人形在大多数场景里是昂贵的固执。我赌到 2030 年,第一批真正在普通家庭里跑过 1000 小时以上的"通用助手机器人",下半身是轮式或者轮腿混合(类似 1X NEO 早期方案、Apptronik Apollo 的某些 SKU、加上中国几家会跟进的玩家),上半身是双臂加躯干。两条腿走路这件事在家里不解决任何商业问题,只解决一种叙事问题。叙事在融资阶段重要,在客户家里不重要。Tesla Optimus 和 Figure 02 这条全双足人形线我赌到 2030 年仍然主要在工厂和仓库,不是家庭。家庭这条线会被那些愿意承认"轮子比腿好"的公司先跑通。
数据集会进入 1 亿 trajectory 的级别,主要由中国玩家拉动。2026 年现在最大的开源具身数据集 Open X-Embodiment 大约 100 万条 trajectory,最大的闭源数据集(Tesla、Figure、PI)估计是这个数量级的几倍。我赌到 2030 年至少有一家公司或者联合体公开过 1 亿条级别的具身数据集,并且这件事的主要推动力来自中国。原因是中国制造业有一种独特的数据采集成本结构:teleop operator 工资低、机械臂便宜、产线场景多、政府数据基建愿意投。智元、宇树、银河通用、星动纪元这几家 2025-2026 已经开始公开自己的百万级数据集,加上华为、字节这种巨头一旦认真做就是别的级别。不是说数据多就赢,是说"演示数据 = 石油"这个比喻终于会兑现,并且这桶油在中国手里更多。美国这边会在算法、芯片、模型架构上继续领先,但纯演示数据这件事,赌注会偏向东边。
VLA 推理频率突破 100Hz 成为标配。2026 年大多数开源 VLA 跑在 5-15Hz,π0-FAST 把这个数字推到了 50Hz 量级。这件事的瓶颈不是模型,是 tokenizer 和 action head 的设计。flow matching、action chunking、speculative decoding 这几条路 2025 年已经看到效果。我赌到 2030 年,70 亿参数级别的 VLA 在 RTX 6000 这一代卡上跑稳 100Hz 是基本要求,30 亿参数跑 200Hz 也会出现。这件事的意义不是数字好看,是100Hz 是力控的最低门槛。低于这个频率任何接触敏感任务都需要下面再叠一层经典控制器兜底,到了 100Hz 以上 VLA 才有机会自己出力控信号。这一步走通之后第 1 章那张表里"接触很多、力控敏感"那一行就会从端到端的优势项变成端到端的标配。
至少 2-3 家具身公司会上市或被巨头并购。2026 年具身赛道融资仍然热,但已经过了"画 PPT 拿钱"的阶段,市场要看真正出货。我赌到 2030 年具身公司里至少有 2-3 家走完资本周期:可能是 Figure、1X、Physical Intelligence 这种明星公司其中之一上市,可能是宇树、智元在 A 股或港股 IPO,可能是 Apptronik 被某家汽车厂或科技巨头整体并购。这一步走完之后估值就会从故事驱动变成真实出货量驱动,整个赛道会经历一次估值压缩。这对工程师来说是好事不是坏事,泡沫破之后留下来的那几家会真正进入"做产品"的阶段,工程岗位的比例会显著超过研究岗位。
第三组 可能变也可能不变(不押注)¶
下面这五件事我有看法,但没有强到敢押注。我会说出来让你判断,不是替你判断。
会不会出现一个"具身 GPT-3 时刻"?也就是某一个模型把任务通用性突然推到一个新的台阶,让之前所有针对具体任务的优化方法变得过时,整个领域的公司都被迫围绕它重写自己的栈。GPT-3 在 2020 年对 NLP 做了这件事。在具身这边可能 2027-2029 年发生,可能不发生。变量是数据:如果 1 亿条 trajectory 真的在 2028 之前堆出来,时刻可能来;如果数据卡在千万级别,可能不来。我自己倾向 50/50。这件事一旦来了,前面"不会变"的几条至少有两条会被打穿,所以你应该留一只眼睛盯着这个时刻。
开源和闭源生态怎么分裂?2026 年现在 LeRobot、OpenVLA、π0(部分开源)这一条线还在勉强跟上 Tesla、Figure、1X 这些闭源大厂的脚步。但具身领域的开源比 LLM 领域要难,因为开源模型解决不了硬件、数据、teleop 平台的成本。Meta 在 Llama 上的策略到了具身这边能不能同样有效,我看不清。一种可能是 2030 年开源已经和闭源差了三代,另一种可能是中国厂商用全栈开源(硬件 + 数据 + 模型)打穿这种格局。这两种走向对工程师择业影响很不一样,但我现在不敢押。
真正可信的家庭机器人能不能在 5 年内出现?"可信"指的是:不需要 teleop 兜底,不需要工程师远程介入,连续运行一周不出大问题,用户敢把家里小孩单独留在它旁边。2026 年距离这件事很远。1X NEO 的 beta 用户家里仍然有大量 teleop 介入,Figure 在工厂部署也仍然有人盯着。这件事本质上是 99% 问题(前面那条)的临界点。临界点能不能在 5 年内跨过去取决于一些慢变量:保险、监管、电池安全标准、家庭 Wi-Fi 可靠性。可能在 2030 之前过临界点(一线城市公寓里有 1000 台稳定运行的家用机器人),可能要到 2032 之后。
中美在 humanoid 形态战的胜负如何?2026 年现在美国在双足人形这条线上模型和资金都领先,中国在硬件和数据上领先。会不会到 2030 年分出胜负,取决于商业落地的速度和形态。如果家庭机器人这条线先跑通,并且选择的是轮式半人形(前面赌过),那这场仗就根本不在双足人形上分胜负,会改在另一个战场打。如果工厂和仓库这条线先跑通,全双足人形又是必须的,那美国可能赢。如果两条线都不先跑通,五年内悬而未决。这件事我看着像悬而未决,不是分胜负。
通用人工智能和机器人的政策监管框架。这件事完全在技术之外。欧盟 AI Act 已经在 2024 年通过,对 high-risk AI 系统有了一套要求,但具身机器人在那个框架里的位置还没真正测试过。美国联邦层面到 2026 年仍然没有统一立法,州层面(加州、纽约)零散有动作。中国对工业机器人有标准,对家用人形机器人没有专门标准。我不押任何具体走向,但给所有具身工程师一个建议:保留你训练数据来源的完整记录、保留你 deploy 时的安全边界配置、保留你做过的红队测试。这些东西如果未来某一天监管机构来查,你不会希望自己是那个解释不清楚的工程师。
给一直读到这的工程师 5 条择业 / 投入精力的建议¶
第一,别跟风去做"通用人形",除非你愿意承担五年内不出货的赌注。轮式半人形、桌面机械臂、专用搬运机器人这些"不性感但能落地"的方向在 2026-2030 反而是工程师能做出真东西的地方。融资 PPT 上人形最多,但工厂订单和家庭客单上不是。
第二,touch 和 force 这两个方向值得早进。视觉这条已经卷到不能再卷,VLA 这条门槛已经被推得很高,但触觉和力控的人才在这个领域里仍然短缺。前面赌过触觉传感器会便宜一个数量级,意味着接下来五年这个方向会从科研走到工程,需要大量懂硬件 + 懂模型的人。这种交叉位置历史上回报都不错。
第三,在评估和数据基建上花的时间比你以为的更值钱。第 9 章已经说过 90% 的 demo 死在评估上。下个五年会出现专门做具身评估、数据标注、failure mode 分析这种基础设施公司,类似 LLM 那边 Scale AI、Weights & Biases 的位置。工程师如果擅长这一类工作,到 2028-2030 是稀缺职位。
第四,至少懂一种经典控制方法到能动手实现的程度。impedance control、admittance control、QP-based whole-body control,这三个里随便挑一个,自己写一遍跑通。不是因为它们会取代 VLA,是因为下一波最强的具身工程师都是同时手握 VLA fine-tune 能力和经典控制能力的人。只会一边的人在很多决策时刻会做错判断。
第五,别只看美国的进展。中国具身赛道 2025-2026 的迭代速度是这个领域里最快的之一。看不懂中文 paper 不是借口,最关键的几条线(智元、宇树、银河通用、Galaxea、星动纪元)都有英文 tech report 或者 arXiv 投稿。漏掉这一边等于漏掉接下来五年具身硬件和数据的半边天。
把判断尺再立一次¶
第 1 章那把"端到端 vs 分层"的尺,整本书一直在用。这一章末尾我把它再立一次。
未来五年这把尺会变还是会消失?我赌会更锋利,而不是消失。
理由是:端到端这一线在五年里会拿下更多以前属于分层的领地,第一组里那条 100Hz 推理频率成为标配的预测,会让"接触敏感任务必须分层"这条在 2026 年还成立的判断渐渐失效。但同时第二组那条"长程任务仍然需要分层"也成立,VLA 拿不到 5 分钟连续轨迹的演示数据,这件事跟模型能力无关。所以五年后这把尺不会变松,它会在两端各往里收一收,中间剩下的判断窗口反而更精确:60 秒以内 + 力控敏感 + 失败可重试 = 端到端,3 分钟以上 + 子步骤明确 + 接触人 = 分层,中间的灰色地带会从 2026 年的"看情况"变成 2030 年的"看下面这五条更细的指标"。
这本书里这把尺写得最早,也是我最希望读到这里的人记住的一件事。具身领域最容易出错的判断,不是选错算法,是用错抽象层级。一个 5 分钟任务硬塞给端到端,或者一个 30 秒抓毛巾任务非要拆成三层 LLM-VLA-控制器,都是同一种错。这把尺五年内不会过时,只会变得更细。
收尾¶
序言里我说过摄影那本书写完五年我希望还能用,这本写完两年要是过时了说明这个领域真的在动。
写到这里我反过来再说一句:这本书过时不过时,不是判断这个领域好坏的指标。这本书里那些立场被你不同意、被你修改、被你超过,才是好的指标。
如果你读完合上书,能在你下一个项目的某一个具体决策上,说出"这件事我跟书里第 X 章不一样的看法是什么",并且这个不一样背后有真实的项目数据支撑,那这本书对你的作用就尽到了。
具身这件事在 2026 年还是一个所有判断都在重写的窗口期,到 2030 年大部分会落定下来,到 2031 年开始进入下一波重写。中间这几年,谁能在动手做的同时不停下来想清楚自己在做什么、为什么这么做,谁就在这一波里活得最长。
练习¶
回去重看你 2024 年存的某一段 demo video。任意公司任意机器人,挑一个当时让你觉得震撼的。按这本书前 13 章学到的视角再看一遍:它的剪辑在哪一段藏了多少 take?它的任务时长属于第 1 章那张表的哪一行?它的失败模式属于第 6 章哪一类?现在你能看出多少东西是当年没看出来的?把这些写下来,对照一下当时自己的笔记。
找一段 2026 年最近三个月的具身 demo(任意来源),用本章三组预测里的某一条对它做一次"未来检验":如果第一组那条"长程任务仍然需要分层"在 2030 还成立,那么这个 demo 五年后应该长成什么样、解决了哪些它现在没解决的问题、还有哪些没解决?
把你自己的"五年后预测"写下来。不抄我的。三条不会变 + 三条会变 + 两条不押注。写完封进一个文件,2031 年 5 月 2 日打开看一次。预测对错不重要,你那几年的判断能力变化才重要。
找一位你信任的具身领域的同行,聊一次这一章。不要找跟你想法一致的,找跟你最不一致的那一位。把这章里你最不同意的一条标出来,听对方的反驳。听完之后你的判断有变吗?变了或没变都记下来。这件事比读这一章有用十倍。
感谢你读到这里。在这个所有判断都在重写的窗口期里,希望你做的下一个判断比上一个更准一点。