跳转至

第 11 章 硬件

这一章不友好地说一件事:双足人形是一种昂贵的固执。它在融资 deck 里跑赢,在仓库里输给一个轮式底盘加一只胳膊十倍。这一章把这件事的账算清楚。


先摆数字。

2026 年初,一台 Tesla Optimus Gen 2 整机 BOM 工业估价大约 5 万到 8 万美元;Figure 02 同量级;1X NEO 家庭版报价 2 万美元(补贴价);Unitree G1 教育版 1.6 万美元起;H1 9 万美元起。这些都是双足人形。

同时期一台主流仓储 AMR(autonomous mobile robot,自主移动机器人)(Locus、Geek+、Fetch 那一档)整机 1.5 万到 4 万美元,里面带一只 6-7 DoF(degrees of freedom,自由度,独立可动的轴数)的 collaborative arm(UR5e、Franka Research 3 那一档)再加 2 万到 5 万美元。总共 4 万到 9 万美元就能拿到一台轮式 + 单臂的工业平台。表面看价格类似,但MTBF 差一个数量级:Locus 的轮式平台报修间隔几千小时,UR 的胳膊出厂保 35000 小时;同期 Optimus / Figure / G1 在公开报道里的连续工作时间还在几十小时这个量级,跌一次倒地修一次。

速度方面也不站在双足这一边。仓储 AMR 巡航速度 1.5-2 m/s,载重 50-200 kg;Optimus Gen 2 最高步速 0.6 m/s,载重 20 kg;G1 步速 1.2 m/s,载重 5 kg;Digit(Agility Robotics)2.0 m/s,载重 16 kg。双足在做"人能做的事",但做得更慢、更贵、更易坏

再加一笔:售后。一台 UR5e 在中国和北美的服务网络都铺到了二线城市,下单备件次日达,培训过的现场工程师一抓一把。一台 Optimus 或 Figure 02 出厂半年内,绝大多数客户的"维护"还是把它装箱寄回原厂。这不是工艺问题,是规模问题。规模上不去,售后网络起不来;售后网络起不来,企业客户不敢签长期合同;不敢签合同,规模又上不去。这个循环 2026 年才刚开始有人能突破,且只在专门设计过的场景里。

这是这一章一切讨论的起点。


自由度的代价是超线性的。

Optimus Gen 2 大概 28 DoF,Figure 02 30 出头,1X NEO 跟 G1 23 个,H1 19 个。每多一个 DoF,要多加一组电机、减速器(把电机高转速换成低转速大扭矩)、编码器、电流环 driver、布线、热管理、动力学辨识、安全限位。

成本不是线性涨。一个机械臂的成本里,电机加减速器占 60-70%,每加一个 DoF 大概多 1500-3000 美元(看精度和扭矩)。但控制难度是组合爆炸:n 自由度的雅可比、奇异点、自碰撞检测、whole-body 控制全是 O(n²)-O(n³);teleop 数据收集时人手能直觉控好的 DoF 大概 10-12 个,过了这个数操作员开始顾此失彼,演示数据质量崩。

能耗也跟着涨。把一台 28 DoF 双足跑起来稳态功耗 500-1000W;同样负载的 7 DoF 单臂稳态 100-200W。剩下 700W 大部分花在让它别倒,这部分功率不产生任何客户能感知的价值。

所以"为什么不直接做 50 DoF 的超级人形"这个问题不是因为没钱。是因为每加一个 DoF,你 demo 视频里成功率掉一个 epsilon,BOM 涨一个 step,发热涨一个 step,控制难度涨一个 step。28 DoF 这个数附近是当前工艺曲线的局部最优。


关节驱动器是这一章最技术的一节,但也是最重要的。一个机器人的脾气主要就是它关节驱动器的脾气。

主流方案有这么几种。

BLDC(brushless DC,无刷直流电机)+ 谐波减速器(harmonic drive,靠柔轮形变实现高减速比)。BLDC 电机 + Harmonic Drive LLC 那种 wave generator + flexspline 的减速结构。优点是减速比能做到 50-100,背隙近乎零,扭矩密度(单位重量能给的扭矩)极高。缺点是贵(一颗 100Nm 级谐波减速器 1500-3000 美元),效率 70-85%,不可反向驱动(backdrivability 差,意味着关节卡了之后人推不动,安全性差),冲击容忍度低。Universal Robots 全系、ABB YuMi、Franka 的早期型号都是这条路。Optimus 部分关节也是。

摆线减速器(cycloidal)。Nabtesco 在工业领域几十年的标配。比谐波便宜一点,扭矩冲击容忍度好得多,体积稍大,背隙比谐波大。重型工业臂(FANUC、KUKA)大量用。

行星减速器(planetary)。最便宜(一颗几百美元),效率 90%+,但减速比有限(单级 3-10,多级才能到 50),背隙大,精度低。家用、教育、协作场景大量用。Stretch 3、AgileX 那一类底层都是这个。

SEA(series elastic actuator)。在电机和负载之间故意串一个弹簧,用弹簧形变测扭矩。优点是天然抗冲击、有力控、对操作人员安全。缺点是带宽低(弹簧把高频抖动滤了,但也滤掉了快响应)、精确轨迹跟踪差。Agility Digit 早期款式、Boston Dynamics 部分关节用过。

QDD(quasi-direct drive)。低减速比(6-10)的高极对数 BLDC,靠电机本身的扭矩密度而不是减速器。MIT Cheetah 那一线开了头,Unitree A1/G1、宇树自家 M107 那种伺服模块、4090Pro 这一档都是。优点是 backdrivability 极好(人能推得动腿)、动态响应快、便宜;缺点是低速大扭矩工况发热严重,不适合精细装配。

对应到形态:四足机器人几乎全是 QDD(要快速摆腿、要 backdriveable 防摔伤)。工业臂几乎全是谐波或摆线(要重复定位 0.1mm)。双足人形里腿用 QDD(高动态)、上肢用谐波或行星(精细)混着来。Optimus、Figure、Digit 都是这种 hybrid。

记一句话:buy backdrivability with torque density, buy precision with backdrivability。三个都要,钱按指数涨。

国内供应链这一年也开始有名字。绿的谐波(Leader Drive)2024 年起在国产人形里大量用,价格大概是 Harmonic Drive LLC 进口件的 40-60%,精度差半档但够用;同川科技、灵动科技、本末科技各家在做 QDD 模组,单价 800-2000 美元,几年前这一档只有进口的 ODrive / TMotor 选项。这件事的意义比看起来大:减速器和伺服模块是机器人成本的大头,国产化一上来直接把双足人形的 BOM 压低 20-30%。Unitree G1 能卖到 1.6 万美元起,背后就是这条供应链。这也意味着 2026-27 年大量"做不出货的人形公司"会用同一批关节模组,最终在外形上分化、在性能上同质化。


灵巧手是这两年最被夸大的一类硬件。

主流型号:PSYONIC Ability Hand(医疗假肢出身,1 万美元一只,6 motor,欠驱动);Inspire Robotics RH56(12 motor,2-3 万美元,研究用);Allegro Hand(4 指 16 DoF,1.5 万美元,老牌研究平台,2008 年那一代设计);Shadow Hand(24 DoF,10 万美元一只,肌腱驱动,研究圣杯);Schunk SVH(5 指 9 motor,5 万美元)。

为什么工业上没普及?四个理由。

。一只研究级灵巧手的钱够买 5 只 Robotiq 2F-85 平行夹爪。客户如果只需要抓一种盒子,他不会要五指的。

易坏。手指尖、关节、肌腱是机器人最暴露的部位,碰撞概率最高。一只 Shadow Hand 出厂保的连续运行时间 500-1000 小时,远低于本体;Allegro 的指尖保护被换过太多版还是抱怨高。

操控难。20+ DoF 用 teleop 收数据一只手控不过来,要么用动捕手套(Manus、Rokoko,每只 4-8 千美元,延迟 30-50ms),要么用视觉重定向(Anyteleop、DexCap 那条线,2024 年才开始能用)。数据质量普遍比夹爪差一个量级。

不防水。指尖电子和肌腱在油、水、灰尘环境里寿命快速下降。工厂车间这是基本要求。

所以 2026 年现状是:研究界用灵巧手,工业界用夹爪。Robotiq、SCHUNK 平行夹爪在仓库和工厂里仍是绝对主流。家庭机器人那边在赌灵巧手(因为家务真的需要 5 指),但这个赌还没结算。1X NEO 用一种 3 指 + 拇指的简化方案,Figure 02 上了 16 DoF 完整五指,Optimus 上了 11 DoF。哪种活下来取决于成本曲线,不取决于 demo 视频好不好看。

补一句行业里大家心知肚明、写在 spec 上不会承认的话:几乎所有"折毛巾、煎蛋、倒咖啡"的家用 demo,背后那只手都换过指尖。指尖每跑几百次循环就要换一片,材料是定制硅胶,单片 50-200 美元。这件事在产品化之后是要算进 OPEX 的,不是 BOM 一次性问题。这一项现在还没有任何一家公司公开过它的实际换件曲线。


触觉传感是真东西,但被低估的程度也很高。

几条线在跑。

视觉触觉:DIGIT(FAIR/Meta,350 美元一颗,开源)、Digit360(Meta 2024 年新一代,多模态,振动 + 力矩 + 接触位置)、GelSight(MIT 那一线,多家商业化)。原理都是把一块凝胶贴在 camera 前面,凝胶变形被 camera 拍下来,用 NN 反演成接触力分布。优点是空间分辨率极高(亚毫米),能看到表面纹理;缺点是 camera 有最小焦距限制,整个 sensor 厚度难压到 5mm 以下,指尖尤其难塞。

磁传感触觉:ReSkin(CMU,Tess Hellebrekers 主导,2021)、AnySkin(NYU,2024)。原理是磁化的弹性表皮加底下的磁传感器阵列。优点是薄、便宜、可换皮(皮坏了一片几十美元换掉,camera 方案换一颗几百)。缺点是空间分辨率比视觉触觉低一个量级。AnySkin 这个工作 2024 下半年在具身圈火了一阵,因为它解决了"机器人皮肤老化校准漂移"这个旧问题。

关节力矩 / 腕力传感:ATI 的六维力矩传感器(Mini40、Gamma 那一档,5-8 千美元一只,工业金标准);Robotiq FT300(同类便宜,2-3 千美元,精度差一档);现在很多协作臂直接在每个关节装电流环估力矩,不再外挂 F/T sensor。

点名一个判断触觉数据现在的瓶颈不是 sensor 不够好,是 VLA 模型还没学会用它。π0、OpenVLA 这类 SOTA 主要还是 RGB + 本体感觉两路;触觉这一路加进去训练效果在 2025 年的几篇 paper 里有,但提升幅度从 5% 到 15% 不等,离"必须有"还远。这是 2027-28 年最可能突破的一项。

更具体的说,问题在标注和对齐。RGB 帧之间用 optical flow 容易找对应;触觉信号在不同 sensor 之间分布完全不同,DIGIT 和 GelSight 出来的 image 看着像但内部物理量映射不一致;ReSkin 和 AnySkin 又是磁场而不是 image。没有一个被广泛接受的"触觉 ImageNet"。这是为什么哪怕 sensor 已经便宜到能装在每根手指上,VLA 还是没真正吃透。等到有人发布一个跨 sensor 的统一表征 + 一百万小时配套数据集,触觉这条线才会真起飞


电池这一节短,但是落地里最容易被忽视的瓶颈之一。

LFP(磷酸铁锂):能量密度 90-160 Wh/kg,循环寿命 3000+,安全性高,便宜,重。仓储 AMR 几乎全用 LFP。

NMC(三元锂):能量密度 200-260 Wh/kg,循环 1000-2000,热失控风险高,贵。手机笔记本用这个,人形机器人为了减重也大量用。

固态电池:实验室能到 400 Wh/kg,2026 年初真正量产的还基本没有。Toyota、QuantumScape、SES 都在喊 2027-2028 年量产,跟 5 年前喊的话一样。写产品 spec 时不要假设固态会按时来

当前续航现状:

  • 家用人形(NEO、Optimus、Figure 02 居家版)连续工作 1-2 小时,充电 1-2 小时;
  • 仓库人形(Digit、Apollo)2-4 小时,配 hot-swap 电池(Agility Digit 的设计);
  • 仓储 AMR 8-10 小时一充,因为底盘装得下大电池组;
  • 协作机械臂全部市电,没有 unplug 的选项

电池决定了机器人能不能"在客户那边过夜不充"。这是工业部署一道隐形门槛。如果你的产品对客户的承诺是"放那儿不管",2026 年这件事在双足人形上做不到

还有一个被忽视的细节是充电桩。AMR 仓库铺充电桩是几十年的成熟工艺,对接位置容差几厘米、自动开闭、安全互锁全是标准件。双足人形要么自己走过去插一根充电线(这件事 demo 视频里没人公开做稳过),要么走到一个 docking 站趴下接触式充电(Apptronik、Agility 都有原型)。这一节工程量比看起来大很多:一个机器人花十分钟才能插上电的产品,没法在 24/7 场景里部署。


移动底盘这一节是这一章的高潮。

把仓库这个具体场景拎出来。一台机器人在仓库里要做的事:从 A 货架走到 B 货架,从地面或低层架取一个标准 SKU 箱,放到自己身上的载具里,再走到下一个点。99% 的工作时间花在走动取放

走动这一步,几种底盘的对比:

底盘 速度 载重 单台成本 平均故障间隔
差速轮(diff drive) 1.5-2 m/s 100-1500 kg $8k-25k 10000+ h
麦克纳姆轮(mecanum) 1.0-1.5 m/s 50-500 kg $15k-40k 5000-8000 h
阿克曼(汽车式) 2-4 m/s 100-2000 kg $20k+ 10000+ h(户外)
平衡车(self-balancing) 1.5-2 m/s 30-100 kg $10k-20k 3000-5000 h
履带 1.0-1.5 m/s 200-2000 kg $25k-50k 5000-8000 h
四足 1.5-3 m/s 5-30 kg $15k-100k 1000-3000 h
双足 0.5-2 m/s 5-25 kg $30k-100k+ 50-500 h

双足最后那一行是当前现实。这不是说双足不会进步,是说 2026 年部署一台双足意味着每两周就要修一次。仓库经理看到这个数会立刻把你赶出门。

更要命的是安全成本。一台 1500kg 载重的轮式 AMR 把碰撞动能控制在 100J 以下不难,加几个防撞条加 LIDAR 感知就够。一台 70kg 的双足跌下来对周围工人是直接的人身风险,光保险费率就贵一档。亚马逊 2025 年内部那份评估文件(被多家媒体引述)的结论是:轮式 AMR + 单臂的总拥有成本比 humanoid 低 70-80%,且短期没看到这个 gap 缩小的迹象

把这件事再具体一点。仓库里一台轮式 AMR 出问题的最坏情况,是它停在过道里挡路,叫人推一下重启就完事;一台双足出问题的最坏情况,是它倒在过道里压坏一箱货、压伤一个人、起火、连带触发整个区域停工。这两种"最坏情况"的损失差三个数量级,对应的保险费率、合规审查、客户接受度也差三个数量级。这是为什么很多双足人形公司的真实部署合同上写的是 "supervised operation",意思是必须有人在边上看着。这种部署形态的单位经济性,在客户眼里跟"再雇一个工人"没差别,溢价付不出来。

那为什么大家还在做人形?因为:

  1. 很多场景不是"现成仓库",是已经为人设计好的环境(家庭、写字楼、医院走廊、有楼梯的车间)。这种环境改造成本比换形态高。
  2. 人形是一个有高度图像识别度的形态,融资和媒体效率极高。一个轮式 AMR 加一只胳膊募 1 亿美元很难,一台双足人形募 10 亿美元相对容易。
  3. 通用泛化的赌局:如果将来一套 VLA 真的能学会"像人一样动",人形是天然承接者。但这是赌十年后的拐点,不是赌今天的客户

第 1 条是真的,是人形长期可能有戏的根基。第 2 条是这一行的脏话,但它在 2024-2026 年这个窗口里实质塑造了产品路线。第 3 条是赌注,赌中了赢 100 倍,赌错了一台都卖不出去。绝大多数公司私下知道自己在赌第 3 条,对外讲的是第 1 条。


立场一:人形是为了说服 VC 的形态,不是为了说服客户的形态。

仓储/工厂里真正赚钱的还是 AGV/AMR + 单臂那一套。Symbotic、Locus Robotics、Geek+、AutoStore 这类公司 2025 年合计在仓储市场出货数十万台,营收数十亿美元,毛利可观。同期所有双足人形公司加起来商用部署数量低于 1 万台,营收主要靠融资和试点合同,不是经营性现金流。这个数据在 2026 年还没翻过来

不是说双足永远没机会。是说今天卖给客户的双足,被买的主要原因往往不是它做得最好,而是客户也想拍 demo 视频


立场二:家庭服务机器人的形态战远没结束,轮式人形(半人形)可能比双足人形更快落地。

轮式人形指:腰以下是轮式底盘,腰以上是双臂双手的人形上半身。Apptronik Apollo(早期款)、Agility Digit(实质上是双足,但很多商业部署版改成轮式底座)、Hello Robot Stretch 3(更极端,单臂 + 升降柱 + 轮式底座)都是这一类。优势:

  • 室内地面 95% 是平的,轮式够用;
  • 上半身仍是双臂双手,能用为人设计的工具;
  • BOM 比双足省 30-50%,能耗省一半;
  • 跌倒概率近零;
  • 续航翻倍。

唯一做不了的事是上下楼梯。但绝大多数家务、办公室、医院日常都不需要上下楼梯。等到 2030 年家庭部署数据回来,轮式半人形跟双足全人形的对比会很有意思。我赌前者活下来的款数更多。

附一笔反方观点:1X 的 Bernt Børnich 在 2025 年几次访谈里说,"双足是为了能进任何为人设计的空间,不是为了好看"。这话部分对,部分是 narrative。判断它对不对的方法很简单:去问任何一个家庭客户,他家有几级楼梯、机器人主要活动区域是不是平的。在欧美 single-storey 公寓和大多数中国楼房里,主要活动空间确实是平的。真正非有双足不可的家庭,比例可能远低于人形公司预设的那个数字


计算这一节短,但有几个数要记。

onboard 算力主流方案:

  • Jetson Orin AGX(275 TOPS,60W):当前家用/服务机器人主力。NEO、Stretch、Digit 部分款式都是。
  • Jetson Thor(2024 年发布,2070 TFLOPS FP4,130W):2025 下半年开始铺货,是 humanoid 那一档的目标平台。
  • 自研芯片:Tesla 的 D1 衍生、Figure 自研 chip、华为升腾系列。这条路只有出货量过几万台才划算。

云端 offload 是不是必要? 取决于你最高频的 query 是什么。

  • 如果是 VLA 推理(每秒 10-50 Hz 控制频率),绝对不能 offload。来回延迟把控制频率打到 2-5 Hz 以下,物理上跑不动。
  • 如果是 LLM planner(每 10-30 秒一次拆任务),可以 offload。家庭网络往返 100-300ms,规划完延迟 1-2 秒,可接受。
  • 如果是地图、长时记忆、跨机器人协作,必须 offload。

带宽预算:4 路 1080p RGB 30fps + IMU + 触觉,原始数据 200-400 Mbps。家庭 WiFi 实际可用上行 30-50 Mbps,不能传原始流。所以 onboard 必须做 perception 编码(ViT 跑出 feature 而不是图像),云端只看 feature。这套架构是 2025 年下半年开始几家公司在收敛的方案,包括 1X 那条线。

记一句onboard 跑控制,云端跑长记忆,中间用 feature 而不是图像传。这是 2026 年家用具身的默认网络拓扑。

热设计是这一节最容易被遗漏的。Jetson Thor 标称 130W,实际持续负载下机箱内温度很容易 70°C 以上,机器人胸腔空间小、风道短,被动散热基本不够,必须主动风扇加导热铜板。这件事影响产品声学:客户对家庭机器人风扇噪声的容忍度大概是 35dB(白天)/25dB(夜间),相当于一台轻负载笔记本。一颗 Thor 全速跑的散热噪声远超这个数。所以计算选型不是只看 TFLOPS,是看 TFLOPS / 噪声 / 体积 / 续航 这一组里你愿意妥协哪一个


练习

找一台你最熟悉的双足人形(Optimus Gen 2、Figure 02、NEO、G1、Digit 任选一台),按这一章给的成本结构估它的 BOM。骨架 + 关节驱动器 + 灵巧手 + 计算 + 电池 + 传感器各占多少?跟厂家公开报价对得上吗?对不上的部分是因为厂家在贴补、还是你估错了?

重读一次亚马逊 2024-25 年关于仓储自动化的官方说明(press release 或 shareholder letter 里那几段),数一下里面"humanoid"出现几次,"AMR / robot arm"出现几次。亚马逊在自己的部署语料里如何描述形态?

给自己写一份选型表:你正在做的那个机器人,能不能把双足换成轮式?换了之后哪些任务做不成?这些做不成的任务是产品的必须还是好看?把每条任务标 must 还是 nice。

重新看一遍 Boston Dynamics Atlas 那段后空翻 demo(任意一年的版本)。它对你做的产品意味着什么?如果你的回答是"这意味着双足以后能干家务",停下来重新问一遍:从能后空翻到能稳定 8 小时折毛巾,缺的那段路是控制上的、是数据上的、还是硬件可靠性上的?

下一章:第 12 章 部署