跳转至

第 13 章 团队与资本

这是技术书里最不像技术的一章。但你要是不看清楚这一章,前面十二章学的所有判断都用不上,因为判断要在一家活着的公司里做才算数。2024-2025 这一波钱进得有多猛,下一波倒得就有多狠。


2024 年初的具身机器人圈子还是一个学术驱动、demo 满天飞、但融资规模跟自动驾驶差一个数量级的小行业。到 2024 年底已经不是。

2024 年 2 月 Figure 关掉 Series B,6.75 亿美元,OpenAI、Microsoft、Bezos、NVIDIA、Intel Capital 在同一份股东名单里。这是这个行业第一次出现"科技巨头集体下注同一家硬件公司"的画面,估值 26 亿美元。半年后 Skild AI 在 2024 年 7 月拿到 3 亿美元 A 轮,SoftBank 领投、Lightspeed 跟,估值跳到 15 亿。再过四个月,2024 年 11 月 Physical Intelligence 在 Bezos、Thrive Capital、OpenAI 联合下完成 4 亿美元 A 轮,估值 24 亿,离他们 π0 论文公开只过了一个月。2025 年 2 月 Apptronik 关掉 3.5 亿美元 A 轮,Google 和 B Capital 领投。2024 年 1 月 1X Technologies 拿了 超过 1 亿美元 B 轮,OpenAI Startup Fund 和 EQT Ventures 在里面。Agility Robotics 2024 年从 Playground 那边拿了 1.5 亿美元

中国一侧没那么张扬但同样不慢。智元机器人(AgiBot)2024 年年内连续融资估值翻到 70 亿人民币以上的级别,背后腾讯、京东、北汽都进来了。宇树 Unitree 在 2024 年从 Meituan、Source Code 等拿了 C 轮,2025 年初估值进了 80 亿人民币区间。银河通用(Galbot)2024 年拿了美团、IDG、商汤的几亿人民币 Pre-A 和 A 轮。Fourier Intelligence、星动纪元(Robot Era)、Mech-Mind、UBTECH 在 2024-2025 各自完成了至少一轮过亿美元级别的融资。UBTECH 2023 年底已经在港股上市,2025 年市值反复在 100-200 亿港币之间晃。

把这些数字加起来,2024 年全球流入"以 LLM 当大脑的具身机器人"这个细分行业的钱大约 35-50 亿美元。这个数字在 2022 年是几亿。三年涨了一个数量级。

体感是这样的:2023 年你跟 VC 说"我做人形机器人",对方第一句话是"硬件投不进啊"。2024 年下半年同一句话,对方第一句话变成"你们家估值现在多少"。2025 年初再问,对方第一句话已经是"你们的 first paying customer 是谁"。一年半时间,VC 圈对这个行业的提问从"敢不敢投"过渡到"赌哪一家"再过渡到"什么时候能验证"。每一次过渡都把一批没准备好的公司筛出去。

钱涨这么快,一定有人会死。这一章讨论谁会死、为什么会死、活下来的会长什么样。


先把烧钱的结构讲清楚。一个 50 人规模、做人形或重型双臂的具身公司,2025 年的年烧大概是 4000-8000 万美元。拆开看:

硬件 BOM。一台双足人形原型机的整机 BOM 在 2025 年大概 5-10 万美元,里面贵的几样是六维力矩传感器(每只手腕一颗,一颗 2-5 千美元)、谐波减速器(每个关节一个,一个 800-2500 美元,14-28 个关节)、高扭矩 BLDC(一个 1-3 千美元)、电池组(5-10 千美元)、灵巧手(一只 2-5 万美元,自研的能压到 1 万)。一年要造 30-100 台原型,光 BOM 就是 200-1000 万美元。这还没算次品、没算 rework、没算压在仓库里的零件。轮式底盘+单臂的形态 BOM 能压到 2-3 万美元,相差三到五倍。

工程师工资。湾区一个 senior ML eng 全包年成本 40-60 万美元,senior robotics eng 30-45 万,senior hardware eng 25-40 万。50 人的公司里一年工资 1500-2500 万美元很正常。北京/深圳同样级别的 senior ML 全包 70-120 万人民币、robotics 50-90 万、hardware 40-70 万,整体便宜 50-60%。

算力。训一个 10B 级别的 VLA 从 OpenVLA 这种公开 checkpoint 起步 fine-tune,端到端跑通一个数据组合大概要 3-8 万 GPU-hour(H100)。从头预训一个 10B VLA + 大规模数据,单次训练 30-100 万 GPU-hour 起步。H100 spot 价 2025 年大概 2-3 美元/小时,on-demand 4-5 美元。光训练,一年的探索性训练加最终训练 500-2000 万美元,是中型公司。Figure、PI、Skild 这种第一梯队应该都在 2000-5000 万美元区间。

数据采集。teleop 单条 30 秒演示的成本大约 5-15 美元(含人工、设备折旧、清洗、标注)。要做到一个垂直任务 10k 条以上才进入"还可以"的区间。一个公司同时跑 5-10 个任务,一年 teleop 数据预算 200-800 万美元。第 8 章已经讲过为什么这笔钱大部分会浪费,这里只说账面。

安规认证。一台准备进商业空间的人形或服务机器人要拿 CE、UL、FCC,至少 3-6 个月、50-150 万美元一轮。每改一次电源或机械结构都可能要重测。家庭场景再加 IEC 60335、ISO 13482,时间和钱都翻倍。

云服务、办公、行政、法务、保险。加起来一年 500-1000 万美元。看起来杂,但整数级别拿不掉。

总账:早期 50 人 4000-6000 万美元/年,扩到 150 人冲产品 1-2 亿美元/年,量产前再加资本开支(产线、模具)至少 5000 万到 1.5 亿美元一次。Figure / PI 现在每烧一年大约一亿美元起,Apptronik 在 7000 万到 1 亿之间,1X 因为在挪威人工便宜一些,5000-7000 万

这就是为什么这些公司每 12-18 个月就要回市场补血。融资节奏不是贪心,是火被点起来之后烧得停不下。


团队比例是这一行最被低估的判断。

如果你画一个理想的 2025 年具身公司组织图,ML eng : robotics eng : hardware eng : ops 大约 1 : 1 : 1 : 0.5。20 个 ML、20 个机器人系统、20 个硬件电子机械、10 个运营测试场地仓库。这个比例下你大概率能把"训出一个策略"和"装到一台真机上跑通"两件事都做掉。

现实是绝大多数 2024-2025 起的具身公司里 ML eng 占到 60-70%,robotics eng 不到 20%,hardware eng 经常只有 5-10 个人。原因很简单:钱从 OpenAI 那种圈子里来,创始团队自己来自 ML 那一侧,招人也只熟悉 ML 圈。结果就是 300 个人的公司里有 10 个人真正会调机械臂。这种比例下 sim 出来的策略到了真机表现差,没人能快速定位是策略问题、是 URDF 不对、还是力矩标定漂了,整个公司在一个 demo 上卡两个月。

反过来,传统机械手起家的公司常见的失衡是 hardware 占 50%、robotics 30%、ML 不到 15%。这种公司 BOM 控得住,机械臂走得稳,但 VLA 训不出来,每次想试新模型都得外包给一家 startup 或者大学实验室。两年下来落后整整一代。

最贵的一种人不是 ML eng 也不是 hardware eng,是真的懂 sim2real 的 systems person。这种人需要同时会调 PyBullet/Isaac,会读 URDF,会算系统辨识,会读策略输出的动作分布并诊断哪里跟真机偏离。2025 年湾区这种人全包要价 60-90 万美元,能出来面试的不到一百个。一家公司有两三个这种人,技术决策的速度直接快一倍。第二贵的一种人是真的搭过整车级别 system integration 的硬件 lead,懂电源管理、热设计、EMI、振动、跌落测试,知道一台机器从原型到量产要踩哪三十个坑。这种人从 Tesla、Rivian、Zoox、Cruise、Apple Car 这些坟场流出来一波,但愿意去具身的不到三成。剩下的去了 eVTOL 或者人形 startup 之外的别的硬件赛道。


招聘里两边互相缺什么,直接说。

从 NLP/CV 转过来的 ML eng 缺三样。一是物理直觉。他们能看出 loss 不收敛,但看不出 reward 曲线收敛了但策略其实在抖。二是 latency 思维。LLM 那边大家习惯 1-2 秒延迟,控制环路不能。三是失败成本概念。NLP 模型出错重试一次没什么,VLA 出错可能砸坏 5 万美元的相机或者一个人的手指。这三样的补课周期大概 6-12 个月,公司里没有 senior robotics 带就补不出来。

传统机械/控制 eng 缺三样。一是数据驱动的世界观。他们会下意识想"先写个状态机",而那个状态机在端到端的世界里是 anti-pattern。二是大规模训练的工程经验,分布式、混合精度、checkpoint 管理这些事到了百卡千卡就完全是另一套学问。三是对预训模型能力边界的判断。他们会高估 VLA 的泛化("它见过这么多数据应该会的")也会低估它的脆弱("小变化应该没事吧")。这三样的补课周期 9-18 个月。

两边都缺的一样东西是产品 sense。具身的产品定义到 2026 年没有任何一家公司说自己 nail 了。最贵的判断不是"哪个模型更好"而是"这台机器到底干嘛、卖给谁、卖多少钱、客户怎么用"。这件事在 demo 阶段所有公司都说自己想清楚了,进客户那一刻几乎所有公司又重写一遍。


算力的具体量级再细一点。

训练侧。从公开的 OpenVLA-7B 或者 π0-style checkpoint 起步 fine-tune,一个垂直任务的策略 5-15 张 H100 跑 1-3 周。从头预训一个 7-10B VLA + 100M 帧级别的数据,1024 张 H100 跑 2-4 周。这是现在的"基础模型公司"梯队的入场费,大约 1500-4000 万美元一次。每年 Figure/PI/Skild 这一档至少做 3-5 次大规模训练。

推理侧。onboard 推理的两条主流路线:一是 Jetson Orin AGX 这种 50-80W 的边缘 SoC 跑 1-3B 蒸馏后的策略,10-30 Hz。二是机器人内部一台小工作站(RTX 4090 / 5090 等级)跑 7B 全参,5-15 Hz。onboard 推理的边际成本几乎是零,电池能撑就能跑。

cloud 推理对应"机器人当 thin client,决策上云"的架构。算账:一台机器人一天工作 8 小时,10 Hz 决策频率,每次推理 7B 模型大概 0.001-0.002 美元(按 H100 推理 spot 价摊),一天 30-60 美元,一年 1.1-2.2 万美元。一台机器人卖客户 5-10 万美元,云推理一年的费用就吃掉售价的 15-25%

这就是为什么所有冲商业部署的公司都在压 onboard。云推理对 demo、对 R&D 阶段、对低频任务(每分钟几次决策)合算,对要落地干活的家用和工业不合算。如果一家公司 2026 年还在跟你说"我们决策都在云上",多半是产品没到客户家。

还有一笔账经常被算漏:带宽和断网兜底。云推理意味着每台机器在客户场地必须有一条稳定的低延迟链路,工业场地往往做不到,家庭场地 WiFi 抖一下机器人就停。要么花钱铺 5G 模组(每台月费 30-50 美元、模组 BOM 加 200 美元),要么 onboard 留一份 fallback 策略,两条都要钱。这件事销售人员演示给客户的时候不会讲,工程团队赶 demo 的时候会假装这件事不存在,部署那天会突然变成第一号事故。


现在讲两个立场,这是这一章硬要打出去的钉子。

立场一:这一波 80% 的具身公司活不到 2028。不是悲观,是结构。

死法主要三类。

BOM 不下来。原型机 5-10 万美元很多人都做得出来,量产 BOM 压到 2-3 万美元同时还要保留绝大多数能力的,到 2026 年我数下来不到 8 家。压不下来的死在第一批量产订单上。买家在合同里写了单价,公司每出一台亏 3 万美元,第一批 200 台亏掉 600 万美元的现金流。下一轮融资来不及,就完了。

99% 问题踢不动。第 9 章讲过,从 95% 任务成功率到 99.9% 是另一个工程量级。绝大多数公司在 demo 阶段做到 90-95% 之后融到一大笔钱,进入"我们要拿下第一个客户"的阶段,然后发现剩下那 5% 烧掉公司一半的工程力。客户不接受 95%,要么继续踢要么换技术路线,前者烧光跑道,后者重头来失去时间。两条都死。

找不到第一个真客户。这是最被忽略的一种死法。VC 把估值堆到 20 亿美元的故事写得很大(家庭、工厂、医院),但具体哪一类客户、单价多少、SLA 怎么签、退货政策怎么写,绝大多数公司写不下来。客户开发是一件需要 5-15 个真懂垂直行业的 BD 慢慢做的事,跟堆 ML 团队完全不同的肌肉。等他们意识到这件事的时候账上现金已经只够再撑 9 个月,BD 招不到位。

这三类死法加起来,2026 年活跃的 60-80 家具身大模型公司里,2028 年还能继续融资或者已经现金流自给的不会超过 15 家。这是历史规律,自动驾驶 2017-2020 那一波是这个数。

立场二:钱多不等于赢面大

举两个具体的例子。

Figure 钱多,但产品定义还在变。从最早的 BMW 工厂到家庭场景到 Helix 模型自研,一年内主线变了两次。变不是错,但变本身很贵,每次变全公司停下来对齐、招的人有一半专业不对口、之前烧的算力和数据有一半作废。Figure 的好处是钱够再变两次,但每变一次离 IPO 都远一年。

Physical Intelligence 钱不算最多(4 亿 vs Figure 的 6.75 亿),但技术线最清楚。从 π0 到 π0-FAST 到后续的版本,一根线讲 flow matching + 大规模 diverse data,没怎么动过。团队里 Sergey Levine、Chelsea Finn、Karol Hausman 这种人是过去十年这一线最具体的几个名字。这种公司就算融资落后一拍,靠着技术线条清楚也能熬过寒冬。

钱是燃料,不是发动机。判断一家具身公司的赢面不看银行账户多少,看产品定义稳不稳、技术线条清不清楚、创始团队能不能在 demo 跟工程之间做权衡。这三件事钱都买不到。


中美对比,按维度走。

硬件 BOM。中国便宜 30-50%。同样的关节扭矩等级,宇树/智元/星动这一档的整机 BOM 比 Figure/Apptronik 同等级低 1/3 到 1/2。原因不神秘:长三角珠三角的电机、减速器、电池、PCB、机械加工链子完整且竞争充分,相同零件采购价中国是美国的 50-70%。这是结构性优势,不会反转。

工程师 talent pool。美国深,主要是 ML/VLA 这一侧。湾区+西雅图+纽约+多伦多有 1000-2000 个能在 VLA/RL/Diffusion Policy 这条线上独立产出的 senior,中国同等级别 300-500 个。机器人控制和机械工程两边差不多。整体 ML talent depth 美国 3-5x。

监管/部署速度。中国快。深圳/上海/北京在公园、商圈、政企 demo 部署的审批比美国快一年到一年半。家庭场景双方都还没真正放开,工业场景中国快半年。

资本结构。美国 VC 退出预期更长,5-7 年正常,10 年也接受。中国 VC 退出预期 4-6 年,并且 IPO 是默认退出路径而不是 M&A。这影响公司的产品决策:美国公司会愿意烧三年通用基础模型,中国公司会更早被推去做能开票的垂直产品。

结论是:美国出基础模型,中国出量产铁皮。这个分工 2026-2028 年大概率不会变。两边能做出量产、卖给客户、拿到回款的公司主要在中国;两边能写出对整个行业有影响的论文、训出对全行业可用的 checkpoint 的公司主要在美国。一线工程师选工作时这个分工对你的薪酬结构、股票价值、日常工作内容影响极大。

举个具体的例子。湾区一个 senior ML eng 进 Figure 或者 PI,年现金 30-40 万美元加股票按当下估值大概纸面 50-100 万美元一年,但你日常做的事情接近 90% 是模型和数据,看到真机的频率每周一两次。深圳一个同等级的 ML eng 进宇树或智元,年现金 60-90 万人民币加股票纸面价值低一档,但你每天看真机、跟硬件团队抢工位、产品节奏紧、出货是真的。两条路职业回报的差别不在工资在你五年后简历上写得出什么。在美国五年你写"训过大规模 VLA、跑过几十个 ablation"。在中国五年你写"从原型到量产带过两代产品、卖出去了 X 千台"。哪条对你更值钱看你下一步想去哪。


最后是给一线工程师的择业判断。三个先后顺序。

先看现金流。一家 2025 年还没拿到客户付费、纯靠融资活的公司,跑道(runway)是它最重要的数字。问 HR 三个问题:账上现金多少、月烧多少、下一轮融资进展。HR 不告诉你的,从同事那边、从这家公司投资人朋友那边、从招聘节奏(突然停止招人就是信号)那边问出来。跑道少于 12 个月的公司不要进,少于 9 个月并且没有签字 term sheet 的,进去就是高风险。

再看产品定义。问 founder 一个问题:"你们第一台产品计划卖给谁、单价多少、客户买回去具体干什么、半年内会有多少台铺出去?"答得出来的,哪怕数字将来被推翻,至少这家公司在认真想这件事。答不出来的,或者答的是"我们要做一个 platform,应用层让客户和合作伙伴去想",这家公司大概率在 2027 年之前不会有真客户

再看技术老板背景。具身大模型这一行的 CTO 必须同时懂三件事:大规模 ML 训练、机器人系统集成、硬件产品节奏。三样齐全的人全球不到 50 个。如果 CTO 只懂 ML 那一块,公司大概率会在 sim2real 那一关卡很久。如果 CTO 只懂机器人控制,公司大概率会在 VLA 这一代浪潮里跟不上。如果 CTO 只懂硬件,公司大概率会做出一台漂亮的铁皮但没有大脑。

这三个先后顺序里有一条隐含的。不看估值。估值在这个阶段是融资能力的反向函数,跟公司质量没关系,跟你将来股票值多少钱也没关系。一家 30 亿美元估值的公司股票价值可能比一家 5 亿美元估值的公司低,因为前者的优先股清算条款(liquidation preference、participation、ratchet)会把员工普通股压到接近零。一家公司每一轮如果都是 1x non-participating preferred 还好,如果出现过 2x participating 或 broad-based ratchet,员工股稀释和清算保护双重叠加之后退出时拿到手的现金可能只有纸面价值的 5-10%。看 cap table 比看估值有用,让你的律师朋友帮你看一眼 term sheet 历史,比读三篇 TechCrunch 报道有用十倍


写到这里把上一章和下一章之间的桥搭一下。第 12 章讲了"2026 年这个具体节点"的技术现状。这一章讲了同一个节点的资本现状。下一章讲五年后哪几样东西不会变。这三章合起来是一个判断尺:技术、资本、时间。少一个轴判断都站不住。


练习

找一家你最关心的具身公司(自家、对手、想加入的目标都行),把它过去三年所有公开融资额加起来,按本章给的烧钱结构估算它当前 runway。结果跟你直觉里这家公司"还有多久"差多少?差超过半年就值得继续问下去。

画一张你公司或者你目标公司的团队比例(ML / robotics / hardware / ops),跟本章给的"理想 1:1:1:0.5"对照。哪一边偏厚?这个偏厚是创始团队背景导致的还是产品阶段导致的?什么样的招聘信号会让你判断这家公司开始修正这个比例?

挑一家美国具身公司和一家中国具身公司,按"BOM 优势 / talent 深度 / 监管速度 / 资本结构 / 产品定义清晰度 / 技术线条稳定度"六项各打 1-5 分。哪一家总分高?如果你是这家公司里的工程师,这个总分意味着你应该多熬一轮还是早走?

给自己写一个面试问题清单:你下一次面试一家具身公司,要在面试 founder 的环节问哪三个问题,能在 30 分钟内判断这家公司值不值得加入?写完之后跟本章"先看现金流、再看产品定义、再看技术老板背景"的顺序对照。

下一章:第 14 章 五年后