第 8 章 数据¶
这两年具身领域最贵的不是 GPU,是数据。一个 100 人量级的 teleop 工作室,一年能烧掉一千万美元,最后训出来的 VLA 学会了所有人类操作员的犹豫、肌肉抖动、和对某一类物体莫名其妙的偏好。这一章讲为什么会这样、五种数据来源各自的代价、和该怎么把它们混着用。
2025 年中湾区做家庭机器人的初创公司里有这么一种典型场地:第一样让人看的东西不是机械臂,是一个 800 平米的仓库,里面整整齐齐排着 60 个 ALOHA 工位,每个工位上一个工程师戴着 VR 头盔操作。墙上的电子屏写着当天的目标条数和当前进度,像电商客服中心。
公开能算出来的账是:一年要在这上面花 1200 万美元,光人力。这还不算硬件折旧、数据存储、和训练成本。
三个月后这一版 VLA 出来。模型在演示集上的成功率漂亮得不像话。但放到一个真实的、稍微乱一点的厨房里抓杯子,模型在伸手之前停了 0.4 秒,然后又停了 0.3 秒,像在犹豫。这个犹豫是它的 60 个操作员里有一半人在不熟悉的物体面前都会犹豫的那种犹豫,被模型一字不漏地学了进去。
模型还学到了另一件事:当杯子的把手朝向不顺手的时候,操作员的手腕会做一个特定的、有点扭曲的旋转动作。这个动作在一个跟操作员关节结构不一样的机器人手腕上做出来,看起来像帕金森。
这是 teleop 数据的第一个真相:它不是物理世界的客观采样,是一群特定的人在特定一段时间里、用一个特定的接口操作出来的轨迹。VLA 学不到"怎么做这个任务",VLA 学到的是"那群人是怎么做这个任务的"。
先把数据来源摊开。这两年具身能用的数据来源大致五类:
Teleop(teleoperation,遥操作:人远程实时驱动机器人)。人戴 VR 或者用 leader-follower 装置(一只小臂当摇杆,操作员手握它,远端的真臂跟随)远程操作机器人,记录每一步的动作和图像。优点是动作标签干净、跟硬件完全对齐、能拿到接触时刻的精确扭矩。缺点是慢、贵、有人的偏见,而且演示者本人也不会做的任务,teleop 给不出来。
Play 数据。Lerrel Pinto 那一派推得最凶。机器人或者人在环境里没有明确目标地玩,记录所有交互。便宜得多,但标签弱,得靠后期 hindsight relabeling 把它转成可训练的形式。
视频示范。第一人称视角的人手操作视频,没有动作标签但有清晰的视觉轨迹。UMI 那一类手持夹爪是这一路的工程化版本。
Internet 视频。YouTube、TikTok、Ego4D。海量但视角混乱、没动作标签、人手和机器人手 morphology 不一样。
合成数据。仿真器渲染,或者用 LLM 生成任务再用 sim 跑。便宜到几乎免费,但 sim2real gap 是另外一整章的事(见第 7 章)。
每一类数据的代价不在采集环节,在它到底能让模型学到什么这件事上。下面分开讲。
Teleop 的硬件这两年基本是六条线在打。
ALOHA。Stanford Tony Zhao 和 Chelsea Finn 2023 年放出来的双臂 leader-follower 装置。两个小机械臂当 leader,操作员手握 leader 的末端,两个真臂当 follower 跟随。便宜(5000 美元一套)、容易复现、双臂同步好。整个学术界这两年的 teleop 数据有一半是 ALOHA 路数收的。Mobile ALOHA 把它放上了一个轮式底盘,多了行走能力。Bunny ALOHA 是腾讯出的小型化版本。ALOHA 最大的问题是 leader 臂和真臂自由度必须匹配,所以你换一个机器人这套数据基本就废了。
UMI(Universal Manipulation Interface)。Cheng Chi 在 Stanford 做的手持夹爪,前端一个鱼眼摄像头加一个被动夹爪,操作员直接在真实环境里用手做演示。完全脱离机器人。优点是一个工程师一天能在自己家里收 200 条演示,便宜到不可思议。缺点是没有力反馈、没有关节信息、得靠视觉重投影把它对齐到机器人坐标系上。UMI on Legs 是 2024 年底它扩到四足平台的版本,证明这套接口可以跨形态用。
Gello。Berkeley 的 Philipp Wu 等人做的低成本 leader 臂,一个 3D 打印的关节复制品,关节里塞编码器。比 ALOHA 还便宜,照着图纸自己做一套不到 300 美元。但精度比 ALOHA 低一档。
Apple Vision Pro 这条线。Open-TeleVision 是 UCSD 和 MIT 那边的工作,用 Vision Pro 的手势追踪和立体显示直接驱动远端的双臂机器人。沉浸感极好,操作员适应速度快,但 Vision Pro 是闭源生态,做工业部署不靠谱。Optimus 自己有一套类似的内部装置,没公开过。
XELA / Touch 那一路触觉。这个不是 teleop 装置而是它的传感器层。GelSight、DIGIT 这种视触觉传感器最近开始进入 teleop pipeline,让 VLA 第一次能学到"握的力大小"这个维度。但触觉数据规模还很小,远没到能训出泛化策略的量级。触觉这件事 2026 年还在等一个 ImageNet 时刻:等到有一个公开的、大规模的、多任务的视触觉数据集出来,触觉 VLA 才会真的起飞。在那之前,每家做触觉的公司都在重复造同一类数据。
这五条线在 2026 年都在跑。学术界主力还是 ALOHA 和 UMI,工业界自己造轮子的多。选 teleop 装置时第一个该问的问题不是"哪个最先进",是"这套装置收回来的数据将来能不能跨硬件用"。你今天用 ALOHA 收的两万条数据,三年后换了一台不同自由度的机器人就只能扔。这不是危言耸听,是过去两年湾区好几家公司真踩过的坑。
公开的大数据集这两年真正有规模的就那么几个。
Open X-Embodiment / RT-X(Google + 60 多家机构 2023-2024)。22 种机器人形态、160 万条 trajectory、527 种技能。是迄今最大的多机构 cross-embodiment 数据集。但它是数据的集合,不是数据集。每家机构的数据格式、相机内参、动作空间、采样频率都不一样,得做大量 normalize 才能统一训。RT-X 本身的 paper 演示了这件事可以做,但谁拿来做产品都得自己再清洗一遍。
DROID(Stanford 2024,Sasha Khazatsky 等)。76000 条演示、564 个场景、52 个建筑、13 家机构合作。统一了硬件(Franka FR3)和接口(Oculus Quest 2 teleop)。这是目前单一硬件平台规模最大的公开数据集,数据干净度比 RT-X 高一档。
RH20T(清华 Hao-Shu Fang)。147 种任务、超过 11 万条人机协同的 trajectory,强调多模态:视觉 + 力 + 音频 + 语言指令同时收。这一套对触觉敏感的任务(比如插拔接口、拧瓶盖)更友好。
AgiBot World(智元 2024 末)。100 万条以上演示,号称是当前规模最大的开源具身数据集。基于智元自家的人形机器人采的,所以它的价值取决于你下游用的硬件离智元有多近。离得远的话,这一百万条对你的用处比你想象的小。
BridgeData V2(Berkeley 2023)。60096 条 trajectory,24 个环境,专注于厨房和家居场景。是早期被各家用得最多的"练手"数据集。规模上现在已经被 DROID 超过,但场景多样性依然是一个长项。
挑数据集时要看的几个数:单一硬件还是混合硬件、场景多样性、任务标注的颗粒度、是否带语言指令、采样频率。这五个里前两个最关键。一个 50 万条单一硬件的同质数据集,对你训泛化模型的价值远不如 5 万条多硬件多场景的异构数据集。
cross-embodiment 是这两年最被乐观估计的方向。
直觉上很美:在 ALOHA 上收的数据应该能帮我训 Franka、训 UR5、训 Kinova。实际上还没有任何 paper 给出过让人放心的证据。
Octo(Berkeley 2024)和 CrossFormer(Berkeley 2024)是两个最严肃的尝试。两者都用 transformer 把不同机器人的 observation 和 action 编码到一个共享 token 空间,再用一个 universal head 出动作。Octo 在 9 种 embodiment 上做了联合训练,CrossFormer 进一步把单臂、双臂、轮式、四足都塞进一个网络。
实证结果是这样:联合训练能略微提升每个 embodiment 自己的 in-distribution 表现,但 transfer 到一个完全没见过的 embodiment 上几乎不工作。换句话说,混着训不会让模型变笨,但也没有出现"某种通用具身先验"这种神话级的效果。
这件事的根本困难是动作空间的物理意义不同。一个 7-DoF 机械臂的 joint 6 旋转 0.1 rad(弧度,约 5.7 度)跟另一个 7-DoF 机械臂的 joint 6 旋转 0.1 rad 在世界坐标系里走出来的 end-effector(机械臂最末端工具的位姿)轨迹完全不一样。网络要学到这个映射,需要的就是更多每种 embodiment(具身形态:哪种机械臂、几个关节、装在轮式还是双足)的演示数据,绕不过去。
所以 2026 年的工业现实是:没人真信 cross-embodiment 能省数据,每家做产品的公司还是在自己的硬件上从头收。混合训练当 pretrain,自己硬件上 fine-tune,是相对靠谱的折中。Octo 和 CrossFormer 这一线的真正贡献是给了一个可以共用的 visual backbone,而不是给了"通用 action head"这种神话。把它们当 ResNet 用,别当 GPT 用。
学术界还有一类乐观说法:等动作空间统一到末端 SE(3) pose 而不是 joint,cross-embodiment 就解决了。这个说法忽略了一件事:末端 pose 同样的轨迹,不同机器人的可达性、关节奇异性、惯量分布都不一样,控制层会做出完全不同的事。动作空间的 mismatch 是表面问题,背后是机器人物理的不一致,这件事不会被某种 representation trick 解掉。
play 数据这一派 Lerrel Pinto 推得最凶。逻辑是:teleop 太贵,让机器人自己在环境里随便玩,事后用 hindsight relabeling 把"这条 trajectory 在最后做到了什么"当成 label,回去训一个 goal-conditioned policy。
这个思路在 2022-2023 年的几篇 paper(PLAY、LATTE 等)里看着很有希望。但工业落地两年下来的判断是:play 数据当 pretrain 有用,当主力数据不够。
原因不复杂。play 数据里大部分时间机器人在做没意义的事,真正完成有用任务的片段可能只占 10%。剩下 90% 的数据训出来的策略行为偏向"乱动",对下游任务的精度不够。同样多的小时数花在 teleop 上,真正有效信号密度高得多。
play 数据真正的位置应该是 在大规模 teleop 之前的数据增广。先用便宜的 play 数据训一个粗糙的 vision encoder 和 dynamics 先验,再用昂贵的 teleop 数据 fine-tune 出真正干活的 policy。
internet 视频是这两年炒得最凶但跑出最少东西的方向。
Ego4D(Meta 2022):3670 小时第一人称视频,9 个国家 700 多人录制。Something-Something V2(2017):22 万条短视频标注了"把 X 推向 Y"这种细粒度动作类别。HowTo100M:1.36 亿条 YouTube how-to 视频,平均 6.5 分钟。EgoVLP:用 Ego4D 训的视频-语言 contrastive 预训练。
体量对比 teleop 数据集是 1000 倍以上的差距。每隔三个月就有 paper 声称"我们用 internet 视频解决了机器人数据稀缺问题"。
没有一篇真的解决了。
四个原因:
第一,没有动作标签。视频里你能看到一只手把杯子拿起来,但你不知道每一帧人的肘关节角度是多少、握力是多少。要从视觉重投影出 action,得先做 hand tracking、pose estimation、然后从手的运动反推关节,每一步都有大量噪声。最后给到机器人的 action 信噪比远低于 teleop。
第二,视角错配。Ego4D 是第一人称的还好,YouTube 上 90% 的烹饪视频是第三人称,机器人执行时的视角对不上。重投影是另一道大坑。
第三,相机抖动。手持视频和头戴视频的相机本身在动。VLA 训练里图像通常假设相机外参稳定,相机自己在抖会让 visual feature 漂得厉害。Stabilization 能解但是会引入新的 artifact。
第四,morphology gap。人手 5 指 27 自由度,机器人夹爪通常 1 自由度。人胳膊 7 自由度但比例和质量分布跟机械臂不一样。视频里一个"很自然"的伸手轨迹,机器人复现出来可能根本到不了那个位置。
合起来的判断是:internet 视频可以做表征学习的预训练,做 visual encoder 的 init,做 task taxonomy 的 mining,但拿来直接生成 action 那件事,到 2026 年还没有成功的工业案例。Octo、RT-2、π0 这些主流工作都用过 internet 视频做某种形式的预训练,但没有任何一个把它当主力数据。
每隔半年就有人发"YouTube as data" 类型的 paper,每次大家都很兴奋,半年后没人提了。这是一个结构性卡住的方向。
要打破这个结构性卡住,需要至少其中一件事发生:要么有一种廉价的、可穿戴的全身姿态+力反馈采集设备让人在自然环境里录下"带 action 的视频",要么有一种鲁棒的、跨 morphology 的 retargeting 算法能把人手轨迹无损映射到任意夹爪。两者都还没看到突破信号。在这之前,把 internet 视频当主力数据是一种 wishful thinking。
合成数据是另一头。
UniSim(UC Berkeley 2024,Sherry Yang 等)走的是用大模型直接生成视频,绕开物理仿真。给一个图像和一段动作 prompt,UniSim 生成一段未来视频。理论上你可以拿这个当 world model 来 plan,或者从生成的视频里反推 action 当训练数据。这条线在 2025 年下半年开始挤出 paper,但在真机上的零证据。生成视频好看不等于物理一致。
RoboGen 和 Genesis(CMU 这一线)走相反路:用 LLM 生成任务描述,自动构造 sim 场景,自动用 RL 或者 motion planner 求解,把求出来的 trajectory 当训练数据。这一路 2024 年的工作里,单任务上能 work,但任务难度上不去。一旦任务复杂到需要长程规划,LLM 生成的任务描述和 sim 求解器的能力都跟不上。
用 sim 渲染做 visual data augmentation 是最朴素也最 work 的一类。同一条 teleop trajectory 在 sim 里换不同的光照、纹理、背景渲染十遍,训出来的 policy 对视觉变化更鲁棒。NVIDIA Isaac Sim 和 ManiSkill 这两年都在打这个点。这是合成数据里唯一在工业上稳定 work 的子方向。
合成数据的整体判断:做 visual augmentation 有用,做 action 数据生成几乎没用。原因是 sim2real 在视觉上 gap 缩小很快,在物理接触上 gap 几乎没动(见第 7 章)。
把上面的全合起来,立场一:teleop 数据有 ceiling。
这个 ceiling 不在数据量上。是在演示者本人的能力上。
你雇 60 个普通工程师做 teleop 操作员。他们里没有一个会用筷子捏黄豆、没有一个能在两秒内把鞋带打好、没有一个能像外科医生那样稳定地操作 0.1 mm 精度的动作。你训出来的 VLA 也就同样不会。
这件事在简单任务上不显眼,因为简单任务上人人都能做得很好,演示数据的 floor 已经够高。但在精细操作和高速操作上,teleop 数据让 VLA 永远停在普通人的水平。要往上突破,需要的是别的数据来源(要么 RL self-improvement,要么外科医生级别专家的演示,要么 sim 里的最优解),不是更多 teleop。
具体一个数据点:2025 年有两家公司同时尝试用 teleop 训机器人去叠很薄的纸(origami),都失败了。原因不是模型不行,是 teleop 操作员自己叠不稳那种纸。另一个数据点:医疗手术机器人那一线(Intuitive 之外的几家初创)这两年都在尝试用普通 teleop 的方式收数据训模型缝合伤口。几乎所有项目都卡在同一个地方:普通操作员缝合的针距和力度不达医疗标准。最后能用的那部分数据还是来自外科医生本人坐到 teleop 工位上录的小批量数据,量小到训不出泛化模型。
记住这件事:当任务超出普通人的运动能力时,teleop 数据是天花板,不是地基。这一条还有一个推论:如果你的目标是让机器人做平凡的事,teleop 是好的;如果你的目标是让机器人做超人的事,teleop 是死路。这两条道在前期都长得一样,区别只在你押注的产品形态。
立场二:1k / 10k / 100k 这三个数据量级是真实的工业阈值。
这两年从公开数据和 paper 上能拼出来的,演示数据量大致有三个台阶。
1k 演示以下。基本只够做单任务、单环境、单初始化条件的 demo。学术 paper 经常能在 500 条数据上跑出漂亮结果,但拿到稍微换一点的环境就崩。1k 以下的数据只适合做演示视频,不适合做产品。
1k 到 10k 演示。能做单任务多环境的稳定泛化。这是当前家庭机器人单任务(比如折一种衣服、做一种饭)上的工业落地阈值。1X 那一线在每个核心子任务上大概都收了 5000-15000 条数据。Physical Intelligence 的 π0 公开版本是 10000 小时量级的演示数据训出来的。
10k 到 100k 演示。能做 cross-task 的泛化,模型开始表现出"我没见过这个具体任务但我能合理尝试"的行为。RT-2 在 130k 条演示上训,第一次让大家看到这个量级的涌现现象。
100k 以上。开始在没见过的物体类别和场景配置上有合理表现。AgiBot World 那 100 万条数据是这个量级,但还没有公开的下游评测能告诉我们这个量级到底买到了多少泛化。
工程上的 takeaway:在 1k 量级折腾不出效果,加到 5k 通常能解决;如果 10k 还不行,问题不在数据量,在任务定义或者模型架构。第 1 章末尾立的工程信号 - fine-tune 已经收了一万条还做不出来时,通常该把任务拆开 - 跟这个数据规模阈值是一回事。
最后讲 co-training,怎么把五类数据混着用。
工业上稳定 work 的配方是这样:
预训练阶段:internet 视频(visual encoder 预训)+ Open X / DROID(cross-embodiment 动作先验)+ 大规模合成视觉增广。这一阶段数据量最大,权重不那么重要,目标是让模型学到一般的视觉和动作分布。
主训练阶段:你自己硬件平台上的 teleop 数据是绝对主力。权重至少占 60%。Play 数据可以混进来 10-20% 当正则化。RH20T 这种带触觉的数据能帮上力控敏感任务。
fine-tune 阶段:纯 teleop 数据,针对你要部署的具体任务。权重 100% 给当前任务,可能再混一点点其他相关任务的数据防止 catastrophic forgetting。
权重的具体比例没有银弹,每家都在调。但有一个普遍规律:数据质量的权重比数据量的权重重要。一条干净的、跟你目标硬件对齐的、任务相关的演示,价值是十条 internet 视频或者一百条 sim 数据。
所以那家湾区公司一年烧 1200 万收 teleop 是合理的。问题不是 teleop 贵,是他们没意识到 teleop 的 ceiling 在哪、什么时候该停下来用别的数据补、什么时候该把任务重新切分。这才是真正贵的决策,不是数据本身。
练习¶
找一个你最熟悉的具身公司(任意一家),估算他们一年的 teleop 数据采集成本。把硬件、人力、场地、数据存储、标注几项分开算。然后问:以他们公开过的 demo 来看,这些钱花得值吗?哪一部分是真在创造价值,哪一部分是在重复采集已经达到 ceiling 的数据?
重读 RT-X 的 paper,但只看每一家机构贡献的数据量分布和 embodiment 多样性那两张表。算一下这 60 多家里贡献了 80% 数据的是哪几家。这些家用的硬件是同一类还是分散的?这个分布告诉你 cross-embodiment 训练里 RT-X 真的"泛化"了多少种机器人?
找三段最近的 VLA demo video(任意公司),仔细看模型在抓取前的准备动作。有没有那种"突然停 0.3 秒再继续"的犹豫?如果有,这是模型问题还是 teleop 数据问题?想清楚这个区分。
给自己一个项目设定:你要做一台能在咖啡店里清桌子的机器人,单次任务 2-3 分钟。按本章的五类数据来源,规划接下来 6 个月你要采集或者获取的数据,权重分配清楚。然后写下你预期 1 个月、3 个月、6 个月各自能达到的成功率上限。这个练习的关键不是数字本身,是逼你把"该用什么数据"这个判断固化下来,将来回头对照。
下一章:第 9 章 评估