第 8 章数据¶

这两年具身领域最贵的不是 GPU，是数据。一个 100 人量级的 teleop 工作室，一年能烧掉一千万美元，最后训出来的 VLA 学会了所有人类操作员的犹豫、肌肉抖动、和对某一类物体莫名其妙的偏好。这一章讲为什么会这样、五种数据来源各自的代价、和该怎么把它们混着用。

2025 年中湾区做家庭机器人的初创公司里有这么一种典型场地：第一样让人看的东西不是机械臂，是一个 800 平米的仓库，里面整整齐齐排着 60 个 ALOHA 工位，每个工位上一个工程师戴着 VR 头盔操作。墙上的电子屏写着当天的目标条数和当前进度，像电商客服中心。

公开能算出来的账是：一年要在这上面花 1200 万美元，光人力。这还不算硬件折旧、数据存储、和训练成本。

三个月后这一版 VLA 出来。模型在演示集上的成功率漂亮得不像话。但放到一个真实的、稍微乱一点的厨房里抓杯子，模型在伸手之前停了 0.4 秒，然后又停了 0.3 秒，像在犹豫。这个犹豫是它的 60 个操作员里有一半人在不熟悉的物体面前都会犹豫的那种犹豫，被模型一字不漏地学了进去。

模型还学到了另一件事：当杯子的把手朝向不顺手的时候，操作员的手腕会做一个特定的、有点扭曲的旋转动作。这个动作在一个跟操作员关节结构不一样的机器人手腕上做出来，看起来像帕金森。

这是 teleop 数据的第一个真相：它不是物理世界的客观采样，是一群特定的人在特定一段时间里、用一个特定的接口操作出来的轨迹。VLA 学不到"怎么做这个任务"，VLA 学到的是"那群人是怎么做这个任务的"。

先把数据来源摊开。这两年具身能用的数据来源大致五类：

Teleop（teleoperation，遥操作：人远程实时驱动机器人）。人戴 VR 或者用 leader-follower 装置（一只小臂当摇杆，操作员手握它，远端的真臂跟随）远程操作机器人，记录每一步的动作和图像。优点是动作标签干净、跟硬件完全对齐、能拿到接触时刻的精确扭矩。缺点是慢、贵、有人的偏见，而且演示者本人也不会做的任务，teleop 给不出来。

Play 数据。Lerrel Pinto 那一派推得最凶。机器人或者人在环境里没有明确目标地玩，记录所有交互。便宜得多，但标签弱，得靠后期 hindsight relabeling 把它转成可训练的形式。

视频示范。第一人称视角的人手操作视频，没有动作标签但有清晰的视觉轨迹。UMI 那一类手持夹爪是这一路的工程化版本。

Internet 视频。YouTube、TikTok、Ego4D。海量但视角混乱、没动作标签、人手和机器人手 morphology 不一样。

合成数据。仿真器渲染，或者用 LLM 生成任务再用 sim 跑。便宜到几乎免费，但 sim2real gap 是另外一整章的事（见第 7 章）。

每一类数据的代价不在采集环节，在它到底能让模型学到什么这件事上。下面分开讲。

Teleop 的硬件这两年基本是六条线在打。

ALOHA。Stanford Tony Zhao 和 Chelsea Finn 2023 年放出来的双臂 leader-follower 装置。两个小机械臂当 leader，操作员手握 leader 的末端，两个真臂当 follower 跟随。便宜（5000 美元一套）、容易复现、双臂同步好。整个学术界这两年的 teleop 数据有一半是 ALOHA 路数收的。Mobile ALOHA 把它放上了一个轮式底盘，多了行走能力。Bunny ALOHA 是腾讯出的小型化版本。ALOHA 最大的问题是 leader 臂和真臂自由度必须匹配，所以你换一个机器人这套数据基本就废了。

UMI（Universal Manipulation Interface）。Cheng Chi 在 Stanford 做的手持夹爪，前端一个鱼眼摄像头加一个被动夹爪，操作员直接在真实环境里用手做演示。完全脱离机器人。优点是一个工程师一天能在自己家里收 200 条演示，便宜到不可思议。缺点是没有力反馈、没有关节信息、得靠视觉重投影把它对齐到机器人坐标系上。UMI on Legs 是 2024 年底它扩到四足平台的版本，证明这套接口可以跨形态用。

Gello。Berkeley 的 Philipp Wu 等人做的低成本 leader 臂，一个 3D 打印的关节复制品，关节里塞编码器。比 ALOHA 还便宜，照着图纸自己做一套不到 300 美元。但精度比 ALOHA 低一档。

Apple Vision Pro 这条线。Open-TeleVision 是 UCSD 和 MIT 那边的工作，用 Vision Pro 的手势追踪和立体显示直接驱动远端的双臂机器人。沉浸感极好，操作员适应速度快，但 Vision Pro 是闭源生态，做工业部署不靠谱。Optimus 自己有一套类似的内部装置，没公开过。

XELA / Touch 那一路触觉。这个不是 teleop 装置而是它的传感器层。GelSight、DIGIT 这种视触觉传感器最近开始进入 teleop pipeline，让 VLA 第一次能学到"握的力大小"这个维度。但触觉数据规模还很小，远没到能训出泛化策略的量级。触觉这件事 2026 年还在等一个 ImageNet 时刻：等到有一个公开的、大规模的、多任务的视触觉数据集出来，触觉 VLA 才会真的起飞。在那之前，每家做触觉的公司都在重复造同一类数据。

这五条线在 2026 年都在跑。学术界主力还是 ALOHA 和 UMI，工业界自己造轮子的多。选 teleop 装置时第一个该问的问题不是"哪个最先进"，是"这套装置收回来的数据将来能不能跨硬件用"。你今天用 ALOHA 收的两万条数据，三年后换了一台不同自由度的机器人就只能扔。这不是危言耸听，是过去两年湾区好几家公司真踩过的坑。

公开的大数据集这两年真正有规模的就那么几个。

Open X-Embodiment / RT-X（Google + 60 多家机构 2023-2024）。22 种机器人形态、160 万条 trajectory、527 种技能。是迄今最大的多机构 cross-embodiment 数据集。但它是数据的集合，不是数据集。每家机构的数据格式、相机内参、动作空间、采样频率都不一样，得做大量 normalize 才能统一训。RT-X 本身的 paper 演示了这件事可以做，但谁拿来做产品都得自己再清洗一遍。

DROID（Stanford 2024，Sasha Khazatsky 等）。76000 条演示、564 个场景、52 个建筑、13 家机构合作。统一了硬件（Franka FR3）和接口（Oculus Quest 2 teleop）。这是目前单一硬件平台规模最大的公开数据集，数据干净度比 RT-X 高一档。

RH20T（清华 Hao-Shu Fang）。147 种任务、超过 11 万条人机协同的 trajectory，强调多模态：视觉 + 力 + 音频 + 语言指令同时收。这一套对触觉敏感的任务（比如插拔接口、拧瓶盖）更友好。

AgiBot World（智元 2024 末）。100 万条以上演示，号称是当前规模最大的开源具身数据集。基于智元自家的人形机器人采的，所以它的价值取决于你下游用的硬件离智元有多近。离得远的话，这一百万条对你的用处比你想象的小。

BridgeData V2（Berkeley 2023）。60096 条 trajectory，24 个环境，专注于厨房和家居场景。是早期被各家用得最多的"练手"数据集。规模上现在已经被 DROID 超过，但场景多样性依然是一个长项。

挑数据集时要看的几个数：单一硬件还是混合硬件、场景多样性、任务标注的颗粒度、是否带语言指令、采样频率。这五个里前两个最关键。一个 50 万条单一硬件的同质数据集，对你训泛化模型的价值远不如 5 万条多硬件多场景的异构数据集。

cross-embodiment 是这两年最被乐观估计的方向。

直觉上很美：在 ALOHA 上收的数据应该能帮我训 Franka、训 UR5、训 Kinova。实际上还没有任何 paper 给出过让人放心的证据。

Octo（Berkeley 2024）和 CrossFormer（Berkeley 2024）是两个最严肃的尝试。两者都用 transformer 把不同机器人的 observation 和 action 编码到一个共享 token 空间，再用一个 universal head 出动作。Octo 在 9 种 embodiment 上做了联合训练，CrossFormer 进一步把单臂、双臂、轮式、四足都塞进一个网络。

实证结果是这样：联合训练能略微提升每个 embodiment 自己的 in-distribution 表现，但 transfer 到一个完全没见过的 embodiment 上几乎不工作。换句话说，混着训不会让模型变笨，但也没有出现"某种通用具身先验"这种神话级的效果。

这件事的根本困难是动作空间的物理意义不同。一个 7-DoF 机械臂的 joint 6 旋转 0.1 rad（弧度，约 5.7 度）跟另一个 7-DoF 机械臂的 joint 6 旋转 0.1 rad 在世界坐标系里走出来的 end-effector（机械臂最末端工具的位姿）轨迹完全不一样。网络要学到这个映射，需要的就是更多每种 embodiment（具身形态：哪种机械臂、几个关节、装在轮式还是双足）的演示数据，绕不过去。

所以 2026 年的工业现实是：没人真信 cross-embodiment 能省数据，每家做产品的公司还是在自己的硬件上从头收。混合训练当 pretrain，自己硬件上 fine-tune，是相对靠谱的折中。Octo 和 CrossFormer 这一线的真正贡献是给了一个可以共用的 visual backbone，而不是给了"通用 action head"这种神话。把它们当 ResNet 用，别当 GPT 用。

学术界还有一类乐观说法：等动作空间统一到末端 SE(3) pose 而不是 joint，cross-embodiment 就解决了。这个说法忽略了一件事：末端 pose 同样的轨迹，不同机器人的可达性、关节奇异性、惯量分布都不一样，控制层会做出完全不同的事。动作空间的 mismatch 是表面问题，背后是机器人物理的不一致，这件事不会被某种 representation trick 解掉。

play 数据这一派 Lerrel Pinto 推得最凶。逻辑是：teleop 太贵，让机器人自己在环境里随便玩，事后用 hindsight relabeling 把"这条 trajectory 在最后做到了什么"当成 label，回去训一个 goal-conditioned policy。

这个思路在 2022-2023 年的几篇 paper（PLAY、LATTE 等）里看着很有希望。但工业落地两年下来的判断是：play 数据当 pretrain 有用，当主力数据不够。

原因不复杂。play 数据里大部分时间机器人在做没意义的事，真正完成有用任务的片段可能只占 10%。剩下 90% 的数据训出来的策略行为偏向"乱动"，对下游任务的精度不够。同样多的小时数花在 teleop 上，真正有效信号密度高得多。

play 数据真正的位置应该是 在大规模 teleop 之前的数据增广。先用便宜的 play 数据训一个粗糙的 vision encoder 和 dynamics 先验，再用昂贵的 teleop 数据 fine-tune 出真正干活的 policy。

internet 视频是这两年炒得最凶但跑出最少东西的方向。

Ego4D（Meta 2022）：3670 小时第一人称视频，9 个国家 700 多人录制。Something-Something V2（2017）：22 万条短视频标注了"把 X 推向 Y"这种细粒度动作类别。HowTo100M：1.36 亿条 YouTube how-to 视频，平均 6.5 分钟。EgoVLP：用 Ego4D 训的视频-语言 contrastive 预训练。

体量对比 teleop 数据集是 1000 倍以上的差距。每隔三个月就有 paper 声称"我们用 internet 视频解决了机器人数据稀缺问题"。

没有一篇真的解决了。

四个原因：

第一，没有动作标签。视频里你能看到一只手把杯子拿起来，但你不知道每一帧人的肘关节角度是多少、握力是多少。要从视觉重投影出 action，得先做 hand tracking、pose estimation、然后从手的运动反推关节，每一步都有大量噪声。最后给到机器人的 action 信噪比远低于 teleop。

第二，视角错配。Ego4D 是第一人称的还好，YouTube 上 90% 的烹饪视频是第三人称，机器人执行时的视角对不上。重投影是另一道大坑。

第三，相机抖动。手持视频和头戴视频的相机本身在动。VLA 训练里图像通常假设相机外参稳定，相机自己在抖会让 visual feature 漂得厉害。Stabilization 能解但是会引入新的 artifact。

第四，morphology gap。人手 5 指 27 自由度，机器人夹爪通常 1 自由度。人胳膊 7 自由度但比例和质量分布跟机械臂不一样。视频里一个"很自然"的伸手轨迹，机器人复现出来可能根本到不了那个位置。

合起来的判断是：internet 视频可以做表征学习的预训练，做 visual encoder 的 init，做 task taxonomy 的 mining，但拿来直接生成 action 那件事，到 2026 年还没有成功的工业案例。Octo、RT-2、π0 这些主流工作都用过 internet 视频做某种形式的预训练，但没有任何一个把它当主力数据。

每隔半年就有人发"YouTube as data" 类型的 paper，每次大家都很兴奋，半年后没人提了。这是一个结构性卡住的方向。

要打破这个结构性卡住，需要至少其中一件事发生：要么有一种廉价的、可穿戴的全身姿态+力反馈采集设备让人在自然环境里录下"带 action 的视频"，要么有一种鲁棒的、跨 morphology 的 retargeting 算法能把人手轨迹无损映射到任意夹爪。两者都还没看到突破信号。在这之前，把 internet 视频当主力数据是一种 wishful thinking。

合成数据是另一头。

UniSim（UC Berkeley 2024，Sherry Yang 等）走的是用大模型直接生成视频，绕开物理仿真。给一个图像和一段动作 prompt，UniSim 生成一段未来视频。理论上你可以拿这个当 world model 来 plan，或者从生成的视频里反推 action 当训练数据。这条线在 2025 年下半年开始挤出 paper，但在真机上的零证据。生成视频好看不等于物理一致。

RoboGen 和 Genesis（CMU 这一线）走相反路：用 LLM 生成任务描述，自动构造 sim 场景，自动用 RL 或者 motion planner 求解，把求出来的 trajectory 当训练数据。这一路 2024 年的工作里，单任务上能 work，但任务难度上不去。一旦任务复杂到需要长程规划，LLM 生成的任务描述和 sim 求解器的能力都跟不上。

用 sim 渲染做 visual data augmentation 是最朴素也最 work 的一类。同一条 teleop trajectory 在 sim 里换不同的光照、纹理、背景渲染十遍，训出来的 policy 对视觉变化更鲁棒。NVIDIA Isaac Sim 和 ManiSkill 这两年都在打这个点。这是合成数据里唯一在工业上稳定 work 的子方向。

合成数据的整体判断：做 visual augmentation 有用，做 action 数据生成几乎没用。原因是 sim2real 在视觉上 gap 缩小很快，在物理接触上 gap 几乎没动（见第 7 章）。

把上面的全合起来，立场一：teleop 数据有 ceiling。

这个 ceiling 不在数据量上。是在演示者本人的能力上。

你雇 60 个普通工程师做 teleop 操作员。他们里没有一个会用筷子捏黄豆、没有一个能在两秒内把鞋带打好、没有一个能像外科医生那样稳定地操作 0.1 mm 精度的动作。你训出来的 VLA 也就同样不会。

这件事在简单任务上不显眼，因为简单任务上人人都能做得很好，演示数据的 floor 已经够高。但在精细操作和高速操作上，teleop 数据让 VLA 永远停在普通人的水平。要往上突破，需要的是别的数据来源（要么 RL self-improvement，要么外科医生级别专家的演示，要么 sim 里的最优解），不是更多 teleop。

具体一个数据点：2025 年有两家公司同时尝试用 teleop 训机器人去叠很薄的纸（origami），都失败了。原因不是模型不行，是 teleop 操作员自己叠不稳那种纸。另一个数据点：医疗手术机器人那一线（Intuitive 之外的几家初创）这两年都在尝试用普通 teleop 的方式收数据训模型缝合伤口。几乎所有项目都卡在同一个地方：普通操作员缝合的针距和力度不达医疗标准。最后能用的那部分数据还是来自外科医生本人坐到 teleop 工位上录的小批量数据，量小到训不出泛化模型。

记住这件事：当任务超出普通人的运动能力时，teleop 数据是天花板，不是地基。这一条还有一个推论：如果你的目标是让机器人做平凡的事，teleop 是好的；如果你的目标是让机器人做超人的事，teleop 是死路。这两条道在前期都长得一样，区别只在你押注的产品形态。

立场二：1k / 10k / 100k 这三个数据量级是真实的工业阈值。

这两年从公开数据和 paper 上能拼出来的，演示数据量大致有三个台阶。

1k 演示以下。基本只够做单任务、单环境、单初始化条件的 demo。学术 paper 经常能在 500 条数据上跑出漂亮结果，但拿到稍微换一点的环境就崩。1k 以下的数据只适合做演示视频，不适合做产品。

1k 到 10k 演示。能做单任务多环境的稳定泛化。这是当前家庭机器人单任务（比如折一种衣服、做一种饭）上的工业落地阈值。1X 那一线在每个核心子任务上大概都收了 5000-15000 条数据。Physical Intelligence 的 π0 公开版本是 10000 小时量级的演示数据训出来的。

10k 到 100k 演示。能做 cross-task 的泛化，模型开始表现出"我没见过这个具体任务但我能合理尝试"的行为。RT-2 在 130k 条演示上训，第一次让大家看到这个量级的涌现现象。

100k 以上。开始在没见过的物体类别和场景配置上有合理表现。AgiBot World 那 100 万条数据是这个量级，但还没有公开的下游评测能告诉我们这个量级到底买到了多少泛化。

工程上的 takeaway：在 1k 量级折腾不出效果，加到 5k 通常能解决；如果 10k 还不行，问题不在数据量，在任务定义或者模型架构。第 1 章末尾立的工程信号 - fine-tune 已经收了一万条还做不出来时，通常该把任务拆开 - 跟这个数据规模阈值是一回事。

最后讲 co-training，怎么把五类数据混着用。

工业上稳定 work 的配方是这样：

预训练阶段：internet 视频（visual encoder 预训）+ Open X / DROID（cross-embodiment 动作先验）+ 大规模合成视觉增广。这一阶段数据量最大，权重不那么重要，目标是让模型学到一般的视觉和动作分布。

主训练阶段：你自己硬件平台上的 teleop 数据是绝对主力。权重至少占 60%。Play 数据可以混进来 10-20% 当正则化。RH20T 这种带触觉的数据能帮上力控敏感任务。

fine-tune 阶段：纯 teleop 数据，针对你要部署的具体任务。权重 100% 给当前任务，可能再混一点点其他相关任务的数据防止 catastrophic forgetting。

权重的具体比例没有银弹，每家都在调。但有一个普遍规律：数据质量的权重比数据量的权重重要。一条干净的、跟你目标硬件对齐的、任务相关的演示，价值是十条 internet 视频或者一百条 sim 数据。

所以那家湾区公司一年烧 1200 万收 teleop 是合理的。问题不是 teleop 贵，是他们没意识到 teleop 的 ceiling 在哪、什么时候该停下来用别的数据补、什么时候该把任务重新切分。这才是真正贵的决策，不是数据本身。

练习¶

找一个你最熟悉的具身公司（任意一家），估算他们一年的 teleop 数据采集成本。把硬件、人力、场地、数据存储、标注几项分开算。然后问：以他们公开过的 demo 来看，这些钱花得值吗？哪一部分是真在创造价值，哪一部分是在重复采集已经达到 ceiling 的数据？

重读 RT-X 的 paper，但只看每一家机构贡献的数据量分布和 embodiment 多样性那两张表。算一下这 60 多家里贡献了 80% 数据的是哪几家。这些家用的硬件是同一类还是分散的？这个分布告诉你 cross-embodiment 训练里 RT-X 真的"泛化"了多少种机器人？

找三段最近的 VLA demo video（任意公司），仔细看模型在抓取前的准备动作。有没有那种"突然停 0.3 秒再继续"的犹豫？如果有，这是模型问题还是 teleop 数据问题？想清楚这个区分。

给自己一个项目设定：你要做一台能在咖啡店里清桌子的机器人，单次任务 2-3 分钟。按本章的五类数据来源，规划接下来 6 个月你要采集或者获取的数据，权重分配清楚。然后写下你预期 1 个月、3 个月、6 个月各自能达到的成功率上限。这个练习的关键不是数字本身，是逼你把"该用什么数据"这个判断固化下来，将来回头对照。

下一章：第 9 章评估

第 8 章 数据¶

练习¶

第 8 章数据¶