第 4 章 抓取¶
manipulation 这条线里最被低估的难题。看一段 demo 你会以为它解了,蹲在工厂里数一周良率你会发现它没有。bin picking(从一堆零件里抓单个)不是抓取,抓取是把 bin picking 推到分布外之后还能稳定接触一切的能力。
2024 年某具身公司放过一段被广泛转发的 demo,单镜头一分钟,机械臂从乱堆的工具箱里抓螺丝刀、抓六角扳手、抓一卷电工胶带,每一次都干净利落。这段视频在 Twitter 上转了几万次。
试图复现这一类 demo 的小组会发现典型曲线长这样:用同样的开放脚本在同样的 setup 下跑一周,成功率 47%。换几样表面光滑的物体(一个不锈钢量杯、一段 PVC 管),降到 31%。再换一个装了一半水的玻璃杯,18%。
视频里的成功率没有作假。但视频里的物体被精挑过,光照被精挑过,工具箱的姿态被精挑过。把任何一条变量松掉,曲线立刻断崖。
这一章想说清一件事:bin picking 在 2025 年大致解了,"抓取"没有。把这两件事混为一谈是这两年具身公司估值最大的水分来源。
先把经典 grasp planning 这条线看清楚。
2010 年代末抓取这件事被推得最远的是 Berkeley Ken Goldberg 组的 Dex-Net 系列。Mahler 等在 2017 到 2019 年陆续放出 Dex-Net 2.0/3.0/4.0,做的是同一件事:给定一个深度图,输出一个最稳的 antipodal grasp(两指夹爪从对侧夹住物体)。antipodal 是指夹爪(机械臂末端的两指夹具)两指连线穿过物体重心,闭合时摩擦锥(接触点不打滑的力方向集合)能闭合。Dex-Net 用上百万个 sim 渲染的深度图 + 解析力学算出来的 grasp quality 训了一个 CNN,部署在真机上抓没见过的物体也能 80%+。
同一时期 GG-CNN(Morrison 等,QUT,2018)走得更轻,把抓取参数化到一张 pixel-wise 的 grasp map 上,能在 50ms 内出结果,挂在 ROS 上做闭环抓取(边看边调,区别于一次算好执行到底的开环)直到现在还有人用。
到 2020 年前后这条线的两个集大成者:6-DoF GraspNet(NVIDIA Mousavian 等,2019;输出位置加朝向共六维的抓取参数)放弃了"必须从上往下抓"的假设,输出完整六自由度抓取位姿(物体或夹爪在空间中的位置加朝向);Contact-GraspNet(Sundermeyer 等,2021)在杂乱场景里直接从点云吐 grasp。这一线的工程价值在于 bin picking 这一类任务的飞跃。bin picking 现在 90% 的部署在用某种 GraspNet 的变种 + 一层经典 motion planner。
为什么 bin picking 这条路接近"够用":任务空间窄(一个 bin 之内)、视角固定(顶部一颗 RGBD)、姿态自由(你可以从任意角度抓,反正下一步是把它丢进盒子)、失败可重试(抓不起来再来)、物体已知或半已知(仓库 SKU 数量有限)。这五条加起来是一个比"通用抓取"窄得多的子问题。
KUKA、Fanuc、ABB 在 2023 年之后都把这套堆栈做成可买的产品。Covariant(Pieter Abbeel 等创立,2024 年被 Amazon 收购大部分团队)把 bin picking 做到 99%+ 的良率,靠的就是经典 grasp planner 加大量真实数据闭环,并不是端到端 VLA。
把 bin picking 看作"抓取已解"是一个相当昂贵的误读。
bin picking 跟家庭/厨房抓取的差距至少有四层。
第一层是物体的开放性。仓库的 SKU(库存里每种独立商品)是有限的,就算"前所未见"也是同分布的工业品。家里的物体是真正开放的:一个外卖打包盒,一个用过的口罩,一只装了两口酒的红酒杯,一袋拆开一半的薯片。这些东西每一件的几何、表面摩擦、变形性、内部状态都跟训练集里的东西相差很远。
第二层是接触动力学。bin picking 的物体大多是刚体,抓起来的力学行为可以用刚体接触建模。家里一半以上的物体不是刚体。一个装水的杯子你抓的位置不对,水会晃出来;一袋薯片你抓中间,包装会被你捏破气体冲出来;一块巧克力你抓太用力,它会化在你手指里。
第三层是姿态约束。bin picking 你想怎么抓都行。家里很多物体有"必须这样抓"的方向:刀必须握刀柄、马克杯如果有热咖啡必须握把手、一块刚出锅的鸡腿你不能抓断骨那一头。这些约束写不进 grasp quality function。
第四层是任务后续。bin picking 抓起来的下一步永远是丢进盒子。家里抓起来下一步千差万别:抓杯子是为了喝、是为了倒、是为了刷、是为了递给人。抓的 grasp 必须配合下一步的 task。这件事经典 grasp planner 没有任何接口去考虑。
把这四层叠在一起,你会明白为什么 Berkeley、CMU、Stanford 这几年家庭抓取相关的论文里成功率一直在 40-70% 区间徘徊。它不是 grasp planner 不够好,是问题的形状跟 bin picking 完全不一样。
软物体、薄物体、形变物体是经典 grasp planning 的死穴。
毛巾。毛巾是布,没有固定 6-DoF 位姿。你拿起一条毛巾的位置不同,它垂下来的形状就不同,下一步要做的折叠动作完全不同。Berkeley 的 SpeedFolding(Avigal 等,2022)和 SmoothingNet 这一线是少数能在毛巾上跑通的工作,但它们走的不是 grasp planner(解析式抓取规划器),是 keypoint detection + 学一段折叠动作。它们绕开了"抓取"这个问题,把它变成了"按 keypoint 抓+按 keypoint 放"。
塑料袋。一个外卖塑料袋你从哪里抓决定它是不是会塌。袋口、袋底、袋身的力学行为完全不同。grasp quality function 不知道这是个"袋子",更不知道里面有汤会洒。
纸盒。空纸盒和装了书的纸盒外观一样,重量差十倍。抓空纸盒可以一只手,抓装满书的得双手抱。这件事单看视觉解不了,必须有一次试探性的提起 + 力反馈(夹爪上 F/T sensor 即力矩传感器读出的力)。
装水的杯子。这是 manipulation 论文里近乎刻板印象的失败案例。从上往下抓杯口,水溢出来;侧抓握住杯身,碰到把手就被绊;从下往上托,绝大多数夹爪做不到。人抓这种杯子是握把手 + 调姿态(位置加朝向)保持杯口水平的两阶段动作,这件事经典 grasp planner 完全没有这种概念。
食物。一块豆腐、一坨米饭、一片烤鸡。豆腐你稍微用力它就碎,你不用力它就滑下来。米饭你抓不起一坨米饭,你只能用勺子。烤鸡你得抓肉不抓骨头。这些都不是 grasp planning 的子问题,这是接触工程加上常识推理。
经典 grasp planner 在所有这些场景下不是"准确率低",是根本不在解的空间里。它的问题表述(找到两个 antipodal contact point 让摩擦锥闭合)没有覆盖软物体所需的整个建模。这一线已经几乎走到尽头,未来不太可能再有大的进展。
补这个缺口最有希望的两条路,一是触觉,二是端到端学接触。这两条这两年都在动。
触觉这一波主要是 MIT 的 Edward Adelson 团队推动的。GelSight(Adelson 组,2017 之后持续迭代)把一块半透明硅胶贴在手指上,里面打光,从背面用摄像头看硅胶被压变形的纹理,能拿到 0.05mm 量级的接触几何信息。Meta 在 2022 年开源了 DIGIT(Lambeta 等),把 GelSight 工程化成了一个 30 美元成本的传感器,让全世界实验室都能装。Meta 后来又出了 ReSkin(Bhirangi 等,2021),用磁性微珠 + 磁感应,做成可贴在任何曲面上的弹性皮肤。
触觉真正的价值不在抓之前,在抓之中和之后。一旦闭合了夹爪你要回答三个问题:物体在不在我手里、它有没有在滑、我有没有捏太紧捏变形了。这三个问题视觉答不了,本体感觉答不全,触觉是唯一的干净信号。
NYU 的 Lerrel Pinto 和 TU Dresden / Meta 的 Roberto Calandra 这几年是 tactile-augmented manipulation 的两大推力。Pinto 组的工作把触觉接到 diffusion policy 里做 contact-rich 任务(比如插 USB、拧瓶盖)。Calandra 组做的是更基础的触觉表征学习,让一个网络从触觉读出物体材质、形状、滑动方向。
握力调节和滑动检测是触觉这一波最快进入工业的两个能力。Soft Robotics Inc. 的夹爪集成了自家的滑动检测算法,抓鸡蛋这种任务上比纯视觉的方案稳得多。Sanctuary AI 的 Phoenix 在指尖装了一圈 GelSight 类的传感器,宣称能抓上百种家庭物体。这些 demo 真假参半,但触觉这条工程线本身是真在动的。
触觉的代价也要点一下。GelSight 类传感器寿命有限,硅胶磨几千次就要换;DIGIT 的相机模块在高频接触下容易松脱;ReSkin 这类磁感应方案抗干扰差。带宽也是问题:基于摄像头的触觉天然受限于相机帧率(通常 30-60Hz),对真正的高频滑动检测仍然慢半拍。家庭场景里这些都还没解决。
还有一个被反复忽略的点:触觉数据的标注代价。视觉数据你可以让人在 mturk 上画框,触觉数据没法这样标。它需要在每一次接触时同步记录视觉、力、关节状态,标注本身就是一个研究问题。Pinto 组 2024 年开源的 t-Dex 数据集是当前最大的公开触觉抓取数据集之一,但跟 OXE 这种视觉-动作数据集比起来还差两个数量级。触觉是这一波最缺数据的那一层。
多指手是另一个被反复挂在嘴边的"未来"。
四指/五指的灵巧手主要有几款:Allegro Hand(Wonik Robotics,4 指 16-DoF,约 2 万美元)、Inspire Hand(深圳因时机器人,5 指 12-DoF,约 5 万美元)、PSYONIC Ability Hand(原本是义肢方向,5 指 6-DoF,约 1 万美元)、Shadow Dexterous Hand(伦敦 Shadow Robot,5 指 24-DoF,约 10 万美元)。
灵巧手的卖点是"接近人手"。但代价相当重。
贵。Shadow Hand 一只 10 万美元起步。一台双臂研究平台买两只 Shadow 已经超过整套 ALOHA 的成本。
易坏。手指的小关节在接触负载下损耗很快。Allegro Hand 的 tendon-driven 关节在重负载下断 tendon 是常见失败模式。Shadow Hand 的关节腔进汗或者灰更容易出问题。这些都不是研究 paper 写的事,是部署一年以后维修台账上的事。
控制难。16-24 自由度的手,full-state policy 的搜索空间巨大。OpenAI 在 2019 年用 Shadow Hand 做 Rubik's cube 那段经典 demo,花了几万 GPU 小时的 sim 训练,加上 domain randomization,最后真机上还是 30% 左右的成功率。那是一个非常有钱的实验室对一个非常窄的任务做的,不是工业可复制的方案。
所以为什么大部分公司还在两指/三指?因为两指/三指能抓 80% 的工业物体,价格是十分之一,可靠性是十倍。Tesla Optimus 的初版是两指 + 力反馈,后来升级到五指但只在某些任务里用。Figure 02 是五指。1X 的 NEO 是五指但每只手只有 11-DoF。Boston Dynamics 的 Atlas(电动版)开放了多种末端选择,工业部署里默认上的是平行夹爪。
灵巧手会是终态吗?大概是。但至少未来五年它在工业部署里都还是少数派,工业部署里的两指夹爪 + 触觉 + 偶尔切换三指会持续是主流。
软夹爪这一线值得单独说。
Soft Robotics Inc. 是一家波士顿创业公司,做硅胶气动夹爪,能抓鸡蛋、草莓、水果蛋糕这种刚体夹爪一抓就坏的物体。它的卖点是靠材料柔软度兜住接触不确定性,不需要你算 grasp pose。2022 年它被 OnRobot 收购,整线产品现在挂在 OnRobot 旗下。
软夹爪是经典夹爪解决软物体抓取的另一条路:不让"夹爪本身"成为刚体,而是让接触面自适应。它在食品、农业、医药这几个场景里产品化做得很好。代价是力的精度低(你不知道自己施了多少牛),位置不精确(硅胶会变形),对干净度要求高(脏了气阀容易卡)。
Sanctuary AI 的 Phoenix 不是软夹爪,但它的"液压驱动 + 软指尖"设计是把传统刚性手往软的方向拉的一种尝试。Geordie Rose(Sanctuary 创始人)在多次访谈里强调他们认为"灵巧操作不是更多自由度,是更聪明的接触",这个判断我倾向同意。
那么这一波 manipulation foundation models 在抓取这一段做得怎么样?
RVT / RVT-2(NVIDIA Goyal 等,2023-2024)走的是一种很取巧的思路:把 3D 场景渲染成几个虚拟视角的 2D 图像,让 transformer 在 2D 上做 token prediction,输出 grasp pose。这条思路在 RLBench 这种 benchmark 上很强,但 RLBench 是 sim,且任务都是已知物体。在真实分布外物体上这条线还没有大规模复现。
SuSIE(Berkeley Black 等,2024)是 image editing 当 subgoal 的思路:让一个 diffusion model 生成"下一秒应该是什么样"的 subgoal 图,再让低层 policy 去匹配。这条路在抓取段表现一般,因为生成的 subgoal 图对抓取细节(手指位置、握力)几乎没有约束。
ManiFM(清华孙富春组,2024)是 manipulation foundation model 一线少数从中国学界出来的认真工作,做的是从大量 sim 数据里学 manipulation primitive 的可迁移表示。在常见物体上效果还行,分布外掉得快。
Octo(Berkeley,2024)和 OpenVLA(Stanford,2024)这一线作为 generalist 模型,抓取段是它们的强项之一,因为 OXE 数据集里很多就是 pick-and-place。但你看 paper 里报告的 success rate,"already-seen objects in similar conditions" 是 70%+,"novel objects in novel scenes" 跌到 30-40%。这跟我们小组测出来的 47%/31%/18% 是一致的。
π0(Physical Intelligence,2024.10)和 π0-FAST(2025.02)在抓取段是当前 SOTA。π0 在折衣服这种 contact-rich 任务上的表现是真东西,部分得益于它的 flow matching 输出能给出比 diffusion 更平滑的接触力轨迹。但 π0 也没绕开分布外这个核心难题。它在 PI 自己挑选的演示场景里强,在第三方实验室里复现成功率会下降。Sergey Levine 在 2025 年初的一次访谈里也承认这一点,他说 π0 内部团队跑出来的成功率跟客户场地里跑出来的有时候差到 20 个点,这部分差距还没有干净的解释。
Helix(Figure,2025)把 grasp 段嵌进 system 1,论文里宣称在仓库取放任务上达到接近 100% 的稳定度。仔细读它的 setup,物体清单、光照、抓取角度都被收窄过,这跟 Covariant 在 bin picking 上做的事是同一类工程,不是抓取本身的突破。
GR00T N1(NVIDIA,2025.03)是另一条值得点出来的线。它走的是 humanoid-first 的 generalist policy,用大量 sim 数据加少量真实数据混训。NVIDIA 在 GTC 2025 上展示的 GR00T 抓取片段挑选过场景,在公开评测的 LIBERO 之类 benchmark 上数字漂亮,离家庭部署还差很远。
把这一波合在一起看:foundation models 把抓取的"风格"和"语义匹配"做得比经典栈好。它们没把"在分布外物体上稳定形成可靠接触"做得更好。这件事是物理问题,不是表征问题。模型再大,互联网视频里没有"装了一半水的玻璃杯被这只手以这个力度握住时杯口水位的实时变化"这种数据。这种数据只能在真机上花时间收,或者等仿真的接触建模再进步两个数量级。
我的立场。
"抓取在 2025 年解决了"是营销话术。它在以下狭义条件下是真的:单一 bin、已知 SKU、刚体、夹爪从上方接近、姿态自由、失败可重试。在这条边界之外,它没解。
bin picking 解了大约 90%。你可以认为这件事接近完成了,剩下 10% 是 long tail。
家庭抓取的成功率跨场景平均下来不到 50%。这个数字不是哪一篇 paper 写的,是把几家头部公司的真实部署数据(不是 demo 数据)平均下来的范围。装水的杯子、毛巾、塑料袋、装满食物的盘子,这几类东西成功率都在 20-50% 之间。
差距来自两件事。
一是分布外物体。世界上的物体远多于任何 teleop 数据集能覆盖的东西。这件事大概只能靠数据规模和互联网视频来缓解,但缓解不是解决。
二是接触动力学的 sim2real。变形物体、流体、粒状物(米饭、沙、面粉)的仿真到现在还是一塌糊涂。NVIDIA 的 Isaac Sim 4.0、MuJoCo MJX、Drake 这几款主流 sim 在刚体接触上已经够好,软体接触和流体接触还有一个数量级的差距。这件事不靠物理引擎本身的进展,单靠 VLA 端到端是不够的。Russ Tedrake 组在 Drake 上做的 hydroelastic contact 是当前最严肃的尝试之一,但它在毛巾这种薄壳上仍然跑得很慢。
第三件事容易被一起忽略,但同样重要:评估。一段 demo 抓 10 次成功 8 次叫 80% 成功率,但每一次的物体姿态、光照、接近角度如果都被人精挑过,这个数字毫无外推价值。第 9 章会专门讲怎么读 demo,这里只点一句:抓取这件事的成功率必须是同一份测试 protocol 在三家以上独立实验室复现出来的数字才作数。在那之前都是营销。
这件事怎么跟第 1 章那个判断尺接?
第 1 章说要看持续时间、接触敏感度、形变、子任务顺序、失败代价。抓取这件事在判断尺上是个矛盾的混合体。
抓取本身是一个 1-3 秒的接触敏感动作。形变物体上接触模式高度连续。这两条都强烈倾向端到端。
但抓取嵌在更大任务里:抓 → 移动 → 放,或者抓 → 倒 → 放回。这个外层是有顺序的子任务序列。这一段强烈倾向分层。
所以正确的架构是:抓取本身用 VLA 或专用 grasp policy 端到端做,但 grasping primitive 该被上层 LLM planner 调度。LLM 决定"现在要抓什么、为了什么目的、抓完之后下一步",VLA 在这个 30-90 秒的窗口里完整执行抓取段。
这个架构在 2025 年的工业部署里几乎是默认。Figure 的 Helix 把 grasp 段交给 system 1,把任务分解交给 system 2。1X 的 NEO 把抓取做成可调用的 skill,由上层 planner 调度。Physical Intelligence 内部的应用栈也是 LLM 在外,π0 在内。
不要试图让 VLA 一个人想清楚"为什么要抓这个杯子"。也不要试图用经典 grasp planner 处理装水的杯子。前者是越权,后者是越能力。
再补一条工程信号,对正在做家庭/服务机器人的团队特别有用:如果你现在抓取成功率卡在 50% 左右上不去,再加 5000 条 teleop 数据通常不会让你跨过 70%。能让你跨过去的更可能是三件事里的一件:上触觉、把任务拆出 LLM-planner 这一层、或者干脆把目标物体清单收窄到 50 件以内并接受这就是这一代产品的边界。这三条都是工程上的认怂,但在 2026 年的这个时间点,认怂比硬撑离上线更近。
练习¶
重新看那段你最熟悉的抓取 demo。把里面出现的物体一个个数出来。这些物体里有几个是刚体、几个是软的、几个是形变的、几个有姿态约束(握把手、握刀柄)?这段 demo 实际覆盖了"抓取问题"的多大一块?
找一段公司发的高成功率抓取数据(比如 Covariant 的 99%、某具身公司的 95%)。这个数字描述的是哪一类物体、什么 setup?把它的边界条件写下来三条。出了这三条边界,数据还成立吗?
把厨房抓取拆一遍。挑你家厨房里 20 个物体(盘子、勺、生鸡蛋、剥了一半的洋葱、一袋面粉、一个装着汤的碗、剪刀、保鲜膜……)。对每一个物体,写一句"它的抓取难点是什么"。哪些是现有 grasp planner 能搞定的、哪些是需要触觉的、哪些是需要任务上下文的、哪些是连人类都得想一下的?
对比触觉传感器。读 GelSight、DIGIT、ReSkin 三篇主要 paper 的 limitations 节。它们各自承认的失败模式是什么?这三种传感器分别更适合解决前面 20 个物体里哪几个?
下一章:第 5 章 导航