ICML 2024 | DecisionNCE：多模态表征预训练加速具身智能

具身智能作为通用人工智能（AGI）研究的重要目标，旨在让机器人能够执行人类通过自然语言描述的各类任务。视觉-语言-控制模型（VLCM）是实现这一目标的关键技术，它融合了视觉理解、语言理解和动作控制三个模态。然而，VLCM模型的训练面临着数据稀缺的挑战。

本文提出DecisionNCE，为利用无动作标签的分布外数据（action-free,out-of-domain）提高具身智能的问题提供了一种高效、优美、简洁的表征预训练方案，通过将机器人决策有用的信息提取到表征中，来加速下游具身智能的学习，降低其对训练数据的依赖。

一、端到端训练数据的稀缺问题

图1.端到端VLCM的缺点

直观地讲，语言模型（LM，LanguageModel）只考虑单一语言模态，视觉-语言模型（VLM，Vision-LanguageModel）需要考虑视觉和语言两个模态，而视觉-语言-控制模型（VLCM）则需要考虑视觉、语言和控制三个模态。因此，我认为在训练所需的数据量上，VLCMVLMLM

然而，从数据采集的难度而言，互联网存在海量的语言数据和视觉-语言数据，但视觉-语言-控制数据则需要人类通过示教系统日积月累采集得到。同时，人类专家的示教效率通常极低，例如我们采用的Bridgedatav2的VR示教方案经常会因为操作失误或硬件失灵等玄学问题导致示教失败。对比已有的VLCM、VLM和LM训练数据量，可以说VLCMVLMLM

因此，没数据一直是EmbodiedAI或者说RobotLearning最严重的问题之一。

二、多模态表征预训练：缓解数据稀缺问题的通用解决方案

为了解决数据稀缺的问题，一个通用的解决方案是：表征预训练（RepresentationPretrain）。其中经典的方法便是以CLIP为代表的对比学习方法。在互联网上，我们可以找到很多人类做家务(例如EPICK-KITCHEN还有Ego4D数据集)或其他机器人执行某项任务的视觉-语言数据（例如，Open-Xembodiment数据，还有最近出的DROID数据）。虽然这些数据没有明确的动作标签（actionlabel）无法直接用于策略的学习，并且这些数据中的机器人形态和我们待训练的机器人可能大不相同，存在很严重的跨域偏差（cross-domaingap）。

然而，这些数据中已经蕴含有大量的有用信息，对机器人的策略学习可能起到很强的促进作用。例如，通过观察这些视觉-语言数据，机器人可以提前了解到大量任务（languageinstruction）看起来（vision）是长什么样子的；同时，这些数据会提供给机器人丰富的contact-rich的物理信息，例如“杯子掉落后会碎”、“推物体会让物体移动”、“拉柜子会把柜子拉开”等物理规律，这些都是对机器人决策非常有用的信息。倘若我们可以利用海量的、易收集的、分布外的视觉-语言数据（例如人类做家务的数据）预训练一个以机器人策略学习为核心的视觉-语言表征（vision-languagerepresentation），从中提取出这些有助于机器人策略学习的有用信息，那将在很大程度上缓解robotlearning对数据的依赖。

图2.Vision-languagePretrain,vision-language-controlfinetune的样本高效robotlearning

图3.机器人多模态表征预训练的挑战三、DecisionNCE：一种decision-centric的多模态表征预训练方法
3.1Bradley-TerryModel

在RLHF中，Bradley-Terry(BT)model通常用于奖励函数的训练。其优化目标如下所示：

式1.Bradley-Terrymodel

其中，比上每一个单帧转移上的奖励总和，进而BTmodel就可以拟合人类偏好，完成奖励函数的学习。由此可见，BTmodel本质上就是在进行一种轨迹级的对比学习。因此，如果我们能想个办法，巧妙地把视觉表征和语言表征融入到BTmodel的优化目标中，那不就意味着我们实现了轨迹级的多模态表征预训练，不正是我们想做的事情！

式2.基于Bradley-Terrymodel的多模态表征学习框架

但是，想直接把BTmodel拓展到表征学习的任务中，仍有几个问题需要解决：

1.偏好标签从哪来？BTmodel的训练需要给出海量的人类偏好标注，但已有的数据并没有这样的标注。

3.如何建模奖励函数？在上式中，奖励函数是一个关于视觉表征𝜙和语言表征𝜓的奖励函数，但到底是什么形式我们仍没有给出明确的定义。一个好的建模方式可能会产生事半功倍的效果，显著提高表征学习的能力。

3.2隐式偏好标注

图4.隐式人类偏好3.3随机片段采样3.4奖励重参数化

最后，针对如何建模奖励函数的问题，DecisionNCE给大家提供了一个非常通用的优化框架，理论上可以兼容任意的奖励函数建模方式，在文中我们为大家提供了两种简单高效的重参数化方法：DecisionNCE-P和DecisionNCE-T。

图5.DecisionNCE-P和DecisionNCE-T

DecisionNCE-P

首先，我们采用了一种非常经典的奖励函数建模方法：Potential-basedReward：

式3.Potential-basedReward重参数化

式中，

和片段尾两帧相对语言指令推远语言表征，并逐渐将后续的视觉表征拉近语言表征，如图5(a)所示。

式5.DecisionNCE-P对应的BTmodel

DecisionNCE-T

观察DecisionNCE-P的优化目标，可以发现DecisionNCE-P理论上只有最后帧的视觉表征和语言表征处在最近的位置，如图5（a）所示。这样做，无疑是引入了一个可能不太合适的inductivebias(归纳偏置)：最后帧和语言指令更匹配，最开始帧和语言指令不匹配。然而我们在第1章重点强调过，一个语言指令代表的不是某一帧静态图片，而是一种从状态A到状态B的动态变化过程！很显然DecisionNCE-P并不能特别好地引入该inductivebias，那么为了解决这个问题我们提出了DecisionNCE-T，采用了一种新的奖励函数重参数方式：Transition-directionReward：

将其代入式2中得到的DecisionNCE-T如下所示：

式7.DecisionNCE-T对应的BTmodel

其中，为余弦相似度。注意此处的余弦相似度计算的是视觉表征之差和语言表征之间的相似度。如图5(b)所示，在此一个语言指令代表的不再对应某一帧静态图片，而是类似由所表示的表征空间的一个转移方向。在此定义下，就算某一帧静态图片的视觉表征距离语言表征非常远，但只要他向后转移的方向和语言表征相似，那我们就认为这个视觉转移是正确的。例如还是“开冰箱”的任务，人的手从远离冰箱的位置逐渐靠近冰箱门也可以是认为在尝试打开冰箱的一个子任务。

最终，我们DecisionNCE的整体framework如图所示。

图6.DecisionNCE的framework3.5分析

图7.隐式时序对比学习

和语言表征拉近，将结束帧和语言表征推远。这乍一看非常不合理，因为和极大概率毫不相关，比如是“开冰箱”而是“拿起锅”的某一帧。这样粗暴地将两个毫不相关的和拉近无疑会导致奇怪的结果，看起来像是优化“错”了。

但是！这样“错误”的优化目标实际会导出很有趣的表征结构。注意不是和某一个单一的拉近，而是和几乎所有的拉近，因为一个的任务信息都非常模糊。

就应该被拉到所有语言指令的“中间地带”。然而像VIP和LIV这样的前序工作，为了保证表征空间的紧致性，通常将和匹配的语言指令拉近，这才是真正地将一些毫不相关的表征强行拉到一起。

四、实验

在本文中，我们通过在人类做家务（EPICK-KITCHEN-100）数据集上预训练好DecisionNCE-P/T，随后针对冻结的表征开展下游实验测试。

4.1全局/时序信息提取

4.2实物/仿真机械臂实验

我们将训练好的表征引入极少量的下游机械臂数据进行语言条件的行为克隆（Language-conditionedbehaviorcloning，LCBC)学习。包含真机实验（测评了抓放（pickplace），挪动(move)，开(open)，关(close)，叠(flod)，摆正(flip)五个机械臂操作的基础技能，涵盖9个子任务）和FrankaKitchen仿真实验（5个子任务）。其中，FrankaKitchen所用的示教数量极其稀少，每个任务仅有1条，3条，或5条示教。要知道如果没有预训练好的表征支持，仅通过如此少的数据学习出好的策略是不可能的。

图10.真机/仿真实验环境

图11.真机LCBC实验结果

图12.仿真LCBC实验结果

无论是真机还是仿真的实验结果，都说明DecisionNCE-P/T都可以有效地提高下游模仿学习的学习效率，降低对示教数据的依赖。其中，从仿真结果可以看出，仅有1条示教数据时，DecisionNCE-P/T都可以达到近15%的成功率。

4.3通用奖励函数

图13.DecisionNCE-P/T的奖励函数可视化结果

DecisionNCE-P/T奖励函数的MPPI规划能力。更进一步，我们可以利用DecisionNCE-P/T提供的奖励函数直接进行zero-shot的planning规划测试，即在仿真器中rollout出很多轨迹，然后挑选出预计奖励函数最大的那个轨迹的第一个动作执行。随后不断循环重复，测试MPPI规划的成功率，成功率高则反映出奖励函数的准确性高。我们测试了DecisionNCE-P/T奖励函数的zero-shot能力，发现可以在FrankaKitchen的5个任务上有惊人的10%以上的平均成功率。后期有更多的数据后，我相信DecisionNCE-P/T可以提供在更多的场景提供更准确的universalrewards，解决奖励函数难以设计的问题。

4.4Scaling能力

除此之外，我们还初步扩大了DecisionNCE-T预训练的数据量，引入了OpenX-embodiment的数据。在仿真LCBC的结果显示通过引入更多的预训练数据，DecisionNCE-T可以进一步显著提高下游策略的表现（成功率从34.7%提高到41.4%）。因为这一系列消耗资源过大，所以我们仍在进一步探索中，目前还没有补充到arxiv中。

五、结论

llustrationFromIconScoutByKawalanStudio

-The-

扫码观看！

本周上新！

“AI技术流”原创投稿计划

投稿内容

//最新技术解读/系统性知识分享//

//前沿资讯解说/心得经历讲述//

投稿须知

稿件需要为原创文章，并标明作者信息。

我们会选择部分在深度技术解析及科研心得方向，对用户启发更大的文章，做原创性内容奖励

投稿方式

发送邮件到

melodybai@

关于我“门”

▼

将门是一家以专注于数智核心科技领域的新型创投机构，也是北京市标杆型孵化器。公司致力于通过连接技术与商业，发掘和培育具有全球影响力的科技创新企业，推动企业创新发展与产业升级。

将门成立于2015年底，创始团队由微软创投在中国的创始团队原班人马构建而成，曾为微软优选和深度孵化了126家创新的技术型创业公司。

如果您是技术领域的初创企业，不仅想获得投资，还希望获得一系列持续性、有价值的投后服务，欢迎发送或者推荐项目给我“门”:

ICML 2024 | DecisionNCE：多模态表征预训练加速具身智能

相关阅读

涨知识：为什么我国的求救电话不是999？

小米官方授权90W快充，安克智显充Lite100W充电器拆解

最高3899元！荣耀90系列价格公布两款手机怎么选？

三星Galaxy Z Flip6评测：简约设计与实用体验，小折的版本答案来了？！

相关阅读

涨知识：为什么我国的求救电话不是999？

小米官方授权90W快充，安克智显充Lite100W充电器拆解

最高3899元！荣耀90系列价格公布 两款手机怎么选？

三星Galaxy Z Flip6评测：简约设计与实用体验，小折的版本答案来了？！

友情链接

最高3899元！荣耀90系列价格公布两款手机怎么选？