Facebook 改名后不久,其在官方博客中概述了其在开发硬件、模拟器、库、基准测试和数据集等方面的进展,想必扎克伯格推崇的元宇宙离不开这些技术的支持。
几天前,在 Facebook Connect 2021 线上大会中,扎克伯格正式宣布了 Facebook 的新名字——Meta。扎克伯格表示:「随着时间的推移,我希望我们被视为一家元宇宙公司」。此处的元宇宙本质上是一个虚拟现实平台,人们可以在这个平台上的数字环境中聚集、交流。实现这一愿景,当然离不开技术的加持。
就像改名一样始料未及,几年前扎克伯格曾认为 Facebook 没有理由要进行机器人方面的研究,但现在机器手上的触觉感知已经是 Meta 一个重要的新兴研究方向。
触觉感知旨在理解和复制物理世界中人类的触摸技能,使机器人更有效地与周围世界互动。触觉感知的进步将导致 AI 可以学习和使用自己的触觉以及与其他感知方式(如视觉和音频)结合使用,就像人类一样。此外,提高机器人的触觉将使它们更有能力,也更温和、更安全。
就在近日,Meta 概述了其在开发硬件、模拟器、库、基准测试和数据集方面的进展。触觉感知生态系统对于构建 AI 系统至关重要,通过触觉感知,AI 系统才具有理解和交互的功能。
具有触觉感知的机械手可以轻松的抓取鸡蛋:
左边没有触觉感知的机械手把鸡蛋捏碎了:
Meta 这项触觉感知上的进步得益于 DIGIT 传感器和一种名为 ReSkin 的触摸感应「皮肤」。现在 Meta 对这两项技术进行了详细的介绍。
硬件
让 AI 能够使用触觉数据并从中学习,首先需要能够收集和处理这些数据的传感器。理想情况下,触摸感应硬件应该模拟人类手指的许多属性。一方面,用于机器人指尖的传感器应该相对紧凑。这需要先进的小型化(miniaturization)技术,这些技术的生产成本非常高,并且通常超出了大多数学术研究的能力范围。另一方面,这类传感器需要承受因反复接触表面而造成的磨损。此外,触摸传感器还需要具有高分辨率,以测量有关被触摸对象的丰富信息,例如表面特征、接触力以及通过接触可识别的其他对象属性。
安装在机械手上的 DIGIT 传感器操纵玻璃弹珠。
为了提供一种专为机器人手动操作设计、易于构建、可靠、低成本、紧凑且高分辨率的触觉传感器,Meta(Facebook)在 2020 年发布了 DIGIT 的完全开源设计。与目前可用的商用触觉传感器相比, DIGIT 的制造成本要低得多,并且提供了数十万个接触点,大大提升了它的研究和使用价值。
作为 Meta AI 的合作伙伴,MIT 的衍生公司 GelSight 拥有独特的数字触觉传感技术和产品,现在将商业化制造 DIGIT。商用 DIGIT 将为更多研究人员提供触摸感应方面的便利,加快学术研究的进步。如果要制造 1000 个 DIGIT 传感器,那么每个 DIGIT 传感器的材料成本大约只有 15 美元,因此 Meta 的团队预计商用版 DIGIT 的成本不会太高。
除了 DIGIT,Meta AI 的研究者还和卡内基梅隆大学(CMU)合作开发了一种开源的触摸感应「皮肤」ReSkin,外形小巧,可以帮助机器人和其他机器在更大的表面上学习高频触觉。和 DIGIT 一样,ReSkin 旨在打造一个开源、强大且成本极低的系统,让研究人员能够专注于开发软件以帮助机器人感知触觉,而不必在硬件上浪费时间。
ReSkin 本身是一块 2 毫米厚的柔性硅胶片,其中混有磁性颗粒。每当有东西接触该胶片使其变形时,嵌入其中的磁性颗粒就被压扁,磁信号发生变化,由磁力计拾取。因此,ReSkin 不必直接与磁力计相连。这使得 ReSkin 传感器中最有可能损坏的部分变得非常容易更换,这也是 ReSkin 的优势所在。
ReSkin 可以帮助研究人员快速、大规模地提高他们的 AI 触觉感应技能。利用机器学习和磁感应方面的进步,ReSkin 具有廉价、多功能、耐用且可替换的优点。它采用自监督学习算法来帮助自动校准传感器,使其具有通用性并使得传感器和系统能够共享数据。
模拟
Meta 开发并开源了 TACTO,这是一种基于视觉的高分辨率触觉传感器模拟器,即使在没有硬件的情况下,也可实现更快的实验平台并支持机器学习研究。模拟器在机器人技术的原型设计、调试和基准测试中发挥着重要作用,因为模拟器使我们能够测试和验证假设,而无需在现实世界中进行耗时的实验。
TACTO 能够以每秒数百帧的速度呈现逼真的高分辨率触摸读数,通过简单设置来模拟基于视觉的触觉传感器,其中包括 DIGIT、OmniTact。TACTO 使研究人员能够模拟基于视觉的触觉传感器,这些传感器具有不同的形状,可以安装在不同的机器人上。TACTO 和 DIGIT 通过提供低成本的参考实施,使研究者能够快速原型化多模态机器人操作策略,从而实现基于视觉的触觉感知。
类似于 DIGIT 这样的触觉传感器可以处理高维和触觉感知数据,这是传统分析方法难以处理的。机器学习 (ML) 模型可以简化模型的设计和实现,这些模型可以将原始传感器读数转换为高级属性(例如,检测滑动和识别材料)。但是,如果没有 ML 背景,训练一个模型来处理触觉数据是极具挑战性的。为了提高代码的复用率并减少部署时间,Meta 创建了一个名为 PyTouch 的触觉感应 ML 模型和功能库。
研究人员通过 PyTouch 可以跨不同传感器训练和部署模型。它目前提供了一些诸如检测触摸、滑动(slip)、估计物体姿态等基本功能。最终,PyTouch 将与现实世界的传感器和触觉传感模拟器集成,以实现模型的快速验证以及 Sim2Real 功能(能够将在模拟中训练的概念转化为实际应用。)
PyTouch 启用了一种基于学习的方法来构建应用程序,这使得更多的研究者可以使用触觉处理功能。OpenCV 、 Detectron2 等预训练模型库为计算机视觉研究人员提供了最先进的技术,而无需从头开始创建和训练模型。同样的,PyTouch 的目标是授权更广泛的研究社区,使得在其应用程序中使用更多的触觉。
基准和数据集
触觉传感器和模拟器的可用性为多个层级的指标和基准铺平了道路。在硬件层面,现有的基准和数据集,可以用来评估传感器的设计选择;在感知层面,可以使用基准来比较不同的 ML 模型在不同的触觉感知用例中的作用;在机器人控制层面,现在可以在模拟和现实世界中对主动控制任务(例如手动操作)中的触摸进行基准测试等 。尽管研究者在启用系统测量方面取得了进展,但我们应该努力定义和发布可以指导更广泛社区取得更可衡量进展的指标和基准,我们仍然需要仔细调查这些不同的层级以及它们之间的相互作用。