导读人类探索世界所依赖的两种重要感官是视觉和触觉。人类可以结合视觉和触觉来知道他们拿着和看到的是什么物体。机器人和人工智能系统无法做到

人类探索世界所依赖的两种重要感官是视觉和触觉。人类可以结合视觉和触觉来知道他们拿着和看到的是什么物体。机器人和人工智能系统无法做到这一点。来自麻省理工学院的研究员 Yunzhu Li 和他的团队正在开发一个系统,帮助机器人在被编程为视觉或感觉时弥合它们的感官差距。

该团队提出了一个系统,该系统可以从视觉输入中创建触觉信号,并通过这些触觉输入预测正在触摸哪个物体和哪个部分。研究人员将他们的系统与 KUKA 机器人手臂和另一个麻省理工学院团队设计的名为 GelSight 的特殊触觉传感器一起使用。

该团队使用网络摄像头记录了近 200 个物体,包括工具、家居用品、织物和其他被触摸超过 12,000 次的物体。然后,他们将这 12,000 个视频剪辑分解为静态帧,并编译了一个包含超过 300 万张视觉/触觉配对图像的 VisGel 数据集。

科学家们说,通过观察场景,他们的模型可以想象触摸平坦表面或锋利边缘的感觉。李说,通过盲目地触摸周围,该模型可以从纯粹的触觉来预测与环境的交互。他指出,通过将两种感官结合在一起,它们可以增强机器人的能力并减少涉及操纵和抓取物体的任务所需的数据。

该团队开发的系统使用生成对抗网络或 GAN。GAN 使用视觉或触觉图像以其他方式生成图像。他们使用相互竞争的生成器和鉴别器,其中生成器旨在创建真实的图像来欺骗鉴别器。每次判别器捕获生成器时,它都必须公开决策的内部推理,并允许生成器进行改进。未来,该团队的目标是使用在更多非结构化领域收集的数据来改进其系统。