AIxiv专栏是机器之心发布学术、时期本色的栏目。畴昔数年,机器之心AIxiv专栏继承报说念了2000多篇本色,掩盖群众各大高校与企业的顶级施行室安捷影音播放器下载,有用促进了学术疏浚与传播。淌若您有优秀的责任想要共享,迎接投稿能够权衡报说念。投稿邮箱:liyazhou@jiqizhixin.com;zhaoyunfeng@jiqizhixin.com
本文第一作家为斯坦福大学磋商生蔡闻骁,此前,他以绩点第别称的收货在东南大学取得学士学位。他的磋商好奇艳羡为多模态大模子、具身智能。此责任为其在探询和北京智源东说念主工智能磋商院实习期间完成,导师为本文通信作家赵波诠释。
此前,李飞飞教悔建议了空间智能 (Spatial Intelligence) 这一见解,手脚回报,来自上交、斯坦福、智源、北大、牛津、东大的磋商者建议了空间大模子 SpatialBot,并建议了历练数据 SpatialQA 和测试榜单 SpatialBench, 尝试让多模态大模子在通用场景和具身场景下结伙深度、结伙空间。
论文标题: SpatialBot: Precise Depth Understanding with Vision Language Models论文聚积: https://arxiv.org/abs/2406.13642名目主页: https://github.com/BAAI-DCAI/SpatialBot
在具身智能的 pick and place 任务中,需要判断机械爪是否遇到了打算物体。淌若遇到,则不错合上爪子捏取。关联词,在这个 Berkerly UR5 Demonstration Dataset 场景中,即使是 GPT-4o 或东说念主类,都无法从单张 RGB 图像中判断机械爪是否遇到了打算物体,比如借助深度信息,将深度图径直给 GPT-4o 看的话,也无法判断,因为它不可结伙深度图。
SpatialBot 通过对 RGB-Depth 的结伙,不错准确得到机械爪和打算物体的深度值,从而产生对空间见解的结伙。
具身场景的 SpatialBot Demo:
1. 以东说念主 (相机) 的视角,捏取右侧的茶杯
2. 捏取最中间的茶杯
视频聚积:https://mp.weixin.qq.com/s?__biz=MzA3MzI4MjgzMw==&mid=2650929304&idx=4&sn=906cb76e1014596f6aede719086eba5d&chksm=84e43ce6b393b5f05c11dcd7bbd0fc5b0ab428af6e0c2ab8bbd7b212f281be3731895e2529e3&token=1689653070&lang=zh_CN#rd
手脚走向具身智能的必要旅途,若何让大模子结伙空间?
点云比较贵,双目相机在使用中需要经常校准。比较之下,深度相机价钱不错领受、使用范围广。在通用场景中,即使莫得这样的硬件成立,大鸿沟无监督历练过的深度臆测模子如故不错提供较为准确的深度信息。因此,作家建议,使用 RGBD 手脚空间大模子的输入。
当今的时期阶梯存在什么问题?
现存模子无法径直结伙深度图输入。比如,图像编码器 CLIP/SigLIP 在 RGB 图像上历练,莫得见过深度图。现存大模子数据集安捷影音播放器下载,大多仅用 RGB 就不错分析、回答。因此,淌若只是简便的将现存数据改为 RGBD 输入,模子不会主动到深度图中索引常识。需要挑升设想任务和 QA,教唆模子结伙深度图、使用深度信息。
三个线索的 SpatialQA,逐步教唆模子结伙深度图、使用深度信息
若何教唆模子结伙和使用深度信息,结伙空间?
作家建议具有三个线索的 SpatialQA 数据集。
在 low level 教唆模子结伙深度图,教唆从深度图径直获取信息;在 middle level 让模子将 depth 与 RGB 对都;在 high level 设想多个深度权衡任务,标注了 50k 的数据,让模子在结伙深度图的基础上,使用深度信息完成任务。任务包括:空间位置关连,物体大小,物体斗争与否,机器东说念主场景结伙等。
示例对话
SpatialBot 包含什么?
1. 鉴戒 agent 中的念念想,SpatialBot 在需要时,不错通过 API 获取准确的深度信息。在深度信息获取、遐迩关连比较的任务上,不错达到 99%+ 的准确率。
2. 针对空间理罢免务,作家公布了 SpatialBench 榜单。通过全心设想和标注 QA,测试模子深度结伙能力。SpatialBot 在榜单上展示了和 GPT-4o 接近的能力。
模子若何结伙深度图?
1. 输入模子的深度图:为了兼顾室内室外任务,需要脱色的深度图编码方法。室内的捏取、导航任务可能需要毫米级的精确度,室外的场景不需要这样精确,却可能需要 100 米以上的深度值范围。传统视觉任务中会用 Ordinal Encoding 来编码,关联词 ordinal 的值无法进行加减运算。为了尽可能保留所有这个词深度信息,SpatialBot 径直使用以毫米为单元的 metric depth,范围为 1mm~131m,使用 uint24 或三通说念的 uint8 来保留这些值。
2. 为了精确的获取深度信息,鉴戒 agents 中的念念想,SpatialBot 在觉得有必要的时期,会以点的体式调用 DepthAPI,获取准确的深度值。若想获取物体的深度,SpatialBot 会先念念考物体的 bounding box 是什么,然后用 bounding box 的中心点调用 API。
3. SpatialBot 使用物体的中心点、深度平均、最大和最小四个值来刻画深度。
SpatialBot 和 DepthAPI 架构
SpatialBot 在通用场景和具身场景恶果若何?
1. SpatialBot 基于 3B 到 8B 的多个 base LLM。通过在 SpatialQA 中学习空间常识,SpatialBot 在常用 MLLM 数据集 (MME、MMBench 等) 上相同展示了显耀的恶果普及。
2. 在 Open X-Embodiment、作家网罗的机器东说念主捏取数据等具身任务上,SpatialBot 相同展示了惊东说念主恶果。
SpatialBot 通用场景对比施行
数据若何标注?
全心设想了对于空间结伙的问题,比如深度、遐迩关连、高下傍边前后位置关连、大小关连,况且包含了具身中的蹙迫问题,比如两个物体是否斗争。
在测试集 SpatialBench 中,最初东说念主工念念考问题、选项和谜底。为了扩大测试集大小,也使用 GPT 以相同的经过标注。
历练集 SpatialQA 包含三方面:
径直结伙深度图,让模子看深度图,分析深度的分歧,想到其中可能包含的物体;空间关连结伙和推理;机器东说念主场景结伙:刻画 Open X-Embodiment 和本文网罗的机器东说念主数据中的场景、包含的物体、可能的任务,并东说念主工标注物体、机器东说念主的 bounding box。
空间关连结伙
偷拍自拍Open X-Embodiment 机器东说念主场景结伙
深度图结伙。在使用 GPT 标注这部分数据时,GPT 会先看到深度图,刻画深度图、推理其中可能包含的场景和物体,然后看到 RGB 图,筛选出正确的刻画和推理。