考虑到许多机械臂上都配备有深度相机,能够提供精准的深度信息,因此他们计划训练一个面向具身智能的、能够同时理解 RGB+D 信息的多模态模型。