最近,Meta AI 公司宣布推出了人工智能技术的最新突破,旨在实现能够执行具有挑战性的感官运动技能的通用目的体现 AI 代理:人工视觉皮层(称为 VC-1)。这是首次支持多种感官运动技能、环境和体现形式的单一感知模型。它是第一款模拟人类视觉皮层的人工智能模型。VC-1 的出现对于人工智能发展极具意义,代表着人工智能向模拟人类智能又迈进了一大步。

打开网易新闻 查看更多图片

为了训练 VC-1,Meta AI 构建了一个开创性的数据集 Ego4D。该数据集包含了 2100 小时的第一人称视角视频,记录了人类做饭、打扫、运动等日常活动。这些沉浸式的视觉数据使 VC-1 学会感知复杂环境,理解物体运动,判断人体姿态。

VC-1 的独特之处在于它模拟了人脑视觉皮层的结构和计算原理。人脑视觉皮层包含上百亿个神经元,负责处理和分析视觉输入。VC-1 参考视觉皮层的结构,使用数十亿个参数,可以对各种视觉环境做出灵活的感知和理解。

打开网易新闻 查看更多图片

此外,VC-1 通过预训练超过 4000 小时的视频数据,获得了强大的视觉理解能力。不同于仅针对单一任务进行训练的模型,它作为一个统一的系统,支持多种视觉能力,包括物体识别、场景分割、姿态估计等。在 Meta AI 的测试中,VC-1 在这些任务上的表现达到或超过了专门训练的模型。

打开网易新闻 查看更多图片

VC-1 的出现带来的影响深远。它不仅推进了对人类视觉系统的理解,也为研发更通用智能的人工智能系统提供了宝贵经验。VC-1 展示了通过模拟人脑结构实现通用智能的可能性。

名称诠释

Ego4D 数据集:是一个规模巨大、多样性前所未有的以自我为中心的数据集。它由 923 名来自 9 个不同国家 74 个世界各地的独特参与者收集的 3670 小时视频组成。该项目汇集了 88 名研究人员,组成了一个国际联盟,将公开可用的以自我为中心的数据的规模大大提高了一个数量级,使其比任何其他数据集在视频小时数方面多出 20 倍以上。Ego4D 旨在催生第一人称视觉感知研究的下一个时代。部分视频伴随着音频、环境的 3D 网格、眼球注视、立体声和/或来自同一事件的多个以自我为中心的摄像头的同步视频。