Meta Segment Anything Model 2(SAM 2)是 Meta 推出的下一代对象分割模型,它支持视频和图像中的对象分割。

SAM 2 的主要特点和优势包括:

  • 统一模型:是首个能在图像和视频中进行实时、可提示对象分割的统一模型。
  • 性能提升:图像分割精度超越以往,视频分割性能优于现有工作,交互时间减少了三倍。
  • 零样本泛化能力:能够分割任何视频或图像中的对象,包括以前未见过的对象和视觉域,无需进行自定义调整。
  • 快速推理:使用时感觉几乎是实时的,大约每秒 44 帧。
  • 数据支持:Meta 为训练 SAM 2 构建了 SA-V 数据集,这是迄今为止最大的数据集,包含约 5.1 万个视频和 64.3 万个时空分割掩码,收集了来自 47 个国家/地区真实世界场景的视频,其标注涵盖整个物体、部分物体、物体被遮挡、消失和重新出现等挑战性实例。
  • 广泛应用:其输出可与生成式视频模型结合以创建新的视频效果和创意应用;能加快视觉数据标注工具的开发,用于训练更好的计算机视觉系统;还可在许多需要实时反馈的应用场景中发挥作用,如自动驾驶、医学、视频拍摄剪辑、监控等。
  • 开放科学:Meta 以 Apache 2.0 许可发布了 SAM 2,允许任何人使用它来构建体验;以 CC BY 4.0 许可共享了用于构建 SAM 2 的 SA-V 数据集;并发布了基于网络的演示体验,供用户试用模型的一个版本。

SAM 2 采用了流式架构和记忆机制等技术。流式架构是 SAM 到视频领域的自然泛化,可实时处理任意长度的视频;记忆机制则可以存储对象的交互信息和之前处理过的信息,使模型能够在整个视频中实现预测行为,并能根据存储的对象记忆上下文有效地纠正预测。

不过,SAM 2 也存在一些局限性,例如在处理长时间遮挡、拥挤场景或快速移动物体时可能会丢失对象跟踪或混淆物体,在分割多个对象时效率会降低等。但这些情况可以通过人为干预提供细化提示来解决。

总的来说,SAM 2 的发布是 Meta 在开放科学和人工智能领域的重要进展,它有可能成为更大 AI 系统的一部分,推动对世界的多模态理解,并在工业和创意领域有着广泛的应用潜力。

免责声明:本网站仅提供网址导航服务,对链接内容不负任何责任或担保。
相关资讯