Meta刚在SIGGRAPH上推出了其 “分割一切AI” 的第二代——SAM2,不仅能实时处理任意长度的视频,连视频中从未见过的物体也能轻松分割追踪。
更重要的是,Meta决定开源SAM2的代码、权重和数据集,这意味着任何人都可以免费使用这项前沿技术。
SAM2的核心升级包括支持任意长视频的实时分割、零镜头泛化、分割和追踪准确性的提升,以及遮挡问题的解决。
此外,SAM2通过引入流式记忆机制,大大提升了视频分割的准确性和效率。
而且,自家数据集SA-V的规模远超过当前最大同类数据集,有51000个真实世界视频和超过600000个时空掩码。
这次开源,无疑将推动视频分割技术以及相关应用领域的快速发展。
3 个月前
AI 国际简讯 2025年02月18日 微软发布OmniParser V2.0工具,用于识别和解析屏幕上的可交互图标,新版本提升交互图标解析能力。 Meta Reality Labs 的研究团队推出"Pippo"模型,可从普通照片生成1K分辨率的多视角视频。 苹果将在Vision Pro头戴设备中推出Apple Intelligence系统,提供书写工具、Genmojis表情和图像功能。 JetBrains更新"AI Assistant"应用,支持本地大语言模型调用,可直接使用DeepSeek等离线模型。
5 个月前
12月6日,Meta AI推出了新开源模型Llama 3.3 70B。 Meta AI副总裁Ahmad Al-Dahle在社交媒体平台发布的一篇帖子中表示,这款仅支持文本的Llama 3.3 70B模型与Meta最大型模型Llama 3.1 405B的性能相当,但运行起来更简单、更经济高效。
8 个月前
AI视频生成模型的主要技术原理包括多种深度学习和机器学习技术,尤其是生成对抗网络(GANs)、变分自编码器(VAEs)和自然语言处理(NLP)。
8 个月前
语言大模型(LLM)能够生成图片和视频的能力主要依赖于其多模态学习和生成技术。
9 个月前
Meta的Transfusion模型代表了多模态AI领域的一个重要进展,成功地将Transformer架构与扩散模型(Diffusion models)结合起来,实现了对文本和图像的统一处理和生成。
10 个月前
Meta推出了其 “分割一切AI” 的第二代——SAM2,不仅能实时处理任意长度的视频,连视频中从未见过的物体也能轻松分割追踪。
10 个月前
据称,Llama3.1开源大模型的表现能力优于ChatGPT-4o。