2月18日,阶跃星辰联合吉利汽车集团开源了两款阶跃Step系列多模态大模型——Step - Video - T2V视频生成模型和Step - Audio语音模型,采用MIT协议,支持免费商用、任意修改
2 个月前
Adobe 最近推出了全新的 AI 视频生成工具 Firefly Video Model,这一工具旨在通过人工智能技术帮助用户快速生成高质量的视频内容。以下是关于该工具的主要功能和特点: 1. 核心
2 个月前
Covision Lab专注于计算机视觉和机器学习的公司,致力于将最先进的技术应用于工业领域的挑战,包括制造业、电子商务、印刷、农业和移动性等行业。
7 个月前
AI视频生成模型的主要技术原理包括多种深度学习和机器学习技术,尤其是生成对抗网络(GANs)、变分自编码器(VAEs)和自然语言处理(NLP)。
7 个月前
本文推荐了想为博客网站制作插图,特别是以文字为主的插图图片制作工具。
8 个月前
Fal.ai通过为生成模型提供最快的推理,使开发人员能够创建响应式、沉浸式且经济高效的体验。
8 个月前
复制 Codeformer 涉及几个步骤,包括收集大量代码和自然语言对的数据集、预处理数据以及微调转换器模型。有几种开源工具和库可用于帮助完成这些任务,包括 Hugging Face 的 Transf
8 个月前
通义语音团队开源了语音基座大模型:SenseVoice和CosyVoice。
8 个月前
英伟达在AI和计算领域的多项创新应用与解决方案,涵盖了从数字人类构建、生成式AI集成、到药物发现模拟等多个方面。
8 个月前
Motiff 妙多大模型是全球首个由 UI 设计工具企业研发的大模型。
8 个月前
Seed-TTS:一种高质量多功能语音生成模型
8 个月前
DALL·E 2可以根据文本生成图像以及对现有图像进行编辑等。DALL·E 3相比DALL·E 2在生成的图像质量、对提示词的理解、上下文理解、处理复杂任务等方面有提升。
8 个月前
Meta推出了其 “分割一切AI” 的第二代——SAM2,不仅能实时处理任意长度的视频,连视频中从未见过的物体也能轻松分割追踪。
9 个月前
语音视觉技术是一种结合了语音识别和计算机视觉的交叉学科技术,通过分析和理解人类语言以及视觉信息,实现人机交互和智能处理。
9 个月前
AI 中的语音视觉技术是人工智能领域的重要组成部分。语音技术包括语音识别、语音合成、声纹识别等子领域。例如,语音识别技术能将人类语音信号转换成对应的文本或命令,如今已广泛应用于语音助手、自动驾驶、智能
9 个月前
语音视觉技术在教育、医疗、交通、娱乐等多个领域的应用将越来越广泛,为人们的生活和工作带来更多的便利和创新。
9 个月前
PaddleOCR 是基于飞桨深度学习开源框架的文字识别开发套件,添加了许多 PaddleOCR 算法模型挑战赛冠军方案。 PaddleOCR目前不仅提供了通用场景下的中英文模型,也提供了专门在英文场
9 个月前
NVIDIA Omniverse™ 提供 API和SDK , 开发者可以轻松地将通用场景描述 (OpenUSD) 和 RTX 渲染技术集成到现有软件工具和仿真工作流中,以构建 AI 系统。
9 个月前
InVideo 是一款适合任何技能水平用户的完美 AI 视频创建器和编辑器。借助现成的模板,可快速轻松地自定义视频。
10 个月前
最新评论