语音视觉 - AI平台 | AI工具集｜AI资讯站

YOLO 计算机视觉目标监测算法
YOLO（You Only Look Once），这确实是目前计算机视觉领域最热门、应用最广泛的目标检测算法之一。简单来说，如果把计算机看作一个学生，传统的检测算法像是让学生“拿着放大镜，一点点扫描
4 个月前
阶跃星辰开源两款多模态模型 -- Step - Video - T2V 和 Step - Audio
2月18日，阶跃星辰联合吉利汽车集团开源了两款阶跃Step系列多模态大模型——Step - Video - T2V视频生成模型和Step - Audio语音模型，采用MIT协议，支持免费商用、任意修改
1 年前
Adobe推出全新 AI 视频生成工具：Firefly Video Model
Adobe 最近推出了全新的 AI 视频生成工具 Firefly Video Model，这一工具旨在通过人工智能技术帮助用户快速生成高质量的视频内容。以下是关于该工具的主要功能和特点： 1. 核心
1 年前
CovisionLab：工业领域的计算机视觉和机器学习
Covision Lab专注于计算机视觉和机器学习的公司，致力于将最先进的技术应用于工业领域的挑战，包括制造业、电子商务、印刷、农业和移动性等行业。
1 年前
AI 视频生成模型的主要技术原理是什么？
AI视频生成模型的主要技术原理包括多种深度学习和机器学习技术，尤其是生成对抗网络（GANs）、变分自编码器（VAEs）和自然语言处理（NLP）。
1 年前
以文字为内容的图片生成工具
本文推荐了想为博客网站制作插图，特别是以文字为主的插图图片制作工具。
1 年前
fal.ai 让生成式AI减少人类创意表达的障碍
Fal.ai通过为生成模型提供最快的推理，使开发人员能够创建响应式、沉浸式且经济高效的体验。
1 年前
复制CodeFormer指南
复制 Codeformer 涉及几个步骤，包括收集大量代码和自然语言对的数据集、预处理数据以及微调转换器模型。有几种开源工具和库可用于帮助完成这些任务，包括 Hugging Face 的 Transf
1 年前
通义开源语音基座大模型：SenseVoice和CosyVoice
通义语音团队开源了语音基座大模型：SenseVoice和CosyVoice。
1 年前
英伟达AI创新应用：从数字人类构建、生成式AI集成、到药物发现模拟
英伟达在AI和计算领域的多项创新应用与解决方案，涵盖了从数字人类构建、生成式AI集成、到药物发现模拟等多个方面。
1 年前
Motiff 妙多发布 UI 设计大模型
Motiff 妙多大模型是全球首个由 UI 设计工具企业研发的大模型。
1 年前
Seed-TTS: 字节推出高质量多功能语音生成模型
Seed-TTS：一种高质量多功能语音生成模型
1 年前
DALL·E 2和DALL·E 3的区别
DALL·E 2可以根据文本生成图像以及对现有图像进行编辑等。DALL·E 3相比DALL·E 2在生成的图像质量、对提示词的理解、上下文理解、处理复杂任务等方面有提升。
1 年前
Meta开源新一代”SAM2”视频分割新技术
Meta推出了其 “分割一切AI” 的第二代——SAM2，不仅能实时处理任意长度的视频，连视频中从未见过的物体也能轻松分割追踪。
1 年前
语音视觉智能中的关键技术
语音视觉技术是一种结合了语音识别和计算机视觉的交叉学科技术，通过分析和理解人类语言以及视觉信息，实现人机交互和智能处理。
1 年前
语音视觉技术在人工智能领域的应用
AI 中的语音视觉技术是人工智能领域的重要组成部分。语音技术包括语音识别、语音合成、声纹识别等子领域。例如，语音识别技术能将人类语音信号转换成对应的文本或命令，如今已广泛应用于语音助手、自动驾驶、智能
1 年前
语音视觉技术简介
语音视觉技术在教育、医疗、交通、娱乐等多个领域的应用将越来越广泛，为人们的生活和工作带来更多的便利和创新。
1 年前
PaddleOCR文字识别模型
PaddleOCR 是基于飞桨深度学习开源框架的文字识别开发套件，添加了许多 PaddleOCR 算法模型挑战赛冠军方案。 PaddleOCR目前不仅提供了通用场景下的中英文模型，也提供了专门在英文场
1 年前
英伟达Nvidia Omniverse：提供API和SDK的服务平台
NVIDIA Omniverse™ 提供 API和SDK , 开发者可以轻松地将通用场景描述 (OpenUSD) 和 RTX 渲染技术集成到现有软件工具和仿真工作流中，以构建 AI 系统。
1 年前
视频生成｜视频编辑｜视频营销工具：InVideo
InVideo 是一款适合任何技能水平用户的完美 AI 视频创建器和编辑器。借助现成的模板，可快速轻松地自定义视频。
1 年前