语音视觉技术简介

9 个月前 语音视觉 85

AI 中的语音视觉技术是人工智能领域的重要组成部分,语音视觉技术主要包括计算机视觉和智能语音技术:

计算机视觉:是国内外 AI 企业最集中的领域之一,也是 AI 领域中应用场景丰富且极具商业化价值的赛道。它主要以图像和视频等高维、密集数据为处理对象,信息提取程度更深。其架构从下至上包括基础层(核心芯片被传统芯片厂商把控,开源平台以谷歌的 TensorFlow、Facebook 的 Caffe 等为主)、技术层(算法方面初创企业占优,云计算被几大云服务供应商垄断)以及应用层(垂直行业龙头占据场景,技术层初创企业向上渗透)。

目前,中国计算机视觉算法企业在技术水平、商业化程度以及融资能力(估值)上均领先于国际同行,这主要得益于国内安防市场的快速成长以及政策真空红利,使得国内头部计算机视觉算法企业可以获得大量数据用于模型训练和算法改进。计算机视觉的应用范围广泛,涵盖了安防、金融、互联网、消费、机器人、智能驾驶等多个行业,例如在制造业中用于 AI 视觉检测系统以提高生产线上的检测能力和效率;在自动驾驶领域用于识别道路、车辆、行人等;在安防领域用于人脸识别、行为分析等。影响计算机视觉落地的三个主要因素为监管政策、行业接受度及用户接受度。

智能语音技术:根据 Gartner 2018 AI 技术成熟度曲线,语音识别、虚拟助理等相关智能语音技术历经淘洗已相对成熟,未来将推动产业走向爆发期。智能语音领域的市场目前已相对集中,国内外的头部企业占据了大部分市场份额。市场上主要有两大类玩家,通用平台商致力于打造开放语音生态,专业应用商则致力于抢占家居、车载等细分赛道。该技术的应用包括语音识别(将语音转成文字)、语音合成(把文字转成语音)、语音发弹幕、语音评分等,例如在家居场景中实现语音控制家电;在教育领域用于英语听说能力的训练和评估;在电话客服、智能助手等场景中理解和回答用户的问题等。

语音视觉技术在不断发展和突破,例如达摩院语音实验室提出的 universal-asr 语音识别基础框架,同时具有高精度和低延时的特点,能满足不同业务场景对计算复杂度、实时性和准确率的要求。还有中英自由说技术,旨在提升多语种混说场景下的语音识别效果。

随着技术的进步,语音视觉技术在教育、医疗、交通、娱乐等多个领域的应用将越来越广泛,为人们的生活和工作带来更多的便利和创新。但同时也需要注意数据隐私保护、技术准确性和可靠性等方面的问题。


来源:豆包AI

相关资讯