腾讯 V-EXPRESS 是腾讯 AI 实验室推出的一款用于头像视频生成的模型:
通过一系列渐进式丢弃操作来平衡不同的控制信号,如文本、音频、图像参考、姿态、深度图等,使得较弱的信号(尤其是音频信号)也能有效控制生成过程,从而实现综合考虑姿态、输入图像和音频来生成逼真的视频。即使音频信号常常被更强的信号(如姿态和原始图像)干扰,V-EXPRESS 也能较好地应对,生成高质量的说话人像视频。
制作虚拟新闻主播:可以生成与特定人物相似的虚拟新闻主播,用于新闻播报等场景,提升视觉效果和吸引力。
创建虚拟教师:为在线教育平台创建虚拟教师,提供更加生动、个性化的教学体验。
游戏开发:在游戏开发中,为非玩家角色(NPC)生成逼真的对话动画,增强游戏的沉浸感和趣味性。
目前,V-EXPRESS 支持英文音频,在英语上表现更好,其他语言的测试尚未详细进行。它为开发者和研究人员在人机交互、虚拟助手、游戏和娱乐等领域提供了一个有力的工具,能够帮助他们创建与真人相似的虚拟角色,提升用户体验。
免责声明:本网站仅提供网址导航服务,对链接内容不负任何责任或担保。2 个月前
高盛报告:阿里巴巴领衔AI基建,腾讯主导AI应用领域 2月14日,高盛发布最新研究报告,揭示了中国互联网行业在人工智能(AI)技术快速发展背景下的新格局。报告指出,行业正逐渐分化为两大阵营:AI基础设施建设和AI应用开发。阿里巴巴凭借其强大的云服务基础设施,成为AI基建领域的关键力量;而腾讯则依托其在消费者端(C端)应用的广泛生态和卓越用户体验,成为AI应用领域的核心推动者。 报告详细分析了两家公司的优势:阿里巴巴作为中国最大的云服务提供商,其规模优势在AI基础设施建设中占据重要地位,预计在2026财年将实现14倍的预期市盈率。腾讯则凭借其微信超级应用的潜在AI代理功能和闭环交易能力,在2025财年预期市盈率达到16倍,同时腾讯云在中国公共云市场中也稳居前三。 报告进一步预测,随着中国AI模型的灵活性和计算成本效率的显著提升,超级应用如微信和抖音将继续深化在电子商务和本地服务等交易领域的应用。此外,随着开源模型的兴起和计算成本的降低,AI的采用率将进一步提高,特别是在支持多年云和数据中心需求增长的企业端(B端)场景中。 高盛特别强调,腾讯通过其强大的C端生态和用户体验,将AI技术深度融入日常生活。报告以元宝为例,指出其快速崛起是腾讯在AI应用领域实力的体现。元宝集成了DeepSeek-R1模型的强大推理能力和腾讯云的AI推理基础设施,不仅提供了更智能的交互体验,还通过微信生态的独特内容支持,实现了更精准的信息推送和更高效的任务执行。 报告最后指出,集成R1后的元宝在用户体验上实现了质的飞跃,用户可以通过多轮对话和深度思考模式,快速获取微信公众号、视频号等生态内的丰富内容,进一步巩固了腾讯在AI应用领域的领先地位。
3 个月前
腾讯混元大模型的数学原理主要基于深度学习和自然语言处理领域的相关技术,以下是其核心要点: 神经网络与Transformer架构 多层神经网络:混元大模型采用多层神经网络结构,通过模拟人脑神经元之间的连接来处理和学习数据。每个神经元接收来自上一层神经元的输入,并通过激活函数进行处理后输出到下一层神经元,从而实现对数据的特征提取和模型的训练。 Transformer核心机制:混元大模型基于Transformer架构,其核心是自注意力机制。自注意力机制能够计算文本中每个位置与其他位置之间的关联程度,从而捕捉长距离依赖关系,更好地理解句子中的上下文信息。在计算自注意力时,对于输入序列中的每个位置,会计算其与其他位置的注意力得分,然后根据这些得分对相应位置的特征进行加权求和,得到该位置的新特征表示。除了自注意力机制外,Transformer还包括前馈神经网络,用于对经过自注意力机制处理后的特征进行进一步的非线性变换。 预训练与微调 预训练:在大规模语料库上预先训练模型,使其学习语言的一般规律和知识,如语法、语义、常见的语言模式等。预训练过程通常采用无监督学习的方式,例如使用大量的文本数据进行自监督学习,让模型自动预测文本中的下一个单词或句子中的空缺部分等。通过预训练,模型能够获得丰富的语言知识和语义理解能力,为后续的微调任务奠定基础。 微调:在预训练完成后,根据具体的任务需求,对模型进行微调。微调是在特定的有标注数据集上进行的有监督学习过程,通过调整模型的参数,使其在特定任务上达到更好的性能。例如,在文本分类任务中,使用标注好的文本分类数据集对预训练模型进行微调,让模型学习到如何根据输入文本的特征进行分类。 优化算法与正则化技术 优化算法:在训练过程中,使用优化算法来调整模型的参数,以最小化预测误差。常见的优化算法如随机梯度下降(SGD)及其变种Adagrad、Adadelta、RMSProp、Adam等。这些算法通过计算损失函数对模型参数的梯度,并根据梯度的方向和大小来更新参数,使得模型在训练过程中逐渐收敛到最优解。 正则化技术:为了减少过拟合,提高模型的泛化能力,混元大模型采用了正则化技术,如Dropout和Batch Normalization。Dropout在训练过程中随机丢弃一部分神经元,使得模型在每次训练时都使用不同的子网络结构,从而增加模型的鲁棒性和泛化能力。Batch Normalization则是对每个批次的输入数据进行归一化处理,使得模型在训练过程中输入数据的分布更加稳定,加快训练速度并提高模型的性能。 混合专家模型结构 混元大模型采用混合专家模型结构,每一层包含多个并行的同构专家,一次token的前向计算只会激活部分专家,推理成本远低于同等参数的稠密模型。同时,在路由策略上进行创新,在传统Top-K路由的基础上进一步提出了随机补偿的路由方式,将因为专家满负载原本会扔掉的token,随机路由到其他仍有负载冗余的专家,保障训练稳定性。还设置一个共享专家来捕获所有token所需的共同知识,并通过多个需要路由的专家动态学习特定领域的知识。 处理长文与提升推理效率 长文处理:对于长文领域,通过引入多阶段预训练和退火机制,使得模型仅使用少量长文合成语料,即可获得较好的长文效果,显著提升模型长文外推能力。 推理效率提升:使用Grouped-Query Attention和Cross-Layer Attention两种KV Cache压缩策略,从head/layer两个维度联合压缩KV cache,并引入量化技术,进一步提升压缩比,最终将模型的KV Cache压缩为MHA的5%,大幅提升推理性能。
3 个月前
腾讯两大智能体平台:腾讯元器和 AppAgent。
7 个月前
AI视频生成模型的主要技术原理包括多种深度学习和机器学习技术,尤其是生成对抗网络(GANs)、变分自编码器(VAEs)和自然语言处理(NLP)。
7 个月前
语言大模型(LLM)能够生成图片和视频的能力主要依赖于其多模态学习和生成技术。
8 个月前
广州金域医学检验集团股份有限公司与腾讯医疗健康(深圳)有限公司联合主办了2024“域见杯”医检人工智能开发者大赛,旨在加速医检AI创新成果的转化落地。
8 个月前
所有的大模型都有共性和特性,那腾讯的混元大模型的相对优势在哪呢?
8 个月前
腾讯混元大模型具备强大的中文创作能力、复杂语境下的逻辑推理能力以及可靠的任务执行能力,产品包括混元生文与混元生图。
9 个月前
Meta推出了其 “分割一切AI” 的第二代——SAM2,不仅能实时处理任意长度的视频,连视频中从未见过的物体也能轻松分割追踪。