VITA,这是有史以来第一个可以处理视频、图像、文本和音频,同时具有高级功能的多模态交互体验。VITA是腾讯优图实验室在交互式全模态大语言模型方面的一次新探索。
GPT-4o 卓越的多模态能力和交互式体验强调了它们的必要性 然而,在实际应用中,开源模型很少在这两个方面都表现出色。在本文中,我们 推出 VITA,这是有史以来第一个开源多模态大型语言模型 (MLLM) 专家 同时处理和分析 Video、Image、Text 和 Audio 模态,同时具有先进的多模态 互动体验。
Omni 多模态理解:VITA 展示了强大的基础 多语言、视觉和音频理解能力,其强大的性能证明了这一点 在一系列单峰和多峰基准中。
非叫醒交互:VITA 可以激活并响应用户音频 环境中的问题,而无需唤醒词或按钮。
音频中断交互:VITA 能够同时跟踪和过滤 实时外部查询。这允许用户随时中断模型的生成 新问题,VITA 将相应地回复新问题。
VITA 能够处理纯文本/音频形式的输入,以及视频/图像组合 带有文本/音频。此外,采用两种关键技术来推进多模态交互体验。
免责声明:本网站仅提供网址导航服务,对链接内容不负任何责任或担保。
26 天前
AI图片生成集成指南:从API到SDK的完整实现路径 在腾讯EdgeOne Pages模版详情页面点击“Deploy”按钮,填写必要的API密钥,点击“开始部署”——短短几分钟内,一个完整的AI图片生成应用就这样上线了。 随着人工智能技术的快速发展,AI图片生成功能已成为现代应用中不可或缺的一部分。无论是内容创作、产品设计还是营销素材制作,AI图片生成技术都能提供高效、创新的解决方案。 对于开发者而言,如何将这项能力快速、安全地集成到自己的应用中,成为了一个值得深入探讨的课题。 01 理解两种集成路径 原生API调用和AI SDK封装调用是当前将AI图片生成能力集成到应用中的两种主要技术路径,每种路径都有其独特的优势和应用场景。 原生API调用提供了精细控制和高度灵活性,开发者可以直接与底层API交互,定制化程度高。AI SDK则通过统一接口简化了开发流程,实现了多厂商模型的轻松切换。 以EdgeOne Pages为例,这两种集成方式都有对应的模版:ai-image-generator-starter用于原生接口调用,而ai-sdk-image-generator-starter则适用于AI SDK封装调用。 在开始集成之前,开发者需要根据自身需求选择合适的技术路径。对于追求控制和定制化的项目,原生API调用是更好的选择;而对于希望快速上线并支持多种模型的项目,AI SDK封装调用则更为合适。 02 快速入门:环境准备与部署 要实现AI图片生成功能,首先需要申请API Key。主流AI图片生成提供商的API Key获取地址包括: Hugging Face:huggingface.co/settings/tokens OpenAI:platform.openai.com/api-keys Replicate:replicate.com/account/api-tokens Fal:fal.ai/dashboard/keys Nebius:nebius.com/console 部署过程简单直观。以ai-sdk-image-generator-starter模版为例,在模版详情页面点击“Deploy”按钮,系统将跳转到EdgeOne Pages控制台。 在部署界面,开发者需要配置环境变量,这些配置项对应不同AI图片生成服务的API Key。不同模版会呈现不同的配置项列表,但必须确保至少有一个API Key配置正确且可用。 完成配置后点击“start deployment”按钮,项目就会开始自动部署。部署成功后,GitHub帐户下会生成一个与模版相同的项目,开发者可以通过git clone命令将其下载到本地进行进一步的开发和定制。 03 原生API调用详解 原生API调用方式让开发者能够精细控制每一个请求细节。在这一模式下,图片生成的基本流程是:前端发送生图参数到边缘函数,边缘函数调用AI模型API,最后将生成的图片返回给前端显示。 在前端部分,用户需要配置可用的AI模型列表。以src/pages/index.tsx文件中的核心代码为例: const res = await fetch("/v1/generate", { method: "POST", headers: { "Content-Type": "application/json", }, body: JSON.stringify({ image: `${prompt} (${modelInfo.name} style)`, platform: platform.id, model: modelInfo.value || selectedModel, }), }); 边缘函数的处理逻辑位于functions/v1/generate/index.js文件中。函数首先接收前端传递的参数,然后检查对应平台的环境变量是否配置正确。 const validateToken = (platform) => { const tokens = { nebius: env.NEBIUS_TOKEN, huggingface: env.HF_TOKEN, replicate: env.REPLICATE_TOKEN, openai: env.OPENAI_API_KEY, fal: env.FAL_KEY, }; if (!tokens[platform]) { throw new Error( `${platform} API token is not configured. Please check your environment variables.` ); } }; 这种通过env访问环境变量的方式,有效防止了API密钥在代码中明文暴露,提高了应用的安全性。敏感信息存储在环境变量中,而非硬编码在源代码里。 环境变量检查完成后,函数会直接请求对应平台的图片生成模型API。以HuggingFace为例,其标准API请求核心代码如下: const response = await PROVIDERS.fetch(url, { headers: { Authorization: `Bearer ${token}`, "Content-Type": "application/json", }, method: "POST", body: JSON.stringify(data), }); EdgeOne Pages的AI图片生成模版已经支持了多种主流模型,包括HuggingFace、OpenAI、Replicate、Fal、Nebius等。生成图片后,函数将结果返回给前端,模版项目内已经内置了图片显示的完整逻辑。 04 AI SDK封装调用解析 与原生API调用方式相比,AI SDK封装调用通过统一接口简化了开发流程。它允许开发者使用相同的代码结构调用不同厂商的AI图片模型,显著提高了开发效率和多模型切换的便利性。 在AI SDK方式下,前端通过/api/generate接口发送请求: const response = await fetch(apiUrl, { method: "POST", headers: { "Content-Type": "application/json", }, body: JSON.stringify({ prompt, model, size, }), }); 这里需要注意的是,size参数需要提前设置,因为不同的模型支持的尺寸列表可能不一致。 例如,DALL-E 3支持“1024x1024”、“1024x1792”、“1792x1024”等尺寸,而Stable Diffusion可能支持“512x512”、“768x768”等不同规格。 EdgeOne Pages的AI SDK图片生成模版已经梳理了AI SDK支持模型对应的尺寸列表,相关配置位于components/modelSizeMapping.ts文件中。开发者可以直接使用这些预配置的尺寸映射,无需手动处理不同模型的尺寸兼容性问题。 AI SDK同样避免了密钥泄漏风险。函数在调用AI图片模型时,使用AI SDK暴露的experimental_generateImage对象来统一生成图片内容,密钥的获取由experimental_generateImage在内部自动处理。 const imageResult = await experimental_generateImage({ model: imageModel, prompt: prompt, size: size, // Use frontend-provided size }); 调用experimental_generateImage后,只需要读取函数返回的标准格式内容即可: const imageUrl = `data:image/png;base64,${imageResult.image.base64}`; return new Response( JSON.stringify({ images: [ { url: imageUrl, base64: imageResult.image.base64, }, ], }) ); 05 本地调试与持续集成 开发者在下载项目到本地后,可能需要进行本地开发、调试或预览。为了简化本地环境配置,EdgeOne提供了专门的CLI工具。 使用EdgeOne CLI需要先安装并登录,具体步骤可以参考EdgeOne CLI的文档介绍。在安装和登录后,开发者可以在本地项目下执行edgeone pages link命令,将项目与EdgeOne Pages控制台的项目进行关联。 执行该命令后,系统会提示输入EdgeOne Pages的项目名,即上文部署的模版项目的项目名称。输入项目名后,EdgeOne Pages控制台的环境变量会自动同步到本地。 关联成功后,本地项目根目录下会生成.env文件,包含所有已配置的环境变量列表。关联后,可以执行edgeone pages dev命令来进行本地部署,部署后可以在localhost:8088进行访问。 对于代码的自定义修改,开发者可以直接通过git提交项目到GitHub。EdgeOne Pages会检测GitHub的提交记录并自动进行重新部署,实现真正的持续集成与持续部署。 部署完成后,控制台会显示部署状态和预览界面,开发者可以立即验证功能是否正常工作。 AI图片生成集成后的应用界面,简洁直观。模板提供了开箱即用的用户界面,用户可以直接输入提示词、选择模型和调整参数,生成结果会即时显示在右侧区域。 在本地测试过程中,如果对生成效果或性能有特定要求,开发者可以灵活切换不同的AI模型提供商。不同的模型在风格表现、细节处理等方面各有特色,有些专注于写实风格,有些擅长艺术创作,实际测试是找到最适合项目的关键一步。 ( 文章来源:Tencent Cloud )

1 个月前
Nova 2是亚马逊于2025年12月在re:Invent 全球大会上推出的新一代基础模型家族,共包含4款模型,均需通过Amazon Bedrock平台使用,兼顾行业领先的性价比与多场景适配性,具体介绍如下 : 1. Nova 2 Lite: 主打快速、高性价比的日常推理任务,可处理文本、图像和视频输入并生成文本。能通过调节“思考”深度平衡智能、速度与成本,适合客服聊天机器人、文档处理等场景。在基准测试中,它对标Claude Haiku 4.5、GPT - 5 Mini等模型,多数项目表现持平或更优。 2. Nova 2 Pro(预览版): 是该家族中智能度最高的推理模型,可处理文本、图像、视频和语音输入并生成文本。适配代理编码、长期规划等复杂任务,还能作为“教师模型”向小型模型传递能力,在与Claude Sonnet 4.5、Gemini 2.5 Pro等主流模型的对比中,多项基准测试表现出色。 3. Nova 2 Sonic: 专注端到端语音交互的模型,能实现类人化实时对话。它支持多语言与丰富音色,拥有100万token上下文窗口,可支撑长时交互,还能与Amazon Connect等语音服务、对话框架无缝集成,适配客服、AI助手等语音场景。 4. Nova 2 Omni: 业内首款统一多模态推理与生成模型,可处理文本、图像等多种输入,还能同时生成文本和图像。它能一次性处理海量多格式内容,比如数百页文档、数小时音频等,适合营销素材一站式制作等需要整合多类信息的场景。 这4款模型均具备100万token上下文窗口,且内置网页查找和代码执行能力,能保障回答的时效性与实用性 。

2 个月前
Alice AI:俄罗斯搜索引擎Yandex推出的人工智能助手 从日常任务到城市生活,Yandex的Alice AI正在重新定义人与机器的互动方式。 在2025年10月28日的“Alice,what‘s new?”大会上,俄罗斯科技巨头Yandex推出了全新升级的Alice AI——一个强大的通用神经网络,能够帮助用户在聊天中解决几乎任何任务。 这项技术代表了过去几十年聊天机器人从简单模式匹配到智能交互的演进历程。Alice AI不同于传统的规则驱动聊天机器人,它基于最先进的生成模型,不仅能理解复杂请求,还能主动协助用户完成从信息查询到实际行动的全流程任务。 01 从ELIZA到Alice AI,技术革命的演进历程 聊天机器人的发展始于20世纪60年代,当时麻省理工学院教授魏岑鲍姆发明了世界上第一个聊天机器人ELIZA,它通过模式匹配和替换方法来模拟对话。 受到ELIZA的启发,理查德·华莱士博士在1995年开发了ALICE系统(Artificial Linguistic Internet Computer Entity)。 ALICE采用启发式模式匹配的对话策略,并支持基于人工智能标记语言(AIML)的规则定义。 这一系统在人工智能领域获得了高度认可,在2000年、2001年和2004年三次获得洛伯纳奖(Loebner Prize)。 然而,传统的ALICE系统仍然依赖于预设的模板和规则,需要大量人力进行设计和制定。 Yandex的Alice AI则代表了技术演进的新阶段,它不再局限于规则驱动,而是基于大规模训练的神经网络,具备真正的理解和生成能力。 02 多模态架构,Alice AI的技术内核 Alice AI由三个核心模型共同驱动,构成了其多功能的技术基础。 Alice AI LLM负责处理语言相关的任务,包括回答问题、生成文本和逻辑推理。 Alice AI ART专注于视觉内容生成,能够根据文本描述创建图像和视频内容。 Alice AI VLM作为视觉语言模型,专精于图像分析、理解和与图像相关的任务解决。 这一模型家族将继续扩展,例如图像编辑模型即将推出。 Alice AI支持多种交互方式,包括文本输入、语音对话和实时摄像头交互。 用户可以通过手机摄像头获取实时视觉分析,使Alice AI能够成为识别物体、解释场景的随身助手。 03 四大应用场景,从聊天到实际行动 Alice AI的能力体现在多个实际应用场景中,使其成为用户日常生活的有用伙伴。 智能对话与文件处理:Alice AI可以处理各种类型的文件(DOC、DOCX、PDF、TXT),从中提取关键信息并生成清晰的报告。 它能够进行复杂问题的推理分析,提供深思熟虑的结论而不仅仅是快速回答。 视觉识别与创作:通过图像识别技术,Alice AI可以读取照片中的文本(如收据),识别物体,并提供即时视觉数据分析。 用户也可以请求生成图像或动画照片,用于社交媒体内容、标志设计或生日卡片制作。 浏览器集成与网页交互:Alice AI将很快深度集成到Yandex Browser中,能够利用活动标签页中的信息(无论是文本文档还是视频)来回答问题。 例如,用户可以直接询问一个500页的PDF报告中是否包含6月的销售数据,或者询问关于黑洞视频中讲师提到的内容。 城市服务与AI代理:Alice AI即将帮助城市居民预订出租车、安排送货、订购食物或杂货。 当用户提出请求时,AI代理会分析需求,确定能够处理任务的服务,并连接相应的代理——出租车、食品、 Lavka或送货。 04 “我的记忆”,前瞻性功能重新定义个人助手 Alice AI即将推出的“我的记忆”(My Memory)功能,将更进一步改变用户与AI的互动方式。 这一功能让Alice AI能够将用户随意思考的想法和想法转化为待办事项列表、购物清单、笔记和提醒,所有这些都直接呈现在聊天界面中。 用户可以在行动中向Alice AI口述任务,它会记住所有内容,进行组织,并在适当时机提醒重要事项。 Yandex还宣布了搭载Alice AI的可穿戴AI设备,使用户无需智能手机即可随时记录想法和想法。 这些设备将专注于“我的记忆”服务,让用户能够随时随地通过语音与Alice AI交互。 05 对比传统聊天机器人,Alice AI的突破 与传统聊天机器人相比,Alice AI在多个方面实现了技术突破。 传统聊天机器人如ALICE主要依赖于启发式模式匹配和AIML规则,需要大量人工编写的模板。 而Alice AI基于大规模训练的神经网络,能够理解更复杂的查询并生成更自然的回应。 传统系统多数仅限于文本对话,而Alice AI提供多模态交互,包括文本、图像、视频和语音。 最显著的进步在于,传统聊天机器人主要用于信息查询或简单任务,而Alice AI能够通过AI代理执行端到端的实际任务,从信息收集到最终结果。 从简单的模式匹配到复杂的多模态交互,从回答问题到执行任务——Alice AI代表了聊天机器人技术的又一次飞跃。 随着AI代理和“我的记忆”功能的推出,Alice AI正逐步从一个对话工具演变为一个能够理解、预测并满足用户需求的真正个人助手。 技术专家指出,未来的聊天机器人将不再局限于回答问题的角色,而是成为人类与数字设备交互的重要桥梁。 Alice AI正是这一趋势的领先代表,它正在重新定义我们与技术共存的方式。

10 个月前
文心一言4.0和文心一言4.5的功能区别主要体现在以下几个方面: 多模态能力 文心一言4.0:具备一定的多模态能力,但可能在模态融合的深度和广度上存在一定限制,例如在处理多模态任务时可能需要更多的人工干预或切换模式。 文心一言4.5:从底层架构就实现了真正的原生多模态融合,像人类天生具备视听触觉的协同能力一样,在处理复杂任务时,能像真正的专家般调用多种工具,自然流畅地处理文本、图像、音频等多模态数据。 深度思考能力 文心一言4.0:具有一定的逻辑推理和分析能力,但在深度和复杂决策能力上相对有限。 文心一言4.5:深度思考能力成为核心功能,不仅能够理解简单的指令,还能进行复杂逻辑推理、因果分析和复杂决策,达到人类专家级水平。 幻觉控制能力 文心一言4.0:在生成内容时可能会出现一定的幻觉问题,即生成一些与事实不符或不合理的内容。 文心一言4.5:延续文心大模型一贯的RAG优势,百度自研的iRAG技术进一步升级,大幅降低了AI生图的“幻觉”问题,在影视、漫画、海报制作等领域优势更明显。 搜索及工具调用能力 文心一言4.0:具有搜索功能,但在搜索的深度、精准度以及与其他工具的协同能力上可能有所不足。 文心一言4.5:上线的深度搜索功能,具备更强大的思考规划和工具调用能力,针对专业咨询类问题的解决能力进行全面加强,能更好地解决专业问题查询门槛高、查询渠道专精、查询结果分析难度大等挑战。 推理及成本优势 文心一言4.0:推理性能有一定提升,但在成本方面随着优化有所降低,不过可能未达到极致。 文心一言4.5:推理成本进一步大幅下降,李彦宏透露文心大模型的推理成本已降至一年前的1%,在提升性能的同时,使基于文心的应用开发更经济实惠。

10 个月前
高盛报告:阿里巴巴领衔AI基建,腾讯主导AI应用领域 2月14日,高盛发布最新研究报告,揭示了中国互联网行业在人工智能(AI)技术快速发展背景下的新格局。报告指出,行业正逐渐分化为两大阵营:AI基础设施建设和AI应用开发。阿里巴巴凭借其强大的云服务基础设施,成为AI基建领域的关键力量;而腾讯则依托其在消费者端(C端)应用的广泛生态和卓越用户体验,成为AI应用领域的核心推动者。 报告详细分析了两家公司的优势:阿里巴巴作为中国最大的云服务提供商,其规模优势在AI基础设施建设中占据重要地位,预计在2026财年将实现14倍的预期市盈率。腾讯则凭借其微信超级应用的潜在AI代理功能和闭环交易能力,在2025财年预期市盈率达到16倍,同时腾讯云在中国公共云市场中也稳居前三。 报告进一步预测,随着中国AI模型的灵活性和计算成本效率的显著提升,超级应用如微信和抖音将继续深化在电子商务和本地服务等交易领域的应用。此外,随着开源模型的兴起和计算成本的降低,AI的采用率将进一步提高,特别是在支持多年云和数据中心需求增长的企业端(B端)场景中。 高盛特别强调,腾讯通过其强大的C端生态和用户体验,将AI技术深度融入日常生活。报告以元宝为例,指出其快速崛起是腾讯在AI应用领域实力的体现。元宝集成了DeepSeek-R1模型的强大推理能力和腾讯云的AI推理基础设施,不仅提供了更智能的交互体验,还通过微信生态的独特内容支持,实现了更精准的信息推送和更高效的任务执行。 报告最后指出,集成R1后的元宝在用户体验上实现了质的飞跃,用户可以通过多轮对话和深度思考模式,快速获取微信公众号、视频号等生态内的丰富内容,进一步巩固了腾讯在AI应用领域的领先地位。

11 个月前
2月18日,阶跃星辰联合吉利汽车集团开源了两款阶跃Step系列多模态大模型——Step - Video - T2V视频生成模型和Step - Audio语音模型,采用MIT协议,支持免费商用、任意修改和衍生开发。 两款模型的具体信息如下: Step - Video - T2V 参数与生成能力:参数量达到300亿,可以直接生成204帧、540P分辨率的高质量视频,能确保生成的视频内容具有极高的信息密度和强大的一致性。 生成效果优势:在复杂运动、美感人物、视觉想象力、基础文字生成、原生中英双语输入和镜头语言等方面具备强大的生成能力,且语义理解和指令遵循能力突出。对复杂运动场景把控能力强,能展现各种高难度运动画面;是运镜大师,支持多种镜头运动方式和景别切换;像“十级画师”,生成的人物形象逼真、生动,细节丰富,表情自然。 评测情况:阶跃星辰发布并开源了针对文生视频质量评测的新基准数据集Step - Video - T2V - Eval。评测结果显示,Step - Video - T2V的模型性能在指令遵循、运动平滑性、物理合理性、美感度等方面的表现,均显著超过市面上既有的效果最佳的开源视频模型。 Step - Audio 功能特性:是行业内首个产品级的开源语音交互模型,能够根据不同的场景需求生成情绪、方言、语种、歌声和个性化风格的表达,能和用户自然地进行高质量对话。可支持不同角色的音色克隆,满足影视娱乐、社交、游戏等行业场景下应用需求。 模型性能:在LlaMA Question、Web Questions等5大主流公开测试集中,模型性能均超过了行业内同类型开源模型,位列第一。在HSK - 6(汉语水平考试六级)评测中的表现尤为突出,被称为最懂中国话的开源语音交互大模型。阶跃星辰自建并开源了多维度评估体系StepEval - Audio - 360基准测试,经人工横评后,Step - Audio的模型能力均衡,在各个维度上均超过了此前市面上效果最佳的开源语音模型。

1 年前
腾讯混元大模型的数学原理主要基于深度学习和自然语言处理领域的相关技术,以下是其核心要点: 神经网络与Transformer架构 多层神经网络:混元大模型采用多层神经网络结构,通过模拟人脑神经元之间的连接来处理和学习数据。每个神经元接收来自上一层神经元的输入,并通过激活函数进行处理后输出到下一层神经元,从而实现对数据的特征提取和模型的训练。 Transformer核心机制:混元大模型基于Transformer架构,其核心是自注意力机制。自注意力机制能够计算文本中每个位置与其他位置之间的关联程度,从而捕捉长距离依赖关系,更好地理解句子中的上下文信息。在计算自注意力时,对于输入序列中的每个位置,会计算其与其他位置的注意力得分,然后根据这些得分对相应位置的特征进行加权求和,得到该位置的新特征表示。除了自注意力机制外,Transformer还包括前馈神经网络,用于对经过自注意力机制处理后的特征进行进一步的非线性变换。 预训练与微调 预训练:在大规模语料库上预先训练模型,使其学习语言的一般规律和知识,如语法、语义、常见的语言模式等。预训练过程通常采用无监督学习的方式,例如使用大量的文本数据进行自监督学习,让模型自动预测文本中的下一个单词或句子中的空缺部分等。通过预训练,模型能够获得丰富的语言知识和语义理解能力,为后续的微调任务奠定基础。 微调:在预训练完成后,根据具体的任务需求,对模型进行微调。微调是在特定的有标注数据集上进行的有监督学习过程,通过调整模型的参数,使其在特定任务上达到更好的性能。例如,在文本分类任务中,使用标注好的文本分类数据集对预训练模型进行微调,让模型学习到如何根据输入文本的特征进行分类。 优化算法与正则化技术 优化算法:在训练过程中,使用优化算法来调整模型的参数,以最小化预测误差。常见的优化算法如随机梯度下降(SGD)及其变种Adagrad、Adadelta、RMSProp、Adam等。这些算法通过计算损失函数对模型参数的梯度,并根据梯度的方向和大小来更新参数,使得模型在训练过程中逐渐收敛到最优解。 正则化技术:为了减少过拟合,提高模型的泛化能力,混元大模型采用了正则化技术,如Dropout和Batch Normalization。Dropout在训练过程中随机丢弃一部分神经元,使得模型在每次训练时都使用不同的子网络结构,从而增加模型的鲁棒性和泛化能力。Batch Normalization则是对每个批次的输入数据进行归一化处理,使得模型在训练过程中输入数据的分布更加稳定,加快训练速度并提高模型的性能。 混合专家模型结构 混元大模型采用混合专家模型结构,每一层包含多个并行的同构专家,一次token的前向计算只会激活部分专家,推理成本远低于同等参数的稠密模型。同时,在路由策略上进行创新,在传统Top-K路由的基础上进一步提出了随机补偿的路由方式,将因为专家满负载原本会扔掉的token,随机路由到其他仍有负载冗余的专家,保障训练稳定性。还设置一个共享专家来捕获所有token所需的共同知识,并通过多个需要路由的专家动态学习特定领域的知识。 处理长文与提升推理效率 长文处理:对于长文领域,通过引入多阶段预训练和退火机制,使得模型仅使用少量长文合成语料,即可获得较好的长文效果,显著提升模型长文外推能力。 推理效率提升:使用Grouped-Query Attention和Cross-Layer Attention两种KV Cache压缩策略,从head/layer两个维度联合压缩KV cache,并引入量化技术,进一步提升压缩比,最终将模型的KV Cache压缩为MHA的5%,大幅提升推理性能。

1 年前
腾讯两大智能体平台:腾讯元器和 AppAgent。
Minimax(海螺AI)已由大模型名Minimax替换原海螺AI。现海螺AI为Minimax视频生成产品名。
海螺AI