阶跃星辰开源两款多模态模型 -- Step - Video - T2V 和 Step - Audio

管理员 1 年前

语音视觉

1280

2月18日，阶跃星辰联合吉利汽车集团开源了两款阶跃Step系列多模态大模型——Step - Video - T2V视频生成模型和Step - Audio语音模型，采用MIT协议，支持免费商用、任意修改和衍生开发。

两款模型的具体信息如下：

Step - Video - T2V

参数与生成能力：参数量达到300亿，可以直接生成204帧、540P分辨率的高质量视频，能确保生成的视频内容具有极高的信息密度和强大的一致性。
生成效果优势：在复杂运动、美感人物、视觉想象力、基础文字生成、原生中英双语输入和镜头语言等方面具备强大的生成能力，且语义理解和指令遵循能力突出。对复杂运动场景把控能力强，能展现各种高难度运动画面；是运镜大师，支持多种镜头运动方式和景别切换；像“十级画师”，生成的人物形象逼真、生动，细节丰富，表情自然。
评测情况：阶跃星辰发布并开源了针对文生视频质量评测的新基准数据集Step - Video - T2V - Eval。评测结果显示，Step - Video - T2V的模型性能在指令遵循、运动平滑性、物理合理性、美感度等方面的表现，均显著超过市面上既有的效果最佳的开源视频模型。

Step - Audio

功能特性：是行业内首个产品级的开源语音交互模型，能够根据不同的场景需求生成情绪、方言、语种、歌声和个性化风格的表达，能和用户自然地进行高质量对话。可支持不同角色的音色克隆，满足影视娱乐、社交、游戏等行业场景下应用需求。
模型性能：在LlaMA Question、Web Questions等5大主流公开测试集中，模型性能均超过了行业内同类型开源模型，位列第一。在HSK - 6（汉语水平考试六级）评测中的表现尤为突出，被称为最懂中国话的开源语音交互大模型。阶跃星辰自建并开源了多维度评估体系StepEval - Audio - 360基准测试，经人工横评后，Step - Audio的模型能力均衡，在各个维度上均超过了此前市面上效果最佳的开源语音模型。

大模型开源多模态 AI视频 AI音频吉利汽车

相关网站

OiiOii

AI动画创作Agent

WeryAI

免费、一站式、多模态AI内容创作平台

Venice AI

注重隐私的生成式AI平台

LLaMA-Factory Online

LLaMA-Factory Online

在线大模型微调平台 | 一站式低代码训练服务

SQLBot

基于大模型和RAG的智能问数系统

Spirit VLA

千寻智能视觉-语言-动作模型

Voiceflow

智能客服开发平台

WAN

阿里通义万相视频生成大模型

相关资讯