文心一言4.0和文心一言4.5的功能区别主要体现在以下几个方面:
1 个月前
文心一言4.0和文心一言4.5的功能区别主要体现在以下几个方面: 多模态能力 文心一言4.0:具备一定的多模态能力,但可能在模态融合的深度和广度上存在一定限制,例如在处理多模态任务时可能需要更多的人工干预或切换模式。 文心一言4.5:从底层架构就实现了真正的原生多模态融合,像人类天生具备视听触觉的协同能力一样,在处理复杂任务时,能像真正的专家般调用多种工具,自然流畅地处理文本、图像、音频等多模态数据。 深度思考能力 文心一言4.0:具有一定的逻辑推理和分析能力,但在深度和复杂决策能力上相对有限。 文心一言4.5:深度思考能力成为核心功能,不仅能够理解简单的指令,还能进行复杂逻辑推理、因果分析和复杂决策,达到人类专家级水平。 幻觉控制能力 文心一言4.0:在生成内容时可能会出现一定的幻觉问题,即生成一些与事实不符或不合理的内容。 文心一言4.5:延续文心大模型一贯的RAG优势,百度自研的iRAG技术进一步升级,大幅降低了AI生图的“幻觉”问题,在影视、漫画、海报制作等领域优势更明显。 搜索及工具调用能力 文心一言4.0:具有搜索功能,但在搜索的深度、精准度以及与其他工具的协同能力上可能有所不足。 文心一言4.5:上线的深度搜索功能,具备更强大的思考规划和工具调用能力,针对专业咨询类问题的解决能力进行全面加强,能更好地解决专业问题查询门槛高、查询渠道专精、查询结果分析难度大等挑战。 推理及成本优势 文心一言4.0:推理性能有一定提升,但在成本方面随着优化有所降低,不过可能未达到极致。 文心一言4.5:推理成本进一步大幅下降,李彦宏透露文心大模型的推理成本已降至一年前的1%,在提升性能的同时,使基于文心的应用开发更经济实惠。
2 个月前
2月18日,阶跃星辰联合吉利汽车集团开源了两款阶跃Step系列多模态大模型——Step - Video - T2V视频生成模型和Step - Audio语音模型,采用MIT协议,支持免费商用、任意修改和衍生开发。 两款模型的具体信息如下: Step - Video - T2V 参数与生成能力:参数量达到300亿,可以直接生成204帧、540P分辨率的高质量视频,能确保生成的视频内容具有极高的信息密度和强大的一致性。 生成效果优势:在复杂运动、美感人物、视觉想象力、基础文字生成、原生中英双语输入和镜头语言等方面具备强大的生成能力,且语义理解和指令遵循能力突出。对复杂运动场景把控能力强,能展现各种高难度运动画面;是运镜大师,支持多种镜头运动方式和景别切换;像“十级画师”,生成的人物形象逼真、生动,细节丰富,表情自然。 评测情况:阶跃星辰发布并开源了针对文生视频质量评测的新基准数据集Step - Video - T2V - Eval。评测结果显示,Step - Video - T2V的模型性能在指令遵循、运动平滑性、物理合理性、美感度等方面的表现,均显著超过市面上既有的效果最佳的开源视频模型。 Step - Audio 功能特性:是行业内首个产品级的开源语音交互模型,能够根据不同的场景需求生成情绪、方言、语种、歌声和个性化风格的表达,能和用户自然地进行高质量对话。可支持不同角色的音色克隆,满足影视娱乐、社交、游戏等行业场景下应用需求。 模型性能:在LlaMA Question、Web Questions等5大主流公开测试集中,模型性能均超过了行业内同类型开源模型,位列第一。在HSK - 6(汉语水平考试六级)评测中的表现尤为突出,被称为最懂中国话的开源语音交互大模型。阶跃星辰自建并开源了多维度评估体系StepEval - Audio - 360基准测试,经人工横评后,Step - Audio的模型能力均衡,在各个维度上均超过了此前市面上效果最佳的开源语音模型。