Stability AI 是2019年成立于英国伦敦的私有生成式AI企业,以开源模型生态与 Stable Diffusion 系列闻名,核心使命是让生成式AI开放可及,覆盖图像、视频、音频、3D、语言等多模态场景,支持本地部署与商业适配。


一、核心基础信息

项目 详情
成立时间 2019年,创始人 Emad Mostaque 与 Cyrus Hodes
总部 英国伦敦,业务覆盖全球
管理层 2024年6月由 Prem Akkaraju 出任 CEO,此前经历联合创始人离职、联席代理CEO过渡
核心定位 开源优先的生成式AI研发与服务,降低AI使用门槛,推动技术民主化

二、核心产品与能力矩阵

1. 图像生成(旗舰赛道)

  • Stable Diffusion(SD):2022年8月开源引爆市场,可文本生图、图像修复/转换,支持消费级GPU本地部署,社区生态丰富。
  • SDXL/SD3.5系列:含 Large、Medium、Turbo 等变体,提升分辨率、写实度与生成速度,支持1024×1024原生尺寸,强化复杂构图与文字理解。
  • Stable Cascade:分层扩散架构,兼顾效率与细节,适配设计、电商等商业场景。

2. 视频与3D

  • Stable Video Diffusion(SVD):开放视频生成模型,支持文生视频、图生视频,适配媒体、教育、营销等场景。
  • Stable Zero123/Stable 3D:从单图生成3D对象,支持多视角渲染,服务游戏、AR/VR与工业设计。

3. 音频与语言

  • Stable Audio 2.0/2.5:基于扩散技术生成音乐与音效,支持文本控制风格与时长,面向内容创作与影视配乐。
  • Stable LM:开源语言模型,覆盖多语言生成、对话与代码辅助,提供轻量与中量级版本供本地化部署。

Stability AI 以多模态开源大模型为核心,覆盖图像、视频、3D、音频、语言五大核心赛道,以下是按场景分类的完整模型种类与关键信息。

图像生成(旗舰赛道)

模型系列 核心版本 关键参数/能力 适用场景
Stable Diffusion 3.5 Large/Medium/Turbo Large 81亿参数,1024×1024原生;Turbo 4步推理;Medium适配消费级硬件 专业设计、电商、营销
SDXL/SDXL Turbo SDXL 3.5B参数;Turbo 1步生成 高分辨率写实,实时文生图 内容创作、快速原型
Stable Cascade 分层扩散架构 兼顾效率与细节,适配商业场景 设计、广告、工业可视化
Stable Diffusion 1.x/2.x 开源基础版 社区生态成熟,支持LoRA/ControlNet 个人创作、二次开发

视频与3D生成

模型系列 核心能力 特点 适用场景
Stable Video Diffusion(SVD) 文生视频、图生视频 开放模型,支持多帧生成 媒体、教育、营销
Stable Zero123/Stable 3D 单图生成3D对象,多视角渲染 适配低门槛3D创作 游戏、AR/VR、工业设计

音频生成

模型系列 核心能力 版本亮点 适用场景
Stable Audio 文本生成音乐/音效 2.0/2.5支持时长与风格控制 影视配乐、内容创作
Stable Audio Open 开源音频生成 免费商用,适配独立创作者 播客、短视频配乐

语言模型(LLM)

模型系列 核心版本 参数/基础 能力侧重
Stable LM 2 1.6B/3B/7B/15B 多语言训练,轻量部署 对话、文案、代码辅助
Stable Beluga 1/2 Beluga 1(LLaMA 65B);Beluga 2(LLaMA 2 70B) 指令微调,强化推理 复杂推理、研究实验

三、关键特点与影响

  1. 开源开放:多数模型开源权重与代码,允许商业使用(特定许可),推动社区二次开发与创新。
  2. 低门槛部署:适配消费级硬件,降低个人创作者与中小企业使用成本,加速AIGC普及。
  3. 生态与应用:覆盖设计、游戏、广告、影视、教育等领域,催生插件、定制模型与垂直工具链,成为开源生成式AI的核心基础设施之一。

四、商业与发展现状

  • 商业模式:免费基础使用+订阅付费+企业API+云平台合作(如AWS、Google Cloud)。
  • 行业影响:推动生成式AI平民化,带动扩散模型成为图像生成主流范式,同时面临版权、伦理与竞品(如MidJourney、DALL-E)的持续挑战。
免责声明:本网站仅提供网址导航服务,对链接内容不负任何责任或担保。
相关资讯