字节跳动:云雀模型

9 个月前 语言模型 1235

云雀模型是字节跳动公司研发的大规模预训练语言模型系列,有 lite、plus、pro、pro-4k、chat 五个版本。其中 v1.0 版本包含 lite、plus、pro 三个版本,于 2023 年 8 月 6 日上线发布。

云雀模型基于字节神经网络加速器开发,通过便捷的自然语言交互,能够高效地完成互动对话、信息获取、协助创作等任务,还提供了简单的 API 调用,可基于大模型快速搭建属于自己的 AI 应用,进行业务创新。

其发展历程中的重要节点包括:

  • 2023 年 8 月 17 日,字节跳动公测基于云雀大模型开发的 AI 对话产品“豆包”,有网页端、iOS 和安卓客户端,预置了英语学习助手和写作助手两个功能。
  • 2023 年 8 月 31 日,首批 8 家大模型通过《生成式人工智能服务管理暂行办法》备案,其中包含云雀大模型。
  • 2023 年 9 月 19 日,火山引擎宣布其数智平台 vedi 推出“AI 助手”,主要通过接入云雀大模型,帮助企业提升数据处理和查询分析的效率。

云雀模型的一些特点和能力如下:

  • 代码生成:具备专业的代码生成能力和知识储备,可高效辅助代码生产场景。
  • 对话表达:通过自然语言处理技术与用户进行对话,回答问题,能处理大量数据,学习到复杂的特征表示,从而完成复杂的多轮对话以及提供相关信息和建议等。
  • 信息提取:可以递归方式理解和抓住复杂的语义结构,深入理解文本信息间的逻辑关系,从非结构化的文本信息中抽取所需的结构化信息。
  • 逻辑推理:分析问题的前提条件和假设来推理出答案或解决方案,给出新的想法和见解。
  • 模型融合:将多个小模型融合在一起,形成更强大的大模型,提高准确率,使模型更加灵活,适应更广泛的数据和任务。
  • 预训练能力:通过预训练,模型在训练前已学会一些基础的知识和特征表示,提高效率且更具迁移性,能适应更广泛的数据集和任务。

其基本原理是基于 Transformer 架构的语言模型,通过前文预测下一个最可能的词语来实现文本生成。运用的新技术主要是基于 Transformer 架构的语言模型和基于人类反馈的强化学习,前者建模了大量蕴含在自然语言中的知识,后者使得模型可以通过对话方式提供合适的内容。

运行机制上,云雀在用户提出问题后,会首先识别用户需求,通过预先学习与全网搜索内容,在对话框中或落地页中展示对应的结果。它首先通过大规模无监督的预训练学习语言的统计规律和知识,然后进行有监督的微调让模型学会遵循用户的指令,最后通过强化学习训练让模型生成合适的内容。

云雀模型主要应用于字节跳动旗下的众多产品和业务,如今日头条、抖音、剪映、番茄小说、西瓜视频、飞书、豆包、悟空浏览器、懂车帝等。

不同版本的云雀模型具有不同特点,适用于不同场景:

  • skylark-lite:有较高的响应速度,适用于实时性要求高、成本敏感,对模型精度要求不高的场景,如快速智能回复、实时通知生成、基础文本理解等。
  • skylark-plus:平衡了响应速度与模型精度,适用于兼顾模型效果与使用成本的场景,如文本摘要、基础文案写作、文本翻译等。
  • skylark-pro:具有较高的模型精度,适用于较为复杂的文本生成场景,如专业领域文案生成、小说创作、高质量翻译等。
  • skylark-chat:针对对话交互场景进行了优化,能够更好地理解前后文,并生成自然对话,适用于构建聊天机器人、虚拟助手和在线客服等场景。

例如基于云雀模型开发的 AI 豆包,用户可通过手机号、抖音或者 Apple ID 登录,它提供聊天机器人、写作助手以及英语学习助手等功能,可以回答各种问题并进行对话,帮助人们获取信息。

此外,字节跳动还基于云雀模型打造了 AI 应用开发平台“扣子”、互动娱乐应用“猫箱”,以及星绘、即梦等 AI 创作工具,并把大模型接入抖音、番茄小说、飞书、巨量引擎等 50 余个业务,用以提升效率和优化产品体验。同时,豆包大模型日均处理 1200 亿 Tokens 文本,生成 3000 万张图片。2024 年 5 月,豆包大模型在火山引擎原动力大会上正式发布,其主力模型在企业市场的定价大幅低于行业价格。

云雀模型在不断发展和进化,未来可能会在更多领域和场景中得到应用和拓展。同时,字节跳动也在持续改进和优化云雀模型,以提供更智能、高效和准确的服务。如果你想了解更多关于云雀模型的最新信息,可以关注字节跳动的官方发布渠道或相关报道。


豆包AI

相关资讯