字节跳动：云雀模型

10 个月前语言模型 1691

云雀模型是字节跳动公司研发的大规模预训练语言模型系列，有 lite、plus、pro、pro-4k、chat 五个版本。其中 v1.0 版本包含 lite、plus、pro 三个版本，于 2023 年 8 月 6 日上线发布。

云雀模型基于字节神经网络加速器开发，通过便捷的自然语言交互，能够高效地完成互动对话、信息获取、协助创作等任务，还提供了简单的 API 调用，可基于大模型快速搭建属于自己的 AI 应用，进行业务创新。

其发展历程中的重要节点包括：

2023 年 8 月 17 日，字节跳动公测基于云雀大模型开发的 AI 对话产品“豆包”，有网页端、iOS 和安卓客户端，预置了英语学习助手和写作助手两个功能。
2023 年 8 月 31 日，首批 8 家大模型通过《生成式人工智能服务管理暂行办法》备案，其中包含云雀大模型。
2023 年 9 月 19 日，火山引擎宣布其数智平台 vedi 推出“AI 助手”，主要通过接入云雀大模型，帮助企业提升数据处理和查询分析的效率。

云雀模型的一些特点和能力如下：

代码生成：具备专业的代码生成能力和知识储备，可高效辅助代码生产场景。
对话表达：通过自然语言处理技术与用户进行对话，回答问题，能处理大量数据，学习到复杂的特征表示，从而完成复杂的多轮对话以及提供相关信息和建议等。
信息提取：可以递归方式理解和抓住复杂的语义结构，深入理解文本信息间的逻辑关系，从非结构化的文本信息中抽取所需的结构化信息。
逻辑推理：分析问题的前提条件和假设来推理出答案或解决方案，给出新的想法和见解。
模型融合：将多个小模型融合在一起，形成更强大的大模型，提高准确率，使模型更加灵活，适应更广泛的数据和任务。
预训练能力：通过预训练，模型在训练前已学会一些基础的知识和特征表示，提高效率且更具迁移性，能适应更广泛的数据集和任务。

其基本原理是基于 Transformer 架构的语言模型，通过前文预测下一个最可能的词语来实现文本生成。运用的新技术主要是基于 Transformer 架构的语言模型和基于人类反馈的强化学习，前者建模了大量蕴含在自然语言中的知识，后者使得模型可以通过对话方式提供合适的内容。

运行机制上，云雀在用户提出问题后，会首先识别用户需求，通过预先学习与全网搜索内容，在对话框中或落地页中展示对应的结果。它首先通过大规模无监督的预训练学习语言的统计规律和知识，然后进行有监督的微调让模型学会遵循用户的指令，最后通过强化学习训练让模型生成合适的内容。

云雀模型主要应用于字节跳动旗下的众多产品和业务，如今日头条、抖音、剪映、番茄小说、西瓜视频、飞书、豆包、悟空浏览器、懂车帝等。

不同版本的云雀模型具有不同特点，适用于不同场景：

skylark-lite：有较高的响应速度，适用于实时性要求高、成本敏感，对模型精度要求不高的场景，如快速智能回复、实时通知生成、基础文本理解等。
skylark-plus：平衡了响应速度与模型精度，适用于兼顾模型效果与使用成本的场景，如文本摘要、基础文案写作、文本翻译等。
skylark-pro：具有较高的模型精度，适用于较为复杂的文本生成场景，如专业领域文案生成、小说创作、高质量翻译等。
skylark-chat：针对对话交互场景进行了优化，能够更好地理解前后文，并生成自然对话，适用于构建聊天机器人、虚拟助手和在线客服等场景。

例如基于云雀模型开发的 AI 豆包，用户可通过手机号、抖音或者 Apple ID 登录，它提供聊天机器人、写作助手以及英语学习助手等功能，可以回答各种问题并进行对话，帮助人们获取信息。

此外，字节跳动还基于云雀模型打造了 AI 应用开发平台“扣子”、互动娱乐应用“猫箱”，以及星绘、即梦等 AI 创作工具，并把大模型接入抖音、番茄小说、飞书、巨量引擎等 50 余个业务，用以提升效率和优化产品体验。同时，豆包大模型日均处理 1200 亿 Tokens 文本，生成 3000 万张图片。2024 年 5 月，豆包大模型在火山引擎原动力大会上正式发布，其主力模型在企业市场的定价大幅低于行业价格。

云雀模型在不断发展和进化，未来可能会在更多领域和场景中得到应用和拓展。同时，字节跳动也在持续改进和优化云雀模型，以提供更智能、高效和准确的服务。如果你想了解更多关于云雀模型的最新信息，可以关注字节跳动的官方发布渠道或相关报道。

豆包AI