面壁智能

为大模型加速与应用落地赋能

大模型面壁智能 ModelBest

训练模型 9 个月前 2904 144 0

直达应用

面壁智能（ModelBest）是一家人工智能大模型技术创新与应用落地企业。

面壁智能的基本介绍：

核心团队：面壁智能的创始团队来自于清华大学计算机系自然语言处理与社会人文计算实验室，联合创始人刘知远为清华大学计算机系长聘副教授、智源青年科学家。
公司愿景与使命：公司愿景为“智周万物”，致力于创造安全、普惠的通用人工智能，让AI技术惠及千万家企业。其依托开源社区打造大规模预训练模型库与相关工具，加速百亿级以上大模型的训练、微调与推理，降低大模型使用门槛，并进一步推动大模型在人工智能典型场景与领域的应用与落地。
主要项目及成果：
- 模型方面：
  - CPM-BEE：是具有100亿参数规模的开源大语言模型，针对高质量中文数据集做了训练优化，支持中英文。在中英文的多种评测任务中表现出色。
  - MiniCPM：被称为“小钢炮”，是一个多模态模型，具有轻量、高效的特点，例如可以实现难图长图长文本精准识别，量化后仅8G显存，4070显卡轻松推理，还支持30多种语言。
  - Luca：于2023年8月28日下午在“通用人工智能算力论坛”（AGICF）上发布。Luca1.0版本最早于5月27日在2023数博会上首次亮相，三个月内总共迭代了85次，大语言模型能力整体提升39%，其中推理能力提升119%，推理、知识、生成等多项能力媲美ChatGPT。其图片理解能力很强，在多模对话、细节描述和复杂推理三项整体得分上表现优异，远超现有支持中文且具备图片理解能力的大模型。
  - UltraLM-13B-V2.0：从Llama2-13b模型在UltraChat数据集上微调而来，在AlpacaEval榜单取得了92.30%的高分，成为70b以下模型最高分。团队为了进一步提高生成质量，构建了大规模反馈数据集UltraFeedback并基于此训练了高质量奖励模型UltraRM，UltraRM进一步帮助UltraLM-13B-V2.0在AlpacaEval榜单取得了70b以下模型中的最佳性能。
- 工具方面：
  - BMTrain工具包：能够为大模型训练提供支持，可大幅降低GPT3的训练成本，加速技术达到业界先进水平，有助于提高大模型训练的效率和经济性。
  - OpenPrompt工具包：用于提示学习，获得了人工智能领域顶级会议ACL 2022最佳演示论文奖，在大模型的微调方面发挥重要作用，提出的参数高效微调Delta Tuning技术体系和工具包OpenDelta，为全球首个该技术体系工具包。
  - BMInf工具包：用于大模型的推理，突破了业界通用工具使用显存的限制，能够实现在1060消费级显卡上运行百亿大模型，同时还构建了企业级推理产品，实现多机多卡推理加速。
  - XAgent：是面壁智能联合清华大学NLP实验室共同研发推出的大模型“超级英雄”，可以实现自主解决复杂任务。它以LLM为核心，能够理解人类指令、制定复杂计划并自主采取行动。其创新地引入了“双循环机制”，包括负责全局任务规划的外循环和负责局部任务执行的内循环；具备直观的界面，方便人机协作；采用FunctionCall作为内部通信语言，具备结构化、标准化、统一化等优势，并原创了工具执行引擎ToolServer，支持多种工具，具有安全、高效、可扩展等特点。
  - ChatDev：是由面壁智能联合清华大学NLP实验室共同开发的大模型全流程自动化软件开发框架，将整个软件开发过程分为软件设计、系统开发、集成测试、文档编制四个主要环节，每个环节都有专门设定好的大模型角色去完成。
开源社区与合作：面壁智能积极建设开源社区，吸引了众多开发者的参与，为开发者提供了交流和合作的平台，共同推动大模型技术的创新和发展。此外，面壁智能还与国内外的科研机构、企业等开展广泛合作，例如与英特尔成为重要的AIPC生态合作伙伴，在全新英特尔商用客户端AIPC产品发布会上展示了面壁MiniCPM的应用。
影响力与未来发展：面壁智能在大模型领域取得了显著的成果和影响力，其发布的模型和工具在学术界和工业界受到关注。未来，面壁智能将继续致力于大模型技术的研发和创新，不断提升模型的性能和功能，拓展大模型的应用领域，加强与各方的合作，推动人工智能技术的发展和应用，为实现安全、普惠的通用人工智能的目标而努力。