FALCONS.AI 是一家总部位于阿联酋哈伊马角的开创性技术公司,为企业和政府提供人工智能解决方案。组织所做的一切都会影响人类的生活。我们的目标是改进这一点,以便我们最终能够让人类生活更美好。

Falcon 是一系列开源的大语言模型。其中,Falcon 180b 是该系列中具有代表性的模型。

Falcon 180b 拥有1800亿参数,在3.5万亿个 token 上完成训练。它是 Falcon 40b 的升级版本,由阿布扎比的全球领先技术研究中心 TII 推出。研究人员在基底模型技术上进行了创新,如利用 multi-query attention 等来提高模型的可扩展性。其训练数据主要来自 refined web 数据集(大约占85%),此外还包含对话、技术论文以及一小部分代码(约占3%)等经过整理的混合数据。

在性能方面,Falcon 180b 在多个基准测试中表现出色。在 mmlu 基准上,其性能超过了 llama2 70b 和 gpt-3.5;在 hellaswag、lambada、webquestions、winogrande、piqa、arc、boolq、cb、copa、rte、wic、wsc 及 record 等测试中,与谷歌的 palm2-large 不相上下。在 huggingface 开源大模型榜单上,它也是当前评分最高(68.74 分)的开放式大模型,超越了 llama2(67.35)。

Falcon 180b 可免费商用,但有严格的条件限制,不包括任何“托管用途”。同时,研究人员还发布了聊天对话模型 Falcon-180b-chat,该模型在对话和指令数据集上进行了微调,可在特定平台上进行 demo 体验。

从 transformers 4.33 开始,Falcon 180b 可以在 huggingface 生态中使用和下载。使用该模型时需注意硬件要求,若想对其进行全面微调,至少需要8x8xa100 80g 的配置,如果仅是推理,也需要8xa100 80g 的 gpu。

Falcon 系列中还有其他模型,如 Falcon-40b、Falcon-7b、Falcon-rw-7b 等。Falcon-40b 在1万亿 token 上进行训练,并使用精选语料库进行了增强;Falcon-7b 参数为70亿,在1.5万亿 token 上进行了训练;Falcon-rw-7b 参数也是70亿,在3500亿 token 上进行训练,该模型旨在用作“研究神器”,用于单独研究各种在网络数据进行训练的影响。

总的来说,Falcon 大模型在开源大模型领域引起了广泛关注,其性能和特点使其成为一个具有竞争力的语言模型。但对于其性能的评价可能因具体应用和测试场景而有所不同。在使用时,需根据实际需求和硬件条件进行选择和优化。同时,关于其开源许可证的具体规定和商业使用的限制,建议在使用前仔细阅读相关文档和条款。

免责声明:本网站仅提供网址导航服务,对链接内容不负任何责任或担保。
相关资讯