苹果的开源模型DCLM-7B

10 个月前语言模型 108

DCLM-Baseline-7B是在DCLM-Baseline数据集上训练的70亿参数语言模型。该数据集是作为DataComp for语言模型（DCLM）基准的一部分精心策划的，强调了数据质量在模型性能中的重要性。该模型拥有令人印象深刻的规格，在2.5万亿个令牌上进行了训练，上下文长度为2048个令牌。此外，苹果还发布了一个扩展了8K上下文长度的版本，进一步扩展了其功能。

DCLM-7B的主要特性

参数个数:70亿个参数
训练数据:2.5万亿代币
初始上下文长度:2048个令牌
扩展上下文长度:8K令牌（更新版本）
许可证：苹果ASCL（类似MIT许可证）
可获得性←Wikivoyage：可在HuggingFace上公开访问

DCLM-7B在苹果ASCL许可证下的发布，与麻省理工学院许可证类似，标志着苹果打算为开源人工智能社区做出贡献。这一举措允许研究人员和开发人员自由地使用、修改和分发模型，这可能会加速自然语言处理和理解的进步。