DeepSeek FlashMLA是国产AI公司DeepSeek于2025年2月24日开源的首个代码库。这里的MLA是 Multi-Head Latent Attention 的缩写,指的是多头潜在注
2 个月前
Meta的Transfusion模型代表了多模态AI领域的一个重要进展,成功地将Transformer架构与扩散模型(Diffusion models)结合起来,实现了对文本和图像的统一处理和生成。
8 个月前
Transformer是一种基于自注意力机制的深度神经网络架构,它完全基于注意力机制,摒弃了之前广泛使用的循环和卷积网络结构。应用于多个领域,包括自然语言处理(NLP)和计算机视觉(CV)中取得了显著
9 个月前
云雀模型基于字节神经网络加速器开发,通过便捷的自然语言交互,能够高效地完成互动对话、信息获取、协助创作等任务,还提供了简单的 API 调用,可基于大模型快速搭建属于自己的 AI 应用,进行业务创新。
9 个月前