清华大学KTransformers 开源项目：低成本本地运行大模型

4 个月前国内 486

2月10日，清华大学KVCache.AI团队联合趋境科技发布的KTransformers开源项目公布更新：一块24G显存的4090D，就可以在本地运行DeepSeek-R1、V3的671B“满血版”。

预处理速度最高达到286 tokens/s，推理生成速度最高能达到14 tokens/s。

KTransformers通过优化本地机器上的LLM部署，帮助解决资源限制问题。该框架采用了异构计算、先进量化技术、稀疏注意力机制等多种创新手段，提升了模型的计算效率，并具备处理长上下文序列的能力。

清华大学大模型本地部署 DeepSeek R1

相关网站

NewAPI

集中管理多种大模型API

Mercury Coder

首款扩散语言模型（dLLMs）

OpenRouter

大模型API路由器

DeepClaude

结合 DeepSeek R1 的推理功能和 Claude 的代码生成功能

Unsloth

高效的模型训练和微调工具

Luminous

世界级语义表示模型

Cosmos世界基础模型

Nvidia世界基础模型

DeepSeek Artifacts

DeepSeek Artifacts

App无代码开发工具

相关资讯