Ollama

启动并运行大型语言模型

开发框架 9 个月前 269 50 0

Ollama 既是一个平台，也可以说是某种意义上的“大模型”。

Ollama 是一个开源的大型语言模型服务工具，它允许用户在自己的硬件环境中轻松部署和使用大规模预训练模型。它简化了模型的部署过程，用户通过简单的安装和指令，就可以在本地运行开源大型语言模型，例如 llama3、qwen2 等。

Ollama 基于 llama.cpp 实现，支持多种开源大模型。它提供了一个方便的平台，用户可以在本地 CPU 上运行这些模型，并且具有较高的推理效率（如果有 GPU，推理效率会更高），还可以兼容 OpenAI 的接口。

例如，可以使用“ollama run qwen2”命令来运行 qwen2 模型，如果本地没有该模型，会先进行下载。完整支持的模型列表可以参考：https://ollama.com/library 。

Ollama 约等于一个简洁的命令行工具和一个稳定的服务端 API，这为下游应用和拓展提供了极大便利，围绕着 Ollama 也形成了丰富的生态，有网页、桌面、终端等多种交互界面及诸多插件和拓展可供使用。

要在 Ollama 上部署自己的模型，你可以参考以下步骤：

准备模型文件：确保你有要部署的模型文件，例如 GGUF、PyTorch 或 SafeTensors 格式的模型文件。
编写modelfile：创建一个名为modelfile的文件，用于描述模型的相关信息。在modelfile中，使用from指令指定模型文件的路径（对于 GGUF 模型）或其他相关设置（对于 PyTorch 或 SafeTensors 模型）。例如，对于 GGUF 模型，from指令应指定本地模型文件的路径，类似于from./your_model.gguf。
创建 Ollama 模型：使用ollama create your_model_name -f modelfile命令创建模型，其中your_model_name是你为模型指定的名称。
运行模型：使用ollama run your_model_name命令运行你的模型。