Ollama 是一个让你在本地轻松运行大语言模型(LLM)的工具。简单来说,它把复杂的大模型部署变得像安装一个普通软件一样简单。
以前要在本地运行大模型,你需要:
现在有了 Ollama,你只需要:
ollama run llama3
就这么简单。
最基本的功能是和 AI 对话:
你:今天天气怎么样?
AI:抱歉,我无法获取实时天气信息,因为我是一个离线运行的 AI 模型。
可以生成各种类型的文本:
帮你写代码、解释代码、调试代码:
你:用 Python 写一个快速排序
AI:def quick_sort(arr):
if len(arr) <= 1:
return arr
pivot = arr[len(arr) // 2]
left = [x for x in arr if x < pivot]
middle = [x for x in arr if x == pivot]
right = [x for x in arr if x > pivot]
return quick_sort(left) + middle + quick_sort(right)
上传文档后,可以基于文档内容回答问题。
| 特性 | 说明 |
|---|---|
| 数据隐私 | 所有数据都在本地,不会上传到云端 |
| 无网络依赖 | 安装后可以离线使用 |
| 无费用 | 不用按次付费,没有 API 调用限制 |
| 可控性 | 完全控制模型的行为和输出 |
Ollama 的设计哲学就是"简单":
Ollama 支持多种主流大模型:
| 模型 | 特点 | 适用场景 | |------||------| | Llama 3 | Meta 开源,性能优秀 | 通用对话、文本生成 | | Mistral | 轻量高效 | 资源受限环境 | | Gemma | Google 开源 | 多语言任务 | | Qwen | 通义千问 | 中文场景 | | CodeLlama | 代码专用 | 编程辅助 | | Llava | 多模态 | 图文理解 |
Ollama 支持多个操作系统:
| 对比项 | Ollama | 云端 API(如 OpenAI) |
|---|---|---|
| 数据隐私 | 完全本地 | 数据上传到云端 |
| 费用 | 免费 | 按使用量付费 |
| 网络依赖 | 离线可用 | 需要网络连接 |
| 模型选择 | 自行管理 | 服务商提供 |
| 性能 | 取决于本地硬件 | 云端算力 |
| 响应速度 | 本地推理 | 网络延迟 + 云端推理 |
| 对比项 | Ollama | LM Studio | GPT4All |
|---|---|---|---|
| 安装难度 | 简单 | 中等 | 简单 |
| 命令行支持 | 优秀 | 无 | 有 |
| API 接口 | 内置 | 有 | 有 |
| 模型管理 | 方便 | 图形界面 | 图形界面 |
| 资源占用 | 较低 | 中等 | 中等 |
| 组件 | 要求 |
|---|---|
| CPU | 支持 AVX2 的 x86_64 处理器 |
| 内存 | 8 GB |
| 存储 | 10 GB 可用空间 |
| GPU | 可选,但强烈推荐 |
| 组件 | 要求 |
|---|---|
| CPU | 多核心处理器 |
| 内存 | 16 GB 或更多 |
| 存储 | SSD,50 GB 可用空间 |
| GPU | NVIDIA GPU(6GB+ 显存)或 Apple Silicon |
| 模型大小 | 内存需求 | 推荐显存 | 速度 |
|---|---|---|---|
| 7B | 约 8 GB | 6 GB | 快 |
| 13B | 约 16 GB | 10 GB | 中等 |
| 33B | 约 40 GB | 24 GB | 较慢 |
| 70B | 约 80 GB | 48 GB | 慢 |
小知识:B 代表 Billion(十亿),7B 模型约有 70 亿参数。参数越多,模型越聪明,但需要的资源也越多。
Ollama 使用 GGUF 格式的模型文件,这种格式:
类似 Dockerfile 的配置文件,用于定义模型:
FROM llama3
SYSTEM 你是一个专业的代码助手
PARAMETER temperature 0.7
Ollama 自带 REST API,支持:
是的,Ollama 完全开源,基于 MIT 许可证。
可以,MIT 许可证允许商业使用。但要注意:
支持所有 GGUF 格式的模型,包括:
Ollama 主要用于推理,不直接支持训练或微调。如需微调,可以使用其他工具(如 llama.cpp 的训练功能),然后用 Ollama 运行。