Ollama 简介

安装与配置

第一个模型运行

基本命令介绍

模型库介绍

拉取与删除模型

模型版本管理

自定义模型

Modelfile 基础

模板语法

参数配置

系统提示词

本地服务部署

Docker 容器化

生产环境配置

监控与日志

Ollama 命令速查表

常见问题解答

学习资源推荐

第一个模型运行

安装好 Ollama 后，手把手教你运行第一个 Ollama 模型，包括模型下载、对话交互、退出方法等基础操作。让我们来运行第一个模型。

选择你的第一个模型

对于初次体验，推荐以下模型：

模型	大小	特点	推荐理由
llama3.2:1b	约 1.3 GB	轻量快速	适合配置较低的电脑
llama3.2:3b	约 2 GB	平衡性能	日常使用推荐
llama3.1:8b	约 4.7 GB	性能优秀	有 8GB+ 内存推荐
qwen2.5:7b	约 4.7 GB	中文友好	中文场景首选

小贴士：模型名称后面的数字（如 7b、8b）表示参数规模，数字越大模型越聪明，但需要的资源也越多。

运行模型

基本命令

ollama run <模型名称>

示例：运行 Llama 3.2

ollama run llama3.2

首次运行时，Ollama 会自动下载模型：

pulling manifest
pulling 6a0746a1ec1a... 100% ▕████████████████▏ 2.0 GB
pulling 3cbb33d36c1a... 100% ▕████████████████▏ 4.7 KB
pulling 9bc4e229f4b7... 100% ▕████████████████▏ 6.0 KB
pulling 9a7b3e4d5f6a... 100% ▕████████████████▏ 486 B
pulling 1a2b3c4d5e6f... 100% ▕████████████████▏ 4.5 KB
verifying sha256 digest
writing manifest
removing any unused layers
success

下载完成后，你会看到提示符：

>>>

这表示模型已经准备好，可以开始对话了。

开始对话

简单问答

>>> 你好，请介绍一下自己

你好！我是 Llama，一个由 Meta 开发的大语言模型。我可以帮助你回答问题、
写作、编程、翻译等各种任务。有什么我可以帮助你的吗？

多轮对话

Ollama 会记住对话上下文：

>>> 我叫小明

你好，小明！很高兴认识你。有什么我可以帮助你的吗？

>>> 我叫什么名字？

你叫小明。

让模型写代码

>>> 用 Python 写一个猜数字游戏

好的，这是一个猜数字游戏：

```python
import random

def guess_number():
    number = random.randint(1, 100)
    attempts = 0
    
    print("我想了一个 1-100 之间的数字，来猜猜看！")
    
    while True:
        guess = int(input("请输入你的猜测: "))
        attempts += 1
        
        if guess < number:
            print("太小了，再试试！")
        elif guess > number:
            print("太大了，再试试！")
        else:
            print(f"恭喜你猜对了！你用了 {attempts} 次猜中。")
            break

if __name__ == "__main__":
    guess_number()

让模型翻译

>>> 把这段话翻译成英文：人工智能正在改变我们的生活方式

Artificial intelligence is changing the way we live.

交互命令

在对话过程中，可以使用一些特殊命令：

查看帮助

>>> /?
Available Commands:
  /set            Set session variables
  /show           Show model information
  /load <model>   Load a session or model
  /save <model>   Save your current session
  /clear          Clear session context
  /bye            Exit
  /?, /help       Help for commands
  /? shortcuts    Help for keyboard shortcuts

清除对话

>>> /clear

清除当前对话历史，开始新的对话。

查看模型信息

>>> /show info

Model details:
  Family              llama
  Parameter Size      3.2B
  Quantization Level  Q4_K_M

设置参数

>>> /set parameter temperature 0.5
Set parameter 'temperature' to '0.5'

退出对话

>>> /bye

或者直接按 Ctrl + d（Linux/macOS）或 Ctrl + z（Windows）。

常用快捷键

快捷键	功能
`Ctrl + c`	取消当前输入或中断生成
`Ctrl + d`	退出（Linux/macOS）
`Ctrl + z`	退出（Windows）
`↑` / `↓`	浏览历史输入
`Tab`	自动补全命令

指定模型版本

Ollama 支持指定模型的特定版本（标签）：

# 运行最新版本
ollama run llama3.2

# 运行特定版本
ollama run llama3.2:1b    # 1B 参数版本
ollama run llama3.2:3b    # 3B 参数版本

# 运行特定日期版本
ollama run llama3.2:3b-instruct-q4_0

后台运行

如果你想让模型在后台运行，可以先启动服务：

# 启动 Ollama 服务
ollama serve

然后在另一个终端运行：

ollama run llama3.2

检查模型状态

查看已安装的模型

ollama list

输出示例：

NAME                ID              SIZE    MODIFIED
llama3.2:latest     a80c4f17acd5    2.0 GB  2 hours ago
qwen2.5:7b          c4e1c1e1c1e1    4.7 GB  1 day ago

查看模型详情

ollama show llama3.2

输出示例：

Model
  architecture        llama
  parameters          3.2B
  context length      131072
  embedding length    3072

  Quantization        Q4_K_M

查看运行中的模型

ollama ps

输出示例：

NAME        ID              SIZE    PROCESSOR    UNTIL
llama3.2    a80c4f17acd5    5.2 GB  100% GPU     4 minutes from now

模型存储位置

下载的模型存储在本地：

系统	默认路径
macOS	~/.ollama/models
Linux	/usr/share/ollama/.ollama/models
Windows	C:\Users<用户名>.ollama\models

常见问题

下载速度慢

模型文件较大，下载可能需要一些时间。可以：

选择较小的模型（如 1b 或 3b 版本）
使用代理或镜像
手动下载 GGUF 文件后导入

内存不足

如果提示内存不足：

关闭其他程序
选择更小的模型
使用量化程度更高的版本

响应很慢

可能的原因：

没有使用 GPU - 检查 GPU 配置
模型太大 - 尝试更小的模型
内存不足 - 关闭其他程序

中文效果不好

推荐使用中文友好的模型：

ollama run qwen2.5:7b    # 通义千问
ollama run yi:6b         # 零一万物
ollama run deepseek-coder:6.7b  # 深度求索

练习

尝试完成以下任务来熟悉基本操作：

运行 llama3.2 模型
让模型自我介绍
让模型写一首关于春天的诗
让模型解释什么是递归
使用 /clear 清除对话
使用 /bye 退出

上一章：安装与配置

下一章：基本命令介绍