第一个模型运行

安装好 Ollama 后, 手把手教你运行第一个 Ollama 模型,包括模型下载、对话交互、退出方法等基础操作。让我们来运行第一个模型。

选择你的第一个模型

对于初次体验,推荐以下模型:

模型大小特点推荐理由
llama3.2:1b约 1.3 GB轻量快速适合配置较低的电脑
llama3.2:3b约 2 GB平衡性能日常使用推荐
llama3.1:8b约 4.7 GB性能优秀有 8GB+ 内存推荐
qwen2.5:7b约 4.7 GB中文友好中文场景首选

小贴士:模型名称后面的数字(如 7b、8b)表示参数规模,数字越大模型越聪明,但需要的资源也越多。

运行模型

基本命令

ollama run <模型名称>

示例:运行 Llama 3.2

ollama run llama3.2

首次运行时,Ollama 会自动下载模型:

pulling manifest
pulling 6a0746a1ec1a... 100% ▕████████████████▏ 2.0 GB
pulling 3cbb33d36c1a... 100% ▕████████████████▏ 4.7 KB
pulling 9bc4e229f4b7... 100% ▕████████████████▏ 6.0 KB
pulling 9a7b3e4d5f6a... 100% ▕████████████████▏ 486 B
pulling 1a2b3c4d5e6f... 100% ▕████████████████▏ 4.5 KB
verifying sha256 digest
writing manifest
removing any unused layers
success

下载完成后,你会看到提示符:

>>> 

这表示模型已经准备好,可以开始对话了。

开始对话

简单问答

>>> 你好,请介绍一下自己

你好!我是 Llama,一个由 Meta 开发的大语言模型。我可以帮助你回答问题、
写作、编程、翻译等各种任务。有什么我可以帮助你的吗?

多轮对话

Ollama 会记住对话上下文:

>>> 我叫小明

你好,小明!很高兴认识你。有什么我可以帮助你的吗?

>>> 我叫什么名字?

你叫小明。

让模型写代码

>>> 用 Python 写一个猜数字游戏

好的,这是一个猜数字游戏:

```python
import random

def guess_number():
    number = random.randint(1, 100)
    attempts = 0
    
    print("我想了一个 1-100 之间的数字,来猜猜看!")
    
    while True:
        guess = int(input("请输入你的猜测: "))
        attempts += 1
        
        if guess < number:
            print("太小了,再试试!")
        elif guess > number:
            print("太大了,再试试!")
        else:
            print(f"恭喜你猜对了!你用了 {attempts} 次猜中。")
            break

if __name__ == "__main__":
    guess_number()

让模型翻译

>>> 把这段话翻译成英文:人工智能正在改变我们的生活方式

Artificial intelligence is changing the way we live.

交互命令

在对话过程中,可以使用一些特殊命令:

查看帮助

>>> /?
Available Commands:
  /set            Set session variables
  /show           Show model information
  /load <model>   Load a session or model
  /save <model>   Save your current session
  /clear          Clear session context
  /bye            Exit
  /?, /help       Help for commands
  /? shortcuts    Help for keyboard shortcuts

清除对话

>>> /clear

清除当前对话历史,开始新的对话。

查看模型信息

>>> /show info

Model details:
  Family              llama
  Parameter Size      3.2B
  Quantization Level  Q4_K_M

设置参数

>>> /set parameter temperature 0.5
Set parameter 'temperature' to '0.5'

退出对话

>>> /bye

或者直接按 Ctrl + d(Linux/macOS)或 Ctrl + z(Windows)。

常用快捷键

快捷键功能
Ctrl + c取消当前输入或中断生成
Ctrl + d退出(Linux/macOS)
Ctrl + z退出(Windows)
/ 浏览历史输入
Tab自动补全命令

指定模型版本

Ollama 支持指定模型的特定版本(标签):

# 运行最新版本
ollama run llama3.2

# 运行特定版本
ollama run llama3.2:1b    # 1B 参数版本
ollama run llama3.2:3b    # 3B 参数版本

# 运行特定日期版本
ollama run llama3.2:3b-instruct-q4_0

后台运行

如果你想让模型在后台运行,可以先启动服务:

# 启动 Ollama 服务
ollama serve

然后在另一个终端运行:

ollama run llama3.2

检查模型状态

查看已安装的模型

ollama list

输出示例:

NAME                ID              SIZE    MODIFIED
llama3.2:latest     a80c4f17acd5    2.0 GB  2 hours ago
qwen2.5:7b          c4e1c1e1c1e1    4.7 GB  1 day ago

查看模型详情

ollama show llama3.2

输出示例:

Model
  architecture        llama
  parameters          3.2B
  context length      131072
  embedding length    3072

  Quantization        Q4_K_M

查看运行中的模型

ollama ps

输出示例:

NAME        ID              SIZE    PROCESSOR    UNTIL
llama3.2    a80c4f17acd5    5.2 GB  100% GPU     4 minutes from now

模型存储位置

下载的模型存储在本地:

系统默认路径
macOS~/.ollama/models
Linux/usr/share/ollama/.ollama/models
WindowsC:\Users<用户名>.ollama\models

常见问题

下载速度慢

模型文件较大,下载可能需要一些时间。可以:

  1. 选择较小的模型(如 1b 或 3b 版本)
  2. 使用代理或镜像
  3. 手动下载 GGUF 文件后导入

内存不足

如果提示内存不足:

  1. 关闭其他程序
  2. 选择更小的模型
  3. 使用量化程度更高的版本

响应很慢

可能的原因:

  1. 没有使用 GPU - 检查 GPU 配置
  2. 模型太大 - 尝试更小的模型
  3. 内存不足 - 关闭其他程序

中文效果不好

推荐使用中文友好的模型:

ollama run qwen2.5:7b    # 通义千问
ollama run yi:6b         # 零一万物
ollama run deepseek-coder:6.7b  # 深度求索

练习

尝试完成以下任务来熟悉基本操作:

  1. 运行 llama3.2 模型
  2. 让模型自我介绍
  3. 让模型写一首关于春天的诗
  4. 让模型解释什么是递归
  5. 使用 /clear 清除对话
  6. 使用 /bye 退出