API 简介

认证方式

流式响应

基础用法

错误处理

OpenAI 兼容性

Anthropic 兼容性

API 端点详解

生成接口 (POST /api/generate)

聊天接口 (POST /api/chat)

嵌入接口 (POST /api/embeddings)

模型列表 (GET /api/tags)

运行中模型 (GET /api/ps)

模型详情 (POST /api/show)

创建模型 (POST /api/create)

复制模型 (POST /api/copy)

拉取模型 (POST /api/pull)

推送模型 (POST /api/push)

删除模型 (DELETE /api/delete)

获取版本 (GET /api/version)

Python 开发

Python SDK 安装与配置

Ollama Python 生成

Python 流式处理

Python 异步编程

JavaScript/TypeScript 开发

JavaScript SDK 安装与配置

JavaScript 生成与聊天

JavaScript 流式处理

TypeScript 类型定义

Go 语言开发

Go 客户端配置

Go 生成与聊天

Go 流式处理

Go 并发处理

高级应用

构建聊天机器人

构建 RAG 应用

多模态应用

构建代码助手

构建翻译工具

批量处理

性能优化

连接池管理

模型管理

并发与限流

模型自定义

缓存策略

模型量化

超时与重试

模型性能优化

部署与集成

与 LangChain 集成

最佳实践

故障排除

与 LlamaIndex 集成

更多资源

Web 应用集成

微服务架构

故障排除

这一章列出使用 Ollama 时可能遇到的问题和解决方案。

连接问题

无法连接到 Ollama

问题：

Connection refused: localhost:11434

解决方法：

检查 Ollama 是否运行：

# macOS/Linux
ps aux | grep ollama

# Windows
tasklist | findstr ollama

启动 Ollama：

ollama serve

检查端口占用：

# macOS/Linux
lsof -i :11434

# Windows
netstat -ano | findstr :11434

检查防火墙设置

连接超时

问题：

TimeoutError: Request timed out

解决方法：

增加超时时间：

import requests

response = requests.post(
    "http://localhost:11434/api/chat",
    json={"model": "llama3.2", "messages": messages},
    timeout=300  # 5 分钟
)

检查网络连接
减少请求大小

模型问题

模型未找到

问题：

model 'xxx' not found

解决方法：

拉取模型：

ollama pull llama3.2

检查模型名称：

import ollama

models = ollamaari.list()
print([m['name'] for m in models['models']])

使用正确的标签：

# 错误
model='llama3.2'

# 正确
model='llama3.2:latest'

模型加载失败

问题：

failed to load model

解决方法：

检查内存是否足够
使用更小的模型或量化：

ollama pull llama3.2:1b

检查模型文件完整性：

ollama show llama3.2

显存不足

问题：

CUDA out of memory

解决方法：

减少上下文长度：

response = ollama.chat(
    model='llama3.2',
    messages=messages,
    options={'num_ctx': 2048}
)

使用更小的量化：

ollama pull llama3.2:3b-q4_K_S

减少使用 GPU：

response = ollama.chat(
    model='llama3.2',
    messages=messages,
    options={'num_gpu': 20}
)

使用 CPU：

response = ollama.chat(
    model='llama3.2',
    messages=messages,
    options={'num_gpu': 0}
)

性能问题

响应速度慢

解决方法：

使用更小的模型
减少生成长度：

response = ollama.chat(
    model='llama3.2',
    messages=messages,
    options={'num_predict': 100}
)

启用 GPU 加速
使用流式输出提升体验

内存占用高

解决方法：

及时卸载模型：

ollama.generate(
    model='llama3.2',
    prompt='',
    keep_alive='0'
)

使用更小的量化
限制并发数量

输出问题

输出不完整

问题：模型输出在中间停止。

解决方法：

增加 num_predict：

response = ollama.chat(
    model='llama3.2',
    messages=messages,
    options={'num_predict': 2000}
)

检查停止词设置
检查上下文长度

输出质量差

解决方法：

调整温度：

response = ollama.chat(
    model='llama3.2',
    messages=messages,
    options={'temperature': 0.3}
)

改进提示词
使用更好的模型
添加系统提示

API 问题

400 错误

问题：

400 Bad Request

解决方法：

检查请求格式：

import json

request = {
    "model": "llama3.2",
    "messages": [{"role": "user", "content": "你好"}]
}

print(json.dumps(request, indent=2))

检查必需参数
验证参数类型

500 错误

问题：

500 Internal Server Error

解决方法：

查看日志：

journalctl -u ollama -f

重启 Ollama
检查模型文件

调试技巧

启用详细日志

import logging

logging.basicConfig(level=logging.DEBUG)

打印请求和响应

def debug_chat(messages):
    print("请求:")
    print(json.dumps(messages, indent=2, ensure_ascii=False))
    
    response = ollama.chat(
        model='llama3.2',
        messages=messages
    )
    
    print("\n响应:")
    print(json.dumps(response, indent=2, ensure_ascii=False))
    
    return response

性能分析

import time
import cProfile

def profile_chat():
    profiler = cProfile.Profile()
    
    profiler.enable()
    response = ollama.chat(
        model='llama3.2',
        messages=[{'role': 'user', 'content': '你好'}]
    )
    profiler.disable()
    
    profiler.print_stats()

profile_chat()

获取帮助

查看日志

# macOS/Linux
tail -f ~/.ollama/logs/server.log

# Windows
type %USERPROFILE%\.ollama\logs\server.log

检查版本

ollama --version

查看文档

ollama --help

社区支持

GitHub Issues: https://github.com/ollama/ollama/issues
Discord: https://discord.gg/ollama
文档: https://ollama.com/docs

上一章：最佳实践

下一章：与 LlamaIndex 集成