在线文档
技术博客
API 简介
认证方式
认证方式
流式响应
基础用法
错误处理
OpenAI 兼容性
Anthropic 兼容性
API 端点详解
生成接口 (POST /api/generate)
聊天接口 (POST /api/chat)
嵌入接口 (POST /api/embeddings)
模型列表 (GET /api/tags)
运行中模型 (GET /api/ps)
模型详情 (POST /api/show)
创建模型 (POST /api/create)
复制模型 (POST /api/copy)
拉取模型 (POST /api/pull)
推送模型 (POST /api/push)
删除模型 (DELETE /api/delete)
获取版本 (GET /api/version)
Python 开发
Python SDK 安装与配置
Ollama Python 生成
Python 流式处理
Python 异步编程
JavaScript/TypeScript 开发
JavaScript SDK 安装与配置
JavaScript 生成与聊天
JavaScript 流式处理
TypeScript 类型定义
Go 语言开发
Go 客户端配置
Go 生成与聊天
Go 流式处理
Go 并发处理
高级应用
构建聊天机器人
构建 RAG 应用
多模态应用
构建代码助手
构建翻译工具
批量处理
性能优化
连接池管理
模型管理
并发与限流
模型自定义
缓存策略
模型量化
超时与重试
模型性能优化
部署与集成
与 LangChain 集成
最佳实践
故障排除
与 LlamaIndex 集成
更多资源
Web 应用集成
微服务架构
Ollama API
性能优化
性能优化
本部分介绍 Ollama 应用的性能优化技巧。
内容概览
章节
内容
[7.1. 连接池管理](7.1. 连接池管理.md)
HTTP 连接池配置
[7.2. 并发与限流](7.2. 并发与限流.md)
并发控制和限流策略
[7.3. 缓存策略](7.3. 缓存策略.md)
响应缓存机制
[7.4. 超时与重试](7.4. 超时与重试.md)
超时配置和重试机制
学习目标
完成本部分学习后,你将能够:
配置连接池提高性能
实现并发控制和限流
设计缓存策略
实现健壮的超时和重试机制
上一章:批量处理
下一章:连接池管理