API 简介

认证方式

流式响应

基础用法

错误处理

OpenAI 兼容性

Anthropic 兼容性

API 端点详解

生成接口 (POST /api/generate)

聊天接口 (POST /api/chat)

嵌入接口 (POST /api/embeddings)

模型列表 (GET /api/tags)

运行中模型 (GET /api/ps)

模型详情 (POST /api/show)

创建模型 (POST /api/create)

复制模型 (POST /api/copy)

拉取模型 (POST /api/pull)

推送模型 (POST /api/push)

删除模型 (DELETE /api/delete)

获取版本 (GET /api/version)

Python 开发

Python SDK 安装与配置

Ollama Python 生成

Python 流式处理

Python 异步编程

JavaScript/TypeScript 开发

JavaScript SDK 安装与配置

JavaScript 生成与聊天

JavaScript 流式处理

TypeScript 类型定义

Go 语言开发

Go 客户端配置

Go 生成与聊天

Go 流式处理

Go 并发处理

高级应用

构建聊天机器人

构建 RAG 应用

多模态应用

构建代码助手

构建翻译工具

批量处理

性能优化

连接池管理

模型管理

并发与限流

模型自定义

缓存策略

模型量化

超时与重试

模型性能优化

部署与集成

与 LangChain 集成

最佳实践

故障排除

与 LlamaIndex 集成

更多资源

Web 应用集成

微服务架构

与 LlamaIndex 集成

LlamaIndex 是专门用于构建 RAG 应用的框架，与 Ollama 集成简单高效。

安装依赖

pip install llama-index llama-index-llms-ollama llama-index-embeddings-ollama

基本使用

from llama_index.llms.ollama import Ollama

llm = Ollama(model="llama3.2", request_timeout=120.0)

response = llm.complete("你好，请介绍一下自己")
print(response.text)

流式输出

from llama_index.llms.ollama import Ollama

llm = Ollama(model="llama3.2")

for chunk in llm.stream_complete("写一首诗"):
    print(chunk.delta, end="", flush=True)

聊天模式

from llama_index.llms.ollama import Ollama
from llama_index.core.llms import ChatMessage

llm = Ollama(model="llama3.2")

messages = [
    ChatMessage(role="system", content="你是一个友好的助手"),
    ChatMessage(role="user", content="你好")
]

response = llm.chat(messages)
print(response.message.content)

嵌入模型

from llama_index.embeddings.ollama import OllamaEmbedding

embed_model = OllamaEmbedding(
    model_name="nomic-embed-text",
    base_url="http://localhost:11434"
)

embeddings = embed_model.get_text_embedding("Hello World")
print(f"嵌入维度: {len(embeddings)}")

简单 RAG

from llama_index.llms.ollama import Ollama
from llama_index.embeddings.ollama import OllamaEmbedding
from llama_index.core import VectorStoreIndex, SimpleDirectoryReader, Settings

Settings.llm = Ollama(model="llama3.2")
Settings.embed_model = OllamaEmbedding(model_name="nomic-embed-text")

documents = SimpleDirectoryReader("./documents").load_data()

index = VectorStoreIndex.from_documents(documents)

query_engine = index.as_query_engine()

response = query_engine.query("文档的主要内容是什么？")
print(response)

内存向量存储

from llama_index.llms.ollama import Ollama
from llama_index.embeddings.ollama import OllamaEmbedding
from llama_index.core import VectorStoreIndex, Document, Settings

Settings.llm = Ollama(model="llama3.2")
Settings.embed_model = OllamaEmbedding(model_name="nomic-embed-text")

documents = [
    Document(text="Ollama 是一个本地运行大语言模型的工具。"),
    Document(text="Ollama 支持 Llama、Mistral 等多种模型。"),
    Document(text="Ollama 提供 REST API 接口。")
]

index = VectorStoreIndex.from_documents(documents)

query_engine = index.as_query_engine()

response = query_engine.query("Ollama 支持哪些模型？")
print(response)

对话式 RAG

from llama_index.llms.ollama import Ollama
from llama_index.embeddings.ollama import OllamaEmbedding
from llama_index.core import VectorStoreIndex, Document, Settings
from llama_index.core.memory import ChatMemoryBuffer

Settings.llm = Ollama(model="llama3.2")
Settings.embed_model = OllamaEmbedding(model_name="nomic-embed-text")

documents = [
    Document(text="Python 是一种高级编程语言。"),
    Document(text="Python 广泛用于 Web 开发和数据科学。")
]

index = VectorStoreIndex.from_documents(documents)

memory = ChatMemoryBuffer.from_defaults(token_limit=4096)

chat_engine = index.as_chat_engine(
    chat_mode="context",
    memory=memory,
    verbose=True
)

response1 = chat_engine.chat("Python 是什么？")
print(response1)

response2 = chat_engine.chat("它有哪些应用？")
print(response2)

自定义提示词

from llama_index.llms.ollama import Ollama
from llama_index.embeddings.ollama import OllamaEmbedding
from llama_index.core import VectorStoreIndex, Document, Settings, PromptTemplate

Settings.llm = Ollama(model="llama3.2")
Settings.embed_model = OllamaEmbedding(model_name="nomic-embed-text")

documents = [Document(text="Ollama 是本地 LLM 运行工具。")]
index = VectorStoreIndex.from_documents(documents)

qa_prompt = PromptTemplate(
    "根据以下上下文回答问题。如果上下文中没有相关信息，请说不知道。\n"
    "上下文：{context_str}\n"
    "问题：{query_str}\n"
    "回答："
)

query_engine = index.as_query_engine(text_qa_template=qa_prompt)

response = query_engine.query("Ollama 是什么？")
print(response)

上一章：故障排除

下一章：更多资源