4. 运行与对话

2 min

1. 交互式对话

使用 ollama run 启动模型并进入交互式对话:

bash
ollama run qwen3.5:9b

如果模型尚未下载,run 命令会自动先拉取模型,然后启动对话。进入对话后,直接输入问题即可:

albert@dev: ~

输入 /bye 或按 Ctrl + D 退出对话。

1.1 对话中的斜杠命令

命令 作用
/bye 退出对话
/set system <提示词> 设置系统提示词
/show info 显示当前模型信息
/clear 清除对话上下文

例如,设置系统角色让模型以特定风格回答:

albert@dev: ~

2. 单次执行

通过管道一次性传入问题,不进入交互模式:

albert@dev: ~

也可以结合其他命令使用:

bash
# 让 AI 解释一段代码
cat demo.py | ollama run qwen3.5:9b "解释一下这段脚本"

3. 多模态(图片理解)

Ollama 支持多模态模型,比如 Llava,可以理解图片内容:

albert@dev: ~

4. REST API

Ollama 启动后会在 localhost:11434 提供一组 REST API,供程序调用。

4.1 基本调用

bash
# 单轮生成
curl http://localhost:11434/api/generate -d '{"model": "qwen3.5:9b","prompt": "Java 是什么?","stream": false}'

# 多轮对话
curl http://localhost:11434/api/chat -d '{
  "model": "qwen3.5:9b",
  "messages": [
    { "role": "system", "content": "你是一位友好的中文助手" },
    { "role": "user", "content": "你好" }
  ],
  "stream": false
}'
json
{
  "model": "qwen3.5:9b",
  "created_at": "2026-03-24T08:39:45.462599Z",
  "response": "",
  "thinking": "",
  "done": true,
  "done_reason": "stop",
  "context": [],
  "total_duration": 38505592542,
  "load_duration": 143000084,
  "prompt_eval_count": 14,
  "prompt_eval_duration": 97122708,
  "eval_count": 1701,
  "eval_duration": 37900377932
}

4.2 OpenAI 兼容 API

Ollama 兼容 OpenAI API 格式,已有 OpenAI SDK 的项目只需改一下地址即可切换到本地模型:

bash
# 先安装 OpenAI SDK
pip install openai
demo.py
python
from openai import OpenAI
# 1. 连接本地Ollama
# 注意:/v1 是固定规范,绝对不要修改!
client = OpenAI(
    base_url="http://localhost:11434/v1",
    api_key="ollama" # 本地模型无密钥,占位即可
)
# 2. 调用你的模型:qwen3.5:9b
response = client.chat.completions.create(
    model="qwen3.5:9b", # Ollama 里的模型全名
    messages=[
        {"role": "user", "content": "你是什么模型?"}
    ]
)
# 3. 打印结果
print(response.choices[0].message.content)
albert@dev: ~

5. 查看运行中的模型

bash
ollama ps
albert@dev: ~

6. 小结

Ollama 提供交互对话、管道单次执行、REST API 三种使用方式,还支持多模态输入和 OpenAI 兼容接口。

知识点 说明
交互对话 ollama run 模型名 进入对话,/bye 退出
斜杠命令 /set system/show info/clear 等对话内控制
管道执行 echo "问题" | ollama run 模型名 单次问答
多模态 对话中直接传入图片路径,支持图片理解
REST API /api/generate 单轮生成,/api/chat 多轮对话
OpenAI 兼容 base_url 指向 localhost:11434/v1,无缝对接 OpenAI SDK
查看运行状态 ollama ps 显示当前加载的模型和资源占用

接下来介绍常用命令速查,把所有命令、环境变量和 API 端点汇总为速查表。