4. 运行与对话 · Albert's Stack

1. 交互式对话

使用 ollama run 启动模型并进入交互式对话：

bash

ollama run qwen3.5:9b

如果模型尚未下载，run 命令会自动先拉取模型，然后启动对话。进入对话后，直接输入问题即可：

albert@dev: ~

输入 /bye 或按 Ctrl + D 退出对话。

1.1 对话中的斜杠命令

命令	作用
`/bye`	退出对话
`/set system <提示词>`	设置系统提示词
`/show info`	显示当前模型信息
`/clear`	清除对话上下文

例如，设置系统角色让模型以特定风格回答：

albert@dev: ~

2. 单次执行

通过管道一次性传入问题，不进入交互模式：

albert@dev: ~

也可以结合其他命令使用：

bash

# 让 AI 解释一段代码
cat demo.py | ollama run qwen3.5:9b "解释一下这段脚本"

3. 多模态（图片理解）

Ollama 支持多模态模型，比如 Llava，可以理解图片内容：

albert@dev: ~

4. REST API

Ollama 启动后会在 localhost:11434 提供一组 REST API，供程序调用。

4.1 基本调用

bash

# 单轮生成
curl http://localhost:11434/api/generate -d '{"model": "qwen3.5:9b","prompt": "Java 是什么？","stream": false}'

# 多轮对话
curl http://localhost:11434/api/chat -d '{
  "model": "qwen3.5:9b",
  "messages": [
    { "role": "system", "content": "你是一位友好的中文助手" },
    { "role": "user", "content": "你好" }
  ],
  "stream": false
}'

json

{
  "model": "qwen3.5:9b",
  "created_at": "2026-03-24T08:39:45.462599Z",
  "response": "",
  "thinking": "",
  "done": true,
  "done_reason": "stop",
  "context": [],
  "total_duration": 38505592542,
  "load_duration": 143000084,
  "prompt_eval_count": 14,
  "prompt_eval_duration": 97122708,
  "eval_count": 1701,
  "eval_duration": 37900377932
}

4.2 OpenAI 兼容 API

Ollama 兼容 OpenAI API 格式，已有 OpenAI SDK 的项目只需改一下地址即可切换到本地模型：

bash

# 先安装 OpenAI SDK
pip install openai

demo.py

python

from openai import OpenAI
# 1. 连接本地Ollama
# 注意：/v1 是固定规范，绝对不要修改！
client = OpenAI(
    base_url="http://localhost:11434/v1",
    api_key="ollama" # 本地模型无密钥，占位即可
)
# 2. 调用你的模型：qwen3.5:9b
response = client.chat.completions.create(
    model="qwen3.5:9b", # Ollama 里的模型全名
    messages=[
        {"role": "user", "content": "你是什么模型？"}
    ]
)
# 3. 打印结果
print(response.choices[0].message.content)

albert@dev: ~

5. 查看运行中的模型

bash

ollama ps

albert@dev: ~

6. 小结

Ollama 提供交互对话、管道单次执行、REST API 三种使用方式，还支持多模态输入和 OpenAI 兼容接口。

知识点	说明
交互对话	`ollama run 模型名` 进入对话，`/bye` 退出
斜杠命令	`/set system`、`/show info`、`/clear` 等对话内控制
管道执行	`echo "问题" \| ollama run 模型名` 单次问答
多模态	对话中直接传入图片路径，支持图片理解
REST API	`/api/generate` 单轮生成，`/api/chat` 多轮对话
OpenAI 兼容	`base_url` 指向 `localhost:11434/v1`，无缝对接 OpenAI SDK
查看运行状态	`ollama ps` 显示当前加载的模型和资源占用

接下来介绍常用命令速查，把所有命令、环境变量和 API 端点汇总为速查表。