DeepSeek 图片识别配置

DeepSeek 的 API 只接受文本。Scholardo 会起一个本地代理，用智谱 GLM-4.6V 把图片转写成文字，再转发给 DeepSeek——这样在 DeepSeek 会话里也能"看图"，本地零内存负担。

为什么用智谱 GLM-4.6V

国内直连，不需要科学上网
OpenAI 兼容端点，Scholardo 零改动即可对接
有完全免费的 glm-4.6v-flash，转写图片绰绰有余
云端推理，不会出现 Ollama 本地 VLM 的 OOM 问题

第 1 步：申请智谱 API Key

打开 open.bigmodel.cn，注册并登录。
进入「API Keys」页面，新建一个 Key（形如 xxxxxxxx.xxxxxxxx）。

第 2 步：在 Scholardo 里添加 Provider

打开 设置 → AI API，找到 OpenAI-compatible（自定义 provider）一组，新增：

字段	值
名称	`智谱 GLM`（随意）
Base URL	`https://open.bigmodel.cn/api/paas/v4`
API Key	刚才复制的智谱 Key

WARNING

Base URL 填到 .../paas/v4 这一层，不要加 /chat/completions——代理脚本会自动拼接。

第 3 步：把它指给「图片识别」

打开 设置 → Agent → AI Formatting，找到 Image recognition 一行：

Provider → 智谱 GLM
Model → glm-4.6v-flash

第 4 步：测试

启动一个 DeepSeek 会话，往里贴一张图片，确认 DeepSeek 能正确描述图片内容。

可选模型

模型 ID	说明
`glm-4.6v-flash`	完全免费，首选
`glm-4.6v-flashx`	9B，更快更稳，便宜
`glm-4.6v`	106B，质量最高

工作原理

你在 DeepSeek 会话里贴图
        ↓
本地视觉代理（随 DeepSeek launcher 启动）
  拦截带图片的请求
        ↓
调用智谱 GLM-4.6V → 图片转写为文字描述
        ↓
把描述文字塞回请求，转发给 DeepSeek
        ↓
DeepSeek 基于文字描述正常回答

常见问题

免费的 glm-4.6v-flash 够用吗？
对"识别图里有什么"足够。复杂图表或公式识别不准时，升级到 glm-4.6v-flashx 或 glm-4.6v。

报错或图片被忽略？
确认选的是带视觉的 glm-4.6v* 系列；纯文本模型不支持图片。另外检查 Base URL 末尾没有多带 /chat/completions。

图片会上传到云端吗？
会——图片发送到智谱云端做转写。敏感内容请评估后再用。如需完全本地化，可改用 Ollama 本地视觉模型（但内存占用高）。

DeepSeek 图片识别配置 ​

为什么用智谱 GLM-4.6V ​

第 1 步：申请智谱 API Key ​

第 2 步：在 Scholardo 里添加 Provider ​

第 3 步：把它指给「图片识别」 ​

第 4 步：测试 ​

可选模型 ​

工作原理 ​

常见问题 ​