DeepSeek 图片识别配置
DeepSeek 的 API 只接受文本。Scholardo 会起一个本地代理,用智谱 GLM-4.6V 把图片转写成文字,再转发给 DeepSeek——这样在 DeepSeek 会话里也能"看图",本地零内存负担。
为什么用智谱 GLM-4.6V
- 国内直连,不需要科学上网
- OpenAI 兼容端点,Scholardo 零改动即可对接
- 有完全免费的
glm-4.6v-flash,转写图片绰绰有余 - 云端推理,不会出现 Ollama 本地 VLM 的 OOM 问题
第 1 步:申请智谱 API Key
- 打开 open.bigmodel.cn,注册并登录。
- 进入「API Keys」页面,新建一个 Key(形如
xxxxxxxx.xxxxxxxx)。
第 2 步:在 Scholardo 里添加 Provider
打开 设置 → AI API,找到 OpenAI-compatible(自定义 provider)一组,新增:
| 字段 | 值 |
|---|---|
| 名称 | 智谱 GLM(随意) |
| Base URL | https://open.bigmodel.cn/api/paas/v4 |
| API Key | 刚才复制的智谱 Key |
WARNING
Base URL 填到 .../paas/v4 这一层,不要加 /chat/completions——代理脚本会自动拼接。
第 3 步:把它指给「图片识别」
打开 设置 → Agent → AI Formatting,找到 Image recognition 一行:
- Provider →
智谱 GLM - Model →
glm-4.6v-flash
第 4 步:测试
启动一个 DeepSeek 会话,往里贴一张图片,确认 DeepSeek 能正确描述图片内容。
可选模型
| 模型 ID | 说明 |
|---|---|
glm-4.6v-flash | 完全免费,首选 |
glm-4.6v-flashx | 9B,更快更稳,便宜 |
glm-4.6v | 106B,质量最高 |
工作原理
你在 DeepSeek 会话里贴图
↓
本地视觉代理(随 DeepSeek launcher 启动)
拦截带图片的请求
↓
调用智谱 GLM-4.6V → 图片转写为文字描述
↓
把描述文字塞回请求,转发给 DeepSeek
↓
DeepSeek 基于文字描述正常回答常见问题
免费的 glm-4.6v-flash 够用吗?
对"识别图里有什么"足够。复杂图表或公式识别不准时,升级到 glm-4.6v-flashx 或 glm-4.6v。
报错或图片被忽略?
确认选的是带视觉的 glm-4.6v* 系列;纯文本模型不支持图片。另外检查 Base URL 末尾没有多带 /chat/completions。
图片会上传到云端吗?
会——图片发送到智谱云端做转写。敏感内容请评估后再用。如需完全本地化,可改用 Ollama 本地视觉模型(但内存占用高)。

