Skip to content

DeepSeek 图片识别配置

DeepSeek 的 API 只接受文本。Scholardo 会起一个本地代理,用智谱 GLM-4.6V 把图片转写成文字,再转发给 DeepSeek——这样在 DeepSeek 会话里也能"看图",本地零内存负担。

为什么用智谱 GLM-4.6V

  • 国内直连,不需要科学上网
  • OpenAI 兼容端点,Scholardo 零改动即可对接
  • 完全免费glm-4.6v-flash,转写图片绰绰有余
  • 云端推理,不会出现 Ollama 本地 VLM 的 OOM 问题

第 1 步:申请智谱 API Key

  1. 打开 open.bigmodel.cn,注册并登录。
  2. 进入「API Keys」页面,新建一个 Key(形如 xxxxxxxx.xxxxxxxx)。

第 2 步:在 Scholardo 里添加 Provider

打开 设置 → AI API,找到 OpenAI-compatible(自定义 provider)一组,新增:

字段
名称智谱 GLM(随意)
Base URLhttps://open.bigmodel.cn/api/paas/v4
API Key刚才复制的智谱 Key

WARNING

Base URL 填到 .../paas/v4 这一层,不要/chat/completions——代理脚本会自动拼接。

第 3 步:把它指给「图片识别」

打开 设置 → Agent → AI Formatting,找到 Image recognition 一行:

  • Provider → 智谱 GLM
  • Model → glm-4.6v-flash

第 4 步:测试

启动一个 DeepSeek 会话,往里贴一张图片,确认 DeepSeek 能正确描述图片内容。

可选模型

模型 ID说明
glm-4.6v-flash完全免费,首选
glm-4.6v-flashx9B,更快更稳,便宜
glm-4.6v106B,质量最高

工作原理

你在 DeepSeek 会话里贴图

本地视觉代理(随 DeepSeek launcher 启动)
  拦截带图片的请求

调用智谱 GLM-4.6V → 图片转写为文字描述

把描述文字塞回请求,转发给 DeepSeek

DeepSeek 基于文字描述正常回答

常见问题

免费的 glm-4.6v-flash 够用吗?
对"识别图里有什么"足够。复杂图表或公式识别不准时,升级到 glm-4.6v-flashxglm-4.6v

报错或图片被忽略?
确认选的是带视觉的 glm-4.6v* 系列;纯文本模型不支持图片。另外检查 Base URL 末尾没有多带 /chat/completions

图片会上传到云端吗?
会——图片发送到智谱云端做转写。敏感内容请评估后再用。如需完全本地化,可改用 Ollama 本地视觉模型(但内存占用高)。

Scholardo 是闭源商业产品。