返回 |
网站首页
/ 业务研究
/ 智能知识
/ DeepSeek V4 多模态来了：这次 AI 终于学会“边看边指”了

DeepSeek V4 多模态来了：这次 AI 终于学会“边看边指”了

2026-05-06 16:47:52 友融云 45

DeepSeek V4 多模态来了：这次 AI 终于学会“边看边指”了

你好啊，五月的第一天。

今天福州那个数字中国建设峰会上，AI 圈聊得最火的，不是什么更大的参数、更长的上下文，而是 DeepSeek 悄悄放出来的 V4 多模态模型。

不是 PPT。
技术报告，58 页，太平洋时间 4 月 30 日发的。

咱们直接说人话：
DeepSeek V4 最大的价值，是让 AI 看一张图的时候，不再只会“说”，而是学会了“指”。

01 先聊一个问题：现在的 AI 看图，到底差在哪？

你可以做个测试——

找一张人数超过 10 人的合照。
然后问 GPT-4o 或者 Gemini：

“站在左边第三个、戴黑框眼镜、手里没拿东西的那个人，穿什么颜色的鞋？”

大概率，它会崩。

不是因为模型蠢。
而是现在的多模态大模型，有一个 DeepSeek 在论文里第一次明确提出来的问题，叫做：

指代鸿沟

简单翻译一下：

AI 能看见像素，但说不准“你说的那个东西到底对应图里的哪一个”。

你讲“左边那个”，在模型内部，是一个模糊数学表达。
你讲“拿酒杯的人”，可能图里有 3 个人手里都有杯子。

于是它的思维链，从第一步就开始歪了。
后面再推理，全是错上加错。

这不是分辨率的问题。
这是“如何描述一个对象”的问题。

02 DeepSeek 是怎么改的？

V4 的核心技术路线，名字很怪，但其实很直观：

视觉原语思考

什么意思？

以前的模型看图，逻辑是：

看图 → 转成文字描述 → 再推理

但 DeepSeek 让它改成：

看图 → 直接在图上画圈、标位置、锚定对象 → 再推理

你可以理解为：

以前的 AI 是闭着眼睛听你描述一张图。
现在的 V4 是睁开眼睛，一边看图一边用鼠标标给你看。

在技术报告里，他们展示了一个典型例子：

用户问：“第二个架子上，蓝色瓶子和绿色罐子之间那个小盒子上面写的什么？”

V4 会把这句话拆成：

· “第二个架子”→ 编号第 2 层

· “蓝色瓶子”→ 锚定 1 个视觉实体

· “绿色罐子”→ 锚定第 2 个视觉实体

· “之间”→ 空间关系

· “小盒子”→ 筛选对象

然后再回答。

不是一口气读完问题再猜，而是一边指一边想。

03 成本不升反降，这就有意思了

多模态模型通常很贵。
因为要看整张图 + 高分辨率切块 + 反复过脑。

但 DeepSeek V4 走了一条反常识的路：

把“视觉定位”前置，而不是让文字推理去猜图。

结果就是：

· 无效推理大幅减少

· 模型不需要反复“回头看图”

· 推理成本 反而降了

V4 在多个公开评测集（MMBench、SEED-Bench）上，精度超过 GPT-4o。
而在同等任务下，推理 token 数量明显更少。

用业内人的话说：

“它不是更笨所以便宜，而是知道该看哪里，所以不浪费。”

04 这件事为什么值得被记住？

因为过去两年，多模态模型一直在卷三件事：

· 分辨率（4K、8K）

· 上下文长度（128K、1M）

· 支持的文件类型（PDF、PPT、网页截图）

但 DeepSeek 这次提醒了行业一件事：

模型不是看得越细就越聪明，而是要想得更准。

“视觉原语思考”这个方向，说白了，是让 AI 第一次真正按照人类的空间逻辑去理解世界。

你不是在跟一个“看图说话”的机器对话。
你是在跟一个 会指着图里的东西说‘就这个’ 的模型对话。

这个差异，比表面上大得多。

05 一句话总结

V4 多模态不是什么“参数更大、跑分更高”的例行升级。

它是一个方向性的提醒：

多模态的下半场，不是比谁看得更清楚，
而是比谁能指着图里的东西说人话。

DeepSeek 这次走在了前面。

至于它会不会开源、什么时候开放 API、中文场景表现如何……
那可能是下一个故事了。