DeepSeek V4 多模态来了:这次 AI 终于学会“边看边指”了

2026-05-06 16:47:52 友融云 13

DeepSeek V4 多模态来了:这次 AI 终于学会“边看边指”了

你好啊,五月的第一天。

今天福州那个数字中国建设峰会上,AI 圈聊得最火的,不是什么更大的参数、更长的上下文,而是 DeepSeek 悄悄放出来的 V4 多模态模型

不是 PPT。
技术报告,58 页,太平洋时间 4 月 30 日发的。

咱们直接说人话:
DeepSeek V4 最大的价值,是让 AI 看一张图的时候,不再只会“说”,而是学会了“指”。

01 先聊一个问题:现在的 AI 看图,到底差在哪?

你可以做个测试——

找一张人数超过 10 人的合照。
然后问 GPT-4o 或者 Gemini:

“站在左边第三个、戴黑框眼镜、手里没拿东西的那个人,穿什么颜色的鞋?”

大概率,它会崩。

不是因为模型蠢。
而是现在的多模态大模型,有一个 DeepSeek 在论文里第一次明确提出来的问题,叫做:

指代鸿沟

简单翻译一下:

AI 能看见像素,但说不准“你说的那个东西到底对应图里的哪一个”。

你讲“左边那个”,在模型内部,是一个模糊数学表达。
你讲“拿酒杯的人”,可能图里有 3 个人手里都有杯子。

于是它的思维链,从第一步就开始歪了。
后面再推理,全是错上加错。

这不是分辨率的问题。
这是“如何描述一个对象”的问题。

02 DeepSeek 是怎么改的?

V4 的核心技术路线,名字很怪,但其实很直观:

视觉原语思考

什么意思?

以前的模型看图,逻辑是:

看图 → 转成文字描述 → 再推理

DeepSeek 让它改成:

看图 直接在图上画圈、标位置、锚定对象 → 再推理

你可以理解为:

以前的 AI 是闭着眼睛听你描述一张图。
现在的 V4 是睁开眼睛,一边看图一边用鼠标标给你看

在技术报告里,他们展示了一个典型例子:

用户问:“第二个架子上,蓝色瓶子和绿色罐子之间那个小盒子上面写的什么?”

V4 会把这句话拆成:

· “第二个架子”→ 编号第 2 层

· “蓝色瓶子”→ 锚定 1 个视觉实体

· “绿色罐子”→ 锚定第 2 个视觉实体

· “之间”→ 空间关系

· “小盒子”→ 筛选对象

然后再回答。

不是一口气读完问题再猜,而是一边指一边想。

03 成本不升反降,这就有意思了

多模态模型通常很贵。
因为要看整张图 + 高分辨率切块 + 反复过脑。

DeepSeek V4 走了一条反常识的路:

“视觉定位”前置,而不是让文字推理去猜图。

结果就是:

· 无效推理大幅减少

· 模型不需要反复“回头看图”

· 推理成本 反而降了

V4 在多个公开评测集(MMBench、SEED-Bench)上,精度超过 GPT-4o。
而在同等任务下,推理 token 数量明显更少。

用业内人的话说:

“它不是更笨所以便宜,而是知道该看哪里,所以不浪费。”

04 这件事为什么值得被记住?

因为过去两年,多模态模型一直在卷三件事:

· 分辨率(4K、8K)

· 上下文长度(128K、1M)

· 支持的文件类型(PDF、PPT、网页截图)

DeepSeek 这次提醒了行业一件事:

模型不是看得越细就越聪明,而是要想得更准。

“视觉原语思考”这个方向,说白了,是让 AI 第一次真正按照人类的空间逻辑去理解世界。

你不是在跟一个“看图说话”的机器对话。
你是在跟一个 会指着图里的东西说‘就这个’ 的模型对话。

这个差异,比表面上大得多。

05 一句话总结

V4 多模态 不是什么“参数更大、跑分更高”的例行升级。

它是一个方向性的提醒:

多模态的下半场,不是比谁看得更清楚,
而是比谁能指着图里的东西说人话

DeepSeek 这次走在了前面。

至于它会不会开源、什么时候开放 API、中文场景表现如何……
那可能是下一个故事了。


联系我们