你好啊,五月的第一天。
今天福州那个数字中国建设峰会上,AI 圈聊得最火的,不是什么更大的参数、更长的上下文,而是 DeepSeek 悄悄放出来的 V4 多模态模型。
不是 PPT。
技术报告,58 页,太平洋时间 4 月 30 日发的。
咱们直接说人话:
DeepSeek V4 最大的价值,是让 AI 看一张图的时候,不再只会“说”,而是学会了“指”。
你可以做个测试——
找一张人数超过 10 人的合照。
然后问 GPT-4o 或者 Gemini:
“站在左边第三个、戴黑框眼镜、手里没拿东西的那个人,穿什么颜色的鞋?”
大概率,它会崩。
不是因为模型蠢。
而是现在的多模态大模型,有一个 DeepSeek 在论文里第一次明确提出来的问题,叫做:
指代鸿沟
简单翻译一下:
AI 能看见像素,但说不准“你说的那个东西到底对应图里的哪一个”。
你讲“左边那个”,在模型内部,是一个模糊数学表达。
你讲“拿酒杯的人”,可能图里有 3 个人手里都有杯子。
于是它的思维链,从第一步就开始歪了。
后面再推理,全是错上加错。
这不是分辨率的问题。
这是“如何描述一个对象”的问题。
V4 的核心技术路线,名字很怪,但其实很直观:
视觉原语思考
什么意思?
以前的模型看图,逻辑是:
看图 → 转成文字描述 → 再推理
但 DeepSeek 让它改成:
看图 → 直接在图上画圈、标位置、锚定对象 → 再推理
你可以理解为:
以前的 AI 是闭着眼睛听你描述一张图。
现在的 V4 是睁开眼睛,一边看图一边用鼠标标给你看。
在技术报告里,他们展示了一个典型例子:
用户问:“第二个架子上,蓝色瓶子和绿色罐子之间那个小盒子上面写的什么?”
V4 会把这句话拆成:
· “第二个架子”→ 编号第 2 层
· “蓝色瓶子”→ 锚定 1 个视觉实体
· “绿色罐子”→ 锚定第 2 个视觉实体
· “之间”→ 空间关系
· “小盒子”→ 筛选对象
然后再回答。
不是一口气读完问题再猜,而是一边指一边想。
多模态模型通常很贵。
因为要看整张图 + 高分辨率切块 + 反复过脑。
但 DeepSeek V4 走了一条反常识的路:
把“视觉定位”前置,而不是让文字推理去猜图。
结果就是:
· 无效推理大幅减少
· 模型不需要反复“回头看图”
· 推理成本 反而降了
V4 在多个公开评测集(MMBench、SEED-Bench)上,精度超过 GPT-4o。
而在同等任务下,推理 token 数量明显更少。
用业内人的话说:
“它不是更笨所以便宜,而是知道该看哪里,所以不浪费。”
因为过去两年,多模态模型一直在卷三件事:
· 分辨率(4K、8K)
· 上下文长度(128K、1M)
· 支持的文件类型(PDF、PPT、网页截图)
但 DeepSeek 这次提醒了行业一件事:
模型不是看得越细就越聪明,而是要想得更准。
“视觉原语思考”这个方向,说白了,是让 AI 第一次真正按照人类的空间逻辑去理解世界。
你不是在跟一个“看图说话”的机器对话。
你是在跟一个 会指着图里的东西说‘就这个’ 的模型对话。
这个差异,比表面上大得多。
V4 多模态 不是什么“参数更大、跑分更高”的例行升级。
它是一个方向性的提醒:
多模态的下半场,不是比谁看得更清楚,
而是比谁能指着图里的东西说人话。
DeepSeek 这次走在了前面。
至于它会不会开源、什么时候开放 API、中文场景表现如何……
那可能是下一个故事了。