DeepSeek V4炸场背后:有人在内斗,有人在接力

2026-04-25 | 来源: 后厂村 | 转到微信 | 有0人参与评论 | 字体: 放大缩小 | 收藏 | 打印

当硅谷闭源阵营陷入“博弈”的内斗泥沼，中国大模型正在用另一种方式撕开缺口。

4月24日，期待已久的DeepSeek-V4预览版正式发布并同步开源，DeepSeek-V4分为Pro与Flash两个版本，均支持百万（1M）token超长上下文。同样在这周，Kimi不约而同地发布了最新模型K2.6，把Agent能力从“单点调用”升级为“集群协同”。

一周诞生了两个万亿参数的开源模型，不仅让全球开源领域的目光集体聚焦中国，更悄然勾勒出中美AI赛道截然不同的发展底色——当美国AI头部企业陷入愈演愈烈的内斗，而中国的开源AI似乎已经跑通了一条协同进化的道路。

01

同周开源，分工明确互不内卷

月薪3万,去内蒙草原给DeepSeek守机房

DeepSeek首次启动融资,估值680亿,圈里已经炸了

前DeepSeek研究员入字节年薪近亿?抖音副总裁回应

就在DeepSeek V4引发风暴的同一周，月之暗面发布Kimi K2.6并开源，提升了Agent集群能力：支持300个Agent并行，可自主拆解和完成长周期的复杂工程任务。这与DeepSeek形成了鲜明的路线互补。

DeepSeek主攻“深度推理、长文本理解、算力效率”，Kimi猛攻“多Agent集群、长周期任务执行、复杂工程落地”，两条路径各自跑通闭环，共同扩大了中国开源模型的全球辐射范围。

但是，两家AI公司的这种“默契”真的是巧合吗？

真正的细节藏在技术报告里。

最典型的就是两个关键技术的互相引用。

DeepSeek V3提出的MLA（多头潜在注意力）技术，是它最核心的架构创新之一，能通过压缩KV缓存，大幅降低大模型的推理成本——要知道，推理成本是大模型落地的最大门槛之一，MLA技术直接让DeepSeek的推理效率提升一个档次。而Kimi在K2系列模型中，选择沿用MLA架构，靠着这项技术，成功压缩了KV缓存体积，为Agent能力的落地扫清了障碍。