DeepSeek V4炸场背后:有人在内斗,有人在接力 |

当硅谷闭源阵营陷入“博弈”的内斗泥沼,中国大模型正在用另一种方式撕开缺口。
4月24日,期待已久的DeepSeek-V4预览版正式发布并同步开源,DeepSeek-V4分为Pro与Flash两个版本,均支持百万(1M)token超长上下文。同样在这周,Kimi不约而同地发布了最新模型K2.6,把Agent能力从“单点调用”升级为“集群协同”。

一周诞生了两个万亿参数的开源模型,不仅让全球开源领域的目光集体聚焦中国,更悄然勾勒出中美AI赛道截然不同的发展底色——当美国AI头部企业陷入愈演愈烈的内斗,而中国的开源AI似乎已经跑通了一条协同进化的道路。
01
同周开源,分工明确互不内卷
就在DeepSeek V4引发风暴的同一周,月之暗面发布Kimi K2.6并开源,提升了Agent集群能力:支持300个Agent并行,可自主拆解和完成长周期的复杂工程任务。这与DeepSeek形成了鲜明的路线互补。

DeepSeek主攻“深度推理、长文本理解、算力效率”,Kimi猛攻“多Agent集群、长周期任务执行、复杂工程落地”,两条路径各自跑通闭环,共同扩大了中国开源模型的全球辐射范围。
但是,两家AI公司的这种“默契”真的是巧合吗?
真正的细节藏在技术报告里。
最典型的就是两个关键技术的互相引用。
DeepSeek V3提出的MLA(多头潜在注意力)技术,是它最核心的架构创新之一,能通过压缩KV缓存,大幅降低大模型的推理成本——要知道,推理成本是大模型落地的最大门槛之一,MLA技术直接让DeepSeek的推理效率提升一个档次。而Kimi在K2系列模型中,选择沿用MLA架构,靠着这项技术,成功压缩了KV缓存体积,为Agent能力的落地扫清了障碍。
| 分享: |
| 注: | 在此页阅读全文 |




