DeepSeek开源周不雅察：DeepSeek上昼开源，Nvidia下昼集成

发布日期：2025-04-07 15:54 点击次数：184

今天是DeepSeek开源周第二弹，居然把人心归向的MoE EP通讯的竣事给开源了，复旧以下feature：

✅ Efficient and optimized all-to-all communication

✅ Both intranode and internode support with NVLink and RDMA

✅ High-throughput kernels for training and inference prefilling

✅ Low-latency kernels for inference decoding

✅ Native FP8 dispatch support

✅ Flexible GPU resource control for computation-communication overlapping

Quote某位大佬的指摘，写这个通讯库的同学智力是天下级的，不愧是清华超算队出生+在nv实习过，一般东谈主念念不出来:

对同步机制的计议是大众级的

相配计议最小化读写指示数目，尽可能使用64/128bits读写指示

尽可能不使用CPU的网卡初始

使用极其偏门的OPEN_SH_MEM通讯库

获胜改了NV的SM核来作念通讯

可能比好多NV的东谈主王人更懂NV底层

和咱们昨天以及今天的分析一致，DeepSeek的开源，尤其是infra开源，在短期是极大的加强了NV生态的护城河，NV有种躺赢的嗅觉。比如，今天DeepEP上昼开源，Nvidia这边下昼就集成到了Megatron-LLM。据了解，老黄在NV里面把DeepSeek的复旧难熬性排到了Llama之前，成为了最难熬的开源形貌，里面的资源和经由亦然通盘绿灯。DeepSeek自身亦然基于Nvidia的GPU全面优化的，比如改写SM核来作念通讯，AMD的GPU就不复旧...

无专有偶，今天Nvidia也发布了B200的DeepSeek R1适配情况，飙升到了21,088 Token/s。B200 8T的带宽+FP4，表面上获胜就能比H200有3.33x的成果普及，这也和这张官方表的情况是访佛的。校服后续跟着NV的进一步优化，TPS还能普及。相比有好奇的是，NV官方默示，FP4的准确度只比FP8低了0.2%，相配期待进一步的benchmark。

不外，如若模子弗成持续scale up，看起来DeepEP的截至也很明确，疏淡MoE的通讯bottleneck是RDMA scale out而不是scale up，NVLink的硬件壁垒是可能受到影响的。

今天还有一条新闻，路透社默示，DeepSeek R2底本筹备夙昔几个月发布，而公司当今但愿尽快推出。

咱们也分析过，NSA(Native Sparse Attention)的发布，不错说等于为了进一步增强长文本和长CoT准备的，DeepSeek的实践也默示，NSA致使比传统的full attention，在长文本上的进展更好且更快！这亦然为了R2和V4，作念了进一步的infra level的准备。

据咱们了解，R1其实是一个相比“粗略”的责任，而参考从o1到o3的过程，通过进一步细化CoT和数据准备等等，是不错细则性的不才一个版块看到智能的飞跃的。DeepSeek R2是有但愿达到o3 level的水平的，在coding方面，亦然有但愿不错达到claude 3.5 sonnet的。参考下图，之前o3对比o1的智力，如若这么一个苍劲的模子大约进一步开源，校服关于悉数卑劣愚弄和模子生态，王人有庞杂的股东作用。

相配期待DeepSeek底下V4和R2的责任。

本文着手：共鸣翻脸机，原文标题：《DeepSeek开源周不雅察-2：DeepSeek上昼开源，Nvidia下昼集成》，华尔街见闻有所删减

风险指示及免责条目阛阓有风险，投资需严慎。本文不组成个东谈主投资提出，也未接头到个别用户稀奇的投资办法、财务情景或需要。用户应试虑本文中的任何见解、不雅点或论断是否稳妥其特定情景。据此投资，职守自诩。

上一篇：扎克伯格来救市了？报说念称Meta正有计划2000亿好意思元巨型数据中心

下一篇：没有了