开云体育
开云体育震撼!开源AI DeepSeek-R1性能狂飙26倍SGLang团队如何做到的?
来自SGLang、英伟达等机构的联合团队最新发布的技术报告显示,他们成功在短短4个月内将DeepSeek-R1在H100上的性能提升了惊人的26倍。这一开源复现版本的吞吐量已非常接近DeepSeek官方数据,标志着开源AI社区在大型语言模型优化方面取得了重大突破。
在硬件配置方面,团队在12个节点共96块GPU的集群上成功复现了DeepSeek的推理系统。优化后的方案在处理2000个token的输入序列时,实现了每个节点每秒52.3k输入token和22.3k输出token的惊人吞吐量。
最引人注目的是,该优化方案在本地部署的成本可降至0.20美元/1M输出token,约为DeepSeek Chat API官方定价的五分之一。这一突破性进展为AI技术的商业化应用开辟了新的可能性,使得中小企业和研究机构也能负担得起高性能的AI推理服务。
Hugging Face联创、首席科学家Thomas Wolf对此评价道:DeepSeek的出现,是开源AI领域的ChatGPT时刻。正如ChatGPT让全世界认识到AI的存在,DeepSeek则让全世界意识到,原来还有着这样一个充满活力的开源社区。
这一成果不仅证明了开源社区在AI领域的创新能力,也展示了产学研合作在推动技术进步中的关键作用。DeepSeek-R1的性能已经媲美甚至超越美国最顶尖的闭源AI模型,对于全球AI生态的发展具有深远意义。
随着这一优化方案的公开,预计将有更多机构基于此开展进一步研究和应用开发,推动开源AI生态进入新的发展阶段。英伟达等硬件厂商也在同步推进相关优化,如最新展示的Blackwell平台和NVLink互连技术,将为AI计算提供更强大的基础设施支持。