开云体育

阿里DeepSeek时刻!开源新架构模开云体育官方型:推理快10倍、成本暴降90%

2025-09-19
浏览次数:
返回列表

  开云体育[永久网址:363050.com]成立于2022年在中国,是华人市场最大的线上娱乐服务供应商而且是亚洲最大的在线娱乐博彩公司之一。包括开云、开云棋牌、开云彩票、开云电竞、开云电子、全球各地赛事、动画直播、视频直播等服务。开云体育,开云体育官方,开云app下载,开云体育靠谱吗,开云官网,欢迎注册体验!今天凌晨2点,阿里巴巴开源了新架构模型Qwen3-Next-80B-A3B,对混合注意力机制、高稀疏性MoE、训练方法等进行了大幅度创新,迎来了自己的DeepSeek时刻。

  Qwen3-Next是一个混合专家模型总参数800亿,仅激活30亿,训练成本较Qwen3-32B暴降90%,推理效率却提升10倍,尤其是在超长文本32K以上的提示场景中。

  性能方面,Qwen3-Next的指令微调模型在推理与长上下文任务中,可媲美阿里的旗舰模型Qwen3-235B;思考模型则超过了谷歌最新的Gemini-2.5-Flash思考模型,成为目前最强低能耗开源模型之一。

  网友对阿里新模型的架构非常赞赏,表示,半年前我才刚跟联合创始人聊过类似这样的架构!当时好像把它叫做 “动态权重注意力” 之类的,具体名字记不太清了。这设计真的太出色了!

  昨天我测试了好几款模型:思维模式下的 ChatGPT-5、Claude-4,还有专家模式下的 Grok-4。刚刚又测了Qwen3 Next。在所有这些模型里,只有你们这款模型第一次尝试就给了我正确答案。真的太出色了!

  在这里看到 DeltaNet的应用,真的有点让人惊喜!我很好奇,如果换成模型架构发现的AlphaGo 时刻这篇论文中提出的模型架构,这款模型的性能会发生怎样的变化?

  800 亿参数、超高稀疏性再加上多token预测,这配置太惊艳了!要是你的 GPU 有足够显存,用它跑起来速度绝对飞快。

  阿里认为上下文长度扩展与总参数扩展是大模型未来发展的两大核心趋势,为在长上下文和大参数场景下进一步提升训练与推理效率,他们设计了全新的模型架构Qwen3-Next。

  相较于Qwen3的MoE结构,Qwen3-Next进行了多项关键改进,包括混合注意力机制、高稀疏性MoE结构、利于训练稳定性的优化手段,以及可实现更快推理的多token预测机制。

  在核心特性方面,Qwen3-Next采用门控DeltaNet+门控注意力的混合创新架构。线性注意力虽能打破标准注意力的二次复杂度,更适合长上下文处理,但仅用线性注意力或标准注意力均有局限。

  线性注意力速度快但召回能力弱,标准注意力推理时成本高、速度慢。经系统实验验证,门控DeltaNet的上下文学习能力优于滑动窗口注意力、Mamba2等常用方法,将其与标准注意力按3:1比例,75%层用门控DeltaNet,25%层保留标准注意力结合,模型性能持续超越单一架构,实现性能与效率的双重提升。

  标准注意力层还进行了多项增强,如采用此前研究中的输出门控机制以减少注意力低秩问题、将每个注意力头的维度从128提升至256、仅对前25%位置维度应用旋转位置编码以改善长序列外推能力。

  稀疏性设计上,Qwen3-Next采用超高稀疏性MoE结构,800亿总参数在每步推理中仅激活约30亿,占比3.7%。实验表明,在全局负载均衡的前提下,固定激活专家数量并增加专家总参数,能稳步降低训练损失。与Qwen3的MoE相比,Qwen3-Next将总专家数扩展至512个,结合10个路由专家+1个共享专家的设计,在不影响性能的同时最大化资源利用率。

  训练稳定性优化方面,注意力输出门控机制有效解决了注意力Sink、大规模激活等问题,保障模型数值稳定性;针对Qwen3中QK-Norm存在的部分层归一化权重异常增大问题,Qwen3-Next采用零中心RMSNorm,并对归一化权重施加权重衰减以防止无界增长;初始化时对MoE路由器参数进行归一化,确保训练初期每个专家都能被无偏选择,减少随机初始化带来的噪声。这些设计提升了小规模实验的可靠性,保障大规模训练平稳进行。

  多token预测机制也是Qwen3-Next的亮点,其原生引入的多token预测(MTP)机制,不仅为投机解码提供高接受率的MTP模块,还能提升模型整体性能,同时针对MTP的多步推理性能进行优化,通过保持训练与推理一致性的多步训练,进一步提高实际场景中投机解码的接受率。

  预训练阶段,Qwen3-Next展现出卓越的效率。其训练数据来自Qwen3的36T token预训练语料中均匀采样的15T token子集,GPU时长不足Qwen3-30-3B的80%,计算成本仅为Qwen3-32B的9.3%,却能实现更优性能。推理速度上,填充阶段4K上下文长度时吞吐量接近Qwen3-32B的7倍,32K以上时超10倍;

  特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

  桥本帆乃香要打中国大满贯,孙颖莎、王曼昱之后,能打败她的国乒第三人是谁?

  AirPods Pro 3 上市前,苹果推送首个 8A357 固件升级

  走进苹果秘密实验室:Apple Watch 如何测试 5G 与卫星通信

  汇星海之光 护妇幼健康|2025年“妇幼健康看中国”宣传推进活动大连站即将启幕

搜索