开云体育

开云体育DeepSeek新版R1模型实际性能如何?第三方评测来了

2025-06-08
浏览次数:
返回列表

  开云体育[永久网址:363050.com]成立于2022年在中国,是华人市场最大的线上娱乐服务供应商而且是亚洲最大的在线娱乐博彩公司之一。包括开云、开云棋牌、开云彩票、开云电竞、开云电子、全球各地赛事、动画直播、视频直播等服务。开云体育,开云体育官方,开云app下载,开云体育靠谱吗,开云官网,欢迎注册体验!

开云体育DeepSeek新版R1模型实际性能如何?第三方评测来了

  (深度求索)时隔四个月发布R1模型的升级版本。中文大模型权威测评机构SuperCLUE于6月4日发布的结果显示,新版R1模型的总体表现比旧版有所提升,超过OpenAI的o3模型,但相比于o4-mini(high)、谷歌Gemini 2.5 Pro Preview 05-06等模型仍有一定差距。

  据DeepSeek介绍,更新后的DeepSeek-R1-0528模型,仍然使用2024年12月所发布的DeepSeek V3模型作为基座,但在后训练过程中投入了更多算力,显著提升了模型的思维深度与推理能力。当前国内所有模型中,R1模型升级版在数学、编程与通用逻辑等多个基准测评中取得领先,并且整体表现上已接近o3与 Gemini-2.5-Pro等国际顶尖模型。

  DeepSeek还指出,相较于旧版 R1,新版模型在复杂推理任务中的表现有了显著提升。例如在衡量数学推理能力的AIME 2025测试中,新版模型准确率由旧版的 70% 提升至 87.5%。

  此外,R1模型新版本的指令遵循能力显著提升,得分为48.46,比旧版R1高17.09分,但相比于国际顶尖模型o3(66.95分)和o4-mini(high)(68.07分)仍有较大差距。

  测评结果还发现,新版R1模型的平均输出长度显著增加,但推理能力比旧版R1低1.7分。推理任务总分由数学推理、科学推理、代码三个任务得分的平均值决定,新版R1和旧版R1主要差距在数学和科学推理任务上,代码任务上表现更优。

  此前,DeepSeek更新R1模型时提到,新版R1 针对“幻觉”问题进行了优化。与旧版相比,更新后的模型在改写润色、总结摘要、阅读理解等场景中,幻觉率降低了45%-50%左右,能够有效地提供更为准确、可靠的结果。

  SuperCLUE于6月5日发布的另一份测评结果显示,新版R1模型的中文幻觉率降低至13.86%,下降7.16个百分点,但与模型幻觉率指标上表现最好的豆包doubao-1.5-pro-32k模型仍有较大差距,后者的幻觉率仅为4.11%。此外,文本摘要和阅读理解任务上的幻觉率优化程度最为显著,分别降低9.27%和14.49%。

搜索