DeepSeek发布R1-0528升级版推理能力跃升长篇创作能力显著增强

2025年5月28日,深度求索(DeepSeek)团队正式推出R1模型小版本升级——DeepSeek-R1-0528。该版本基于2024年12月发布的DeepSeek-V3-0324基座模型(660B/685B参数MoE架构),未改变基座架构,仅通过增加后训练算力(增幅约40%)实现推理深度与生成质量的全面提升。官方于5月29日凌晨在Hugging Face平台开源发布,用户可通过DeepSeek官网(https://www.deepseek.com)、官方APP及小程序开启"深度思考"功能体验新版模型,API同步更新,调用方式保持不变。

一、数学推理能力跻身全球第一梯队

在AIME 2025数学竞赛测试中,DeepSeek-R1-0528准确率从旧版R1的70%飙升至87.5%,仅次于OpenAI o3(88.9%)和Claude Opus 4(90.0%),超越Gemini 2.5 Pro(83.0%),位列国产模型首位。这一跃升的核心原因在于推理过程的思维深度显著增强:AIME 2025测试集上,旧版模型平均每题使用12K tokens进行思考,新版提升至23K tokens,增幅达92%。单任务连续思考时间支持30至60分钟,解题过程如写演算纸般逐步推导,每一步均有清晰逻辑依据。

在LiveCodeBench编程基准测试中,DeepSeek-R1-0528排名全球第四,仅次于OpenAI o3、o4-mini,超越xAI Grok 3 mini、阿里Qwen3和Claude 3.5 Sonnet。代码生成一次通过率较旧版提升40%以上,可生成1000行以上无bug的完整功能模块。

二、幻觉率降低45%至50%,事实准确性大幅提升

新版R1针对"幻觉"问题进行了系统优化。在改写润色、总结摘要、阅读理解等高频场景中,幻觉率较旧版降低45%至50%。技术手段包括:事实锚定技术——对摘要和改写任务强制检索相似真实文本片段作为参考;无害性奖励模型——在RL阶段加入有害输出检测器。新增原生JSON格式输出(JsonOutput)功能,结构化回答的机器解析准确率大幅提高。

三、创意写作能力全面升级,支持长篇输出

DeepSeek-R1-0528在议论文、小说、散文等文体上进行了针对性优化。相比旧版,新版可输出篇幅更长、结构更完整的长篇作品,章节划分清晰、情节逻辑连贯,写作风格更贴近人类偏好,减少了AI特有的生硬感和模板化痕迹。

四、工具调用能力正式支持,Tau-Bench成绩对标o1-high

DeepSeek-R1-0528首次正式支持Function Calling(工具调用),但不支持在thinking阶段调用。在Tau-Bench基准测试中取得airline 53.5%、retail 63.9%的成绩,与OpenAI o1-high相当。该功能可通过MCP协议连接文件系统、数据库、浏览器等外部工具,构建智能体应用。

五、蒸馏版同步发布,消费级显卡即可运行

官方蒸馏R1-0528思维链后训练Qwen3-8B Base,得到DeepSeek-R1-0528-Qwen3-8B。该8B模型在AIME 2024测试中仅次于原版R1-0528,超越原生Qwen3-8B达10个百分点,与Qwen3-235B相当。4-bit量化后可在RTX 3060 12GB等消费级显卡上流畅运行,同样采用MIT开源协议,支持商用与二次开发。

六、API更新要点

新版R1 API保持与旧版兼容,新增Function Calling和JsonOutput支持。max_tokens参数语义调整为限制单次输出总长度(含思考过程),默认值32K,最大支持64K。产品端上下文长度为64K,开源版开放至128K。