DeepSeek发布R1-0528升级版推理能力跃升长篇创作能力显著增强

2025年5月28日，深度求索（DeepSeek）团队正式推出R1模型小版本升级——DeepSeek-R1-0528。该版本基于2024年12月发布的DeepSeek-V3-0324基座模型（660B/685B参数MoE架构），未改变基座架构，仅通过增加后训练算力（增幅约40%）实现推理深度与生成质量的全面提升。官方于5月29日凌晨在Hugging Face平台开源发布，用户可通过DeepSeek官网（https://www.deepseek.com）、官方APP及小程序开启"深度思考"功能体验新版模型，API同步更新，调用方式保持不变。

一、数学推理能力跻身全球第一梯队

在AIME 2025数学竞赛测试中，DeepSeek-R1-0528准确率从旧版R1的70%飙升至87.5%，仅次于OpenAI o3（88.9%）和Claude Opus 4（90.0%），超越Gemini 2.5 Pro（83.0%），位列国产模型首位。这一跃升的核心原因在于推理过程的思维深度显著增强：AIME 2025测试集上，旧版模型平均每题使用12K tokens进行思考，新版提升至23K tokens，增幅达92%。单任务连续思考时间支持30至60分钟，解题过程如写演算纸般逐步推导，每一步均有清晰逻辑依据。

在LiveCodeBench编程基准测试中，DeepSeek-R1-0528排名全球第四，仅次于OpenAI o3、o4-mini，超越xAI Grok 3 mini、阿里Qwen3和Claude 3.5 Sonnet。代码生成一次通过率较旧版提升40%以上，可生成1000行以上无bug的完整功能模块。

二、幻觉率降低45%至50%，事实准确性大幅提升

新版R1针对"幻觉"问题进行了系统优化。在改写润色、总结摘要、阅读理解等高频场景中，幻觉率较旧版降低45%至50%。技术手段包括：事实锚定技术——对摘要和改写任务强制检索相似真实文本片段作为参考；无害性奖励模型——在RL阶段加入有害输出检测器。新增原生JSON格式输出（JsonOutput）功能，结构化回答的机器解析准确率大幅提高。

三、创意写作能力全面升级，支持长篇输出

DeepSeek-R1-0528在议论文、小说、散文等文体上进行了针对性优化。相比旧版，新版可输出篇幅更长、结构更完整的长篇作品，章节划分清晰、情节逻辑连贯，写作风格更贴近人类偏好，减少了AI特有的生硬感和模板化痕迹。

四、工具调用能力正式支持，Tau-Bench成绩对标o1-high

DeepSeek-R1-0528首次正式支持Function Calling（工具调用），但不支持在thinking阶段调用。在Tau-Bench基准测试中取得airline 53.5%、retail 63.9%的成绩，与OpenAI o1-high相当。该功能可通过MCP协议连接文件系统、数据库、浏览器等外部工具，构建智能体应用。

五、蒸馏版同步发布，消费级显卡即可运行

官方蒸馏R1-0528思维链后训练Qwen3-8B Base，得到DeepSeek-R1-0528-Qwen3-8B。该8B模型在AIME 2024测试中仅次于原版R1-0528，超越原生Qwen3-8B达10个百分点，与Qwen3-235B相当。4-bit量化后可在RTX 3060 12GB等消费级显卡上流畅运行，同样采用MIT开源协议，支持商用与二次开发。

六、API更新要点

新版R1 API保持与旧版兼容，新增Function Calling和JsonOutput支持。max_tokens参数语义调整为限制单次输出总长度（含思考过程），默认值32K，最大支持64K。产品端上下文长度为64K，开源版开放至128K。