DeepSeek发布两款新模型
发布时间:2025-12-02 点击次数:20
12月1日,DeepSeek正式发布了DeepSeek-V3.2和DeepSeek-V3.2-Speciale两款新模型,在推理能力上实现了对顶级闭源模型的追赶。两款模型均已开源。
模型特点与定位
| 特性维度 | DeepSeek-V3.2 (标准版) | DeepSeek-V3.2-Speciale (增强版) |
|---|---|---|
| 核心定位 | 平衡推理能力与输出效率,适合日常使用 | 追求极致的深度推理能力,探索模型边界 |
| 关键能力 | 首次将思考过程融入工具调用,可边推理边使用搜索、计算器等工具 | 超长思考链,专注于数学证明与逻辑验证,不支持工具调用 |
| 性能对标 | 推理能力达到GPT-5水平,略低于Gemini-3.0-Pro | 推理能力媲美Gemini-3.0-Pro |
| 突出成绩 | 在智能体(Agent)评测中达到开源模型最高水平 | 在IMO、IOI、ICPC、CMO四项2025年国际顶级奥赛中均获金牌 |
| 访问方式 | 官方网页、App、API已全面更新为该版本 | 目前仅提供临时API服务(截止至12月15日),供研究与评测 |
| 使用成本 | 输出更精简,计算开销和等待时间显著低于同类长思考模型 | 消耗的Token数量巨大,成本更高 |
主要技术突破
- 架构创新:采用DeepSeek稀疏注意力(DSA)机制,在处理长达128K的上下文时,能显著提升效率,降低计算资源消耗。
- 训练方法:投入了大规模计算资源进行强化学习训练,并构建了包含超过1800个环境和8.5万条复杂指令的智能体任务合成流水线,让模型通过“自我博弈”进化,大幅提升了泛化能力。
- 思考与工具融合:通过设计“思考上下文管理机制”,解决了以往模型在思考模式下无法调用工具的局限,使其能像人类一样边查资料边推理。
访问与使用信息
- 标准版 (V3.2):你可直接通过DeepSeek的官方网站、官方App或API立即使用,它已替代之前的版本成为主力服务模型。
- 增强版 (V3.2-Speciale):目前仅能通过特定的临时API接口访问,服务期至2025年12月15日。它主要面向研究,不适合日常对话。
- 开源下载:两款模型的权重均已发布在Hugging Face和ModelScope平台,允许开发者自由下载、研究和部署。
51工具网