2025年9月29日,DeepSeek-V3.2-Exp模型正式发布,并已在Huggingface与魔搭开源。
DeepSeek-V3.2-Exp是一个实验性版本,作为迈向下一代架构的中间步骤,它在V3.1-Terminus的基础上引入了DeepSeek稀疏注意力(Sparse Attention)机制,旨在对长文本的训练和推理效率进行探索性的优化和验证。DeepSeek稀疏注意力架构(DSA)首次实现了细粒度稀疏注意力机制,在几乎不影响模型输出效果的前提下,实现了长文本训练和推理效率的大幅提升。
在各领域的公开评测集上,DeepSeek-V3.2-Exp的表现与V3.1-Terminus基本持平。目前,官方App、网页端、小程序均已同步更新为DeepSeek-V3.2-Exp。同时,得益于新模型服务成本的大幅降低,DeepSeek大幅下调了官方API价格,降价幅度超过50%,在新的价格政策下,开发者调用DeepSeek API的成本将显著降低。
此外,华为云已完成对DeepSeek-V3.2-Exp模型的适配工作,最大可支持160K长序列上下文长度。DeepSeek还开源了新模型研究中设计和实现的GPU算子,包括TileLang和CUDA两种版本,团队建议社区在进行研究性实验时,优先使用基于TileLang的版本,以便于调试和快速迭代。
正文
DeepSeek-V3.2-Exp模型正式发布
此篇文章发布距今已超过186天,您需要注意文章的内容或图片是否可用!


还没有评论,来说两句吧...