DeepSeek V3.1 Base突袭上线,击败Claude 4编程爆表,全网在蹲R2和V4
就在昨晚,DeepSeek官方悄然上线了全新的V3.1版本,上下文长度拓展到128k。

本次开源的V3.1模型拥有685B参数,支持多种精度格式,从BF16到FP8。
综合公开信息和国内大咖karminski3的实测,V3.1此次更新亮点有:
编程能力:表现突出,根据社区使用Aider测试数据,V3.1在开源模型中霸榜。
性能突破:V3.1在Aider编程基准测试中取得71.6%高分,超越Claude Opus 4,同时推理和响应速度更快。
原生搜索:新增了原生「search token」的支持,这意味着搜索的支持更好。
架构创新:线上模型去除「R1」标识,分析称DeepSeek未来有望采用「混合架构」。
成本优势:每次完整编程任务仅需1.01美元,成本仅为专有系统的六十分之一。
值得一提的是,官方群中强调拓展至128K上下文,此前V3版本就已经支持。

对于这波更新,大家的热情可谓是相当高涨。
即便还未公布模型卡,DeepSeek V3.1就已经在Hugging Face的趋势榜上排到了第四。


DeepSeek粉丝数已破8万
看到这里,网友们更期待R2的发布了!

混合推理,编程击败Claude 4
这次最明显的变化是,DeepSeek在官方APP和网页端上,把深度思考(R1)中的「R1」去掉了。

同时,与V3-base相比,DeepSeek V3.1新增了四个特殊Token:
(id: 128796)
(id: 128797)
(id: 128799)

对此,有推测认为,这可能暗示推理模型与非推理模型的融合。

在编程方面,根据网友曝出的结果,DeepSeek V3.1在Aider Polyglot多语言编程测试中拿下了71.6%高分,一举击败了Claude 4 Opus、DeepSeek R1。

而且,它的成本仅1美元,成为非推理模型中的SOTA。

最鲜明的对比,V3.1编程性能比Claude 4高1%,成本要低68倍。

在SVGBench基准上,V3.1实力仅次于GPT-4.1-mini,远超DeepSeek R1的实力。

在MMLU多任务语言理解方面,DeepSeek V3.1毫不逊色于GPT-5。不过在,编程、研究生级基准问答、软件工程上,V3.1与之有一定的差距。

一位网友实测,模拟六边形中小球自由落体的物理测试,DeepSeek V3.1理解力明显提升。

一手实测
第一时间,我们对V3.1进行了实测,首先是此次模型更新的重点:上下文长度。
假设对于中文而言,1个token ≈ 1–1.3个汉字,那么这128K tokens ≈ 100,000–160,000汉字。
相当于整本《红楼梦》正文(约80–100万字)的1/6–1/8,或者一篇超长博士论文/大部头学术专著。
实际测试也很准确,DeepSeek告诉我们它只能阅读差不多9%,也就是大约十分之一。

由于总结内容太长,我们截取了前三回,你觉得这个总结的怎么样?

在128K上下文测试中,DeepSeek-V3.1输出速度相比以往获得较大提升,并且在工程上做了一些优化。

此次更新,DeepSeek重点强调了对上下文的支持。
整个活,给DeepSeek-V3.1上点压力,让它根据「梦」这个字,输出尽可能多的内容,尽量达到上下文极限。
不过最后,差不多只输出了3000字左右,模型就停止了输出。

再来看下推理能力。
经典的9.11和9.9比大小问题,两种询问方式都能正确做答。
这次更新的一大体感还是速度变快了很多。

最后再来看看编程能力。
DeepSeek的上一个模型是R1-0528,主打的是编程能力。
看看这次V3.1是否有更大的提升。

最终结果只能说,打个80分吧,基本要求都满足了,但是画面风格和颜色变换功能并没有完美实现。

并且和R1-0528的结果相比,两者之间还是有些差距的,但孰好孰坏还需看个人偏好。
以下是开启思考模式后的结果,你觉得哪个更好?

接下来,看看DeepSeek V3.1能否复刻出GPT-5发布会上的法语学习小程序。
我们再来让V3.1画一个自己的SVG自画像,两种效果着实有些抽象。



参考资料:HYX
https://weibo.com/2169039837/Q0FC4lmeo
https://x.com/karminski3/status/1957928641884766314
https://github.com/johnbean393/SVGBench/
https://huggingface.co/deepseek-ai/DeepSeek-V3.1-Base
本文来自微信公众号“新智元”,作者:新智元,编辑:桃子 定慧,36氪经授权发布。
- 本文分类:实时讯息
- 本文标签:模型 上下文 再来 的是 基准 成本 能力 汉字
- 浏览次数:0 次浏览
- 发布日期:2025-08-20 11:56:00
- 本文链接:https://www.teamtop.cc/news/xmbaJzQEvp.html
- 上一篇 > 广灵县医疗集团人民医院举行第八个中国医师节表彰大会
- 下一篇 > 庄河大刀会:谱写白山黑水间的抗日战歌
-
就在昨晚,DeepSeek官方悄然上线了全新的V3.1版本,上下文长度拓展到128k。本次开源的V3.1模型拥有685B参数,支持多种精度格式,从BF16到FP8。综合公开信息和国内大咖karminski3的实测,V3.1此次更新亮点有:编程能力:表现突出,根据社区使用Aider测试数据,V3.1在
-
8月16日,2025首届世界人形机器人运动会期间,星动纪元全尺寸双足人形机器人星动L7在原地跳高项目中以酷似“超级玛丽跳”的灵动跳姿,跳至95.641cm高度,断档第一,获该项目桂冠,同时创造了世界纪录。业内介绍,在人形机器人的田径项目中,跳高的技术实现难度最大。不仅需要硬件突破高扭矩输出和结构强度
-
2025年刚过一半,光是机器人的大小赛事和展会就举办了不知道多少场。今时不同往日,具身智能概念带动下,机器人有了主动思考和主动服务的能力,即将进入规模量产和市场投放的阶段,各路AI科技公司快速入局,车企也要来插一脚。说人话就是,机器人不能只用来炫技术秀肌肉,在博物馆做科普教育,现在要经过大众和市场检
-
8月14日,2025博鳌不动产投资大会在海南召开。华润有巢战略投资部总经理李伯乔以"围绕REITs的生意模式和组织能力"为主题发表演讲。李伯乔介绍了围绕公募REITs,有巢构建的六大能力体系,分别为品牌溢价能力、全产品的建设组织能力(产品能力)、合规管理能力、安全管理能力、运营管理能力和REITs运
-
为进一步提升员工专业能力,推动全行高质量发展,近日,张家口银行邯郸分行组织开展了对公授信、风险管理、会计运营、财务管理等多个关键岗位的资格认证考试。此次考试覆盖全行相关岗位员工,旨在通过系统考核提升全员综合素质,为银行稳健运营筑牢根基。该行通过线上线下相结合的方式,组织开展了一系列专项培训。培训内容
-
潮新闻客户端 特约评论员 程振伟图源:甬派(图文无关)盛夏时节,各大高校的暑期志愿活动正如火如荼开展。然而,在这片热闹景象中,“打卡式”“拍照式”志愿服务依然存在。部分活动流于形式,学生为完成任务匆匆签到、拍几张合影便结束,既未真正服务社会,也未实现自我成长。如何打破这种“走过场”的困局?匆匆签到、
-
短暂的抢装潮暖流难消光伏产业寒意。多家上市公司近日披露的2025年半年度业绩预告映照出行业的严峻现状:主产业链四大环节仍深陷亏损,尽管一体化龙头初露减亏苗头,但已难逃全年巨亏;受困于产能过剩和激烈内卷,从工业硅到关键辅材,整个产业链寒风凛冽。有了“反内卷”政策加持,下半年的行业会好吗?上半年全行业仍
-
7月11日,据华夏理财披露,该公司发行的固定收益债权型封闭式理财产品675号募集期为2025年7月11日-2025年7月21日(含),计划发行规模下限为5000万元,认购起点金额1元。产品投资性质为固定收益类,风险评级为PR2级(中低风险),期限448天,业绩比较基准为2.20%-3.20%(年化)
-
当家居行业还在为2025年的市场震荡迷茫时,我乐家居CEO汪春俊先生已抛出振聋发聩的判断:“行业淘汰赛才刚刚开始,定制家居的终局可能仅存3-6个品牌。”这一预言并非危言耸听,而是基于供应链出清、消费升级与品牌集中度提升的底层逻辑。我乐家居以“顶配致胜,剩(胜)者为王”为核心,勾勒出一条穿越周期的生存
-
国内充电宝召回风波持续。7月6日凌晨,罗马仕正式发布停工停产放假通知,停工时间为自2025年7月7日起持续6个月。而就在三天前,这家公司否认了倒闭传闻。此事源于充电宝在机舱内起火事件频发,充电宝行业面临信任危机。为切实保障航空运行安全,民航局发布紧急通知,自6月28日起禁止旅客携带没有3C标识、3C
- 1
- 2
- 3
- 4
- 5
- 6
- 7
- 8
- 9
- 10
- 1
- 2
- 3
- 4
ELECTROLUX空调售后服务24小时服务热线-全国400服务号码实时反馈全+境+到+达(ELECTROLUX空调空调不能制热 )
- 5
- 6
- 7
- 8
- 9
- 10