AI圈又地震了!昨晚,DeepSeek 官方如同“偷袭珍珠港”一般,突然上线了他们迄今为止最强大的 AI 模型——DeepSeek V3.1!据说这玩意儿拥有前所未有的推理能力和多语言支持,更炸裂的是,它现在已经开源到 GitHub 上了,任何人都可以免费下载使用!
这最新的 DeepSeek 开源模型支持混合推理,简单说,一个模型拥有两种推理模式:思考和非思考。更厉害的是,它的多步骤代理能力更强,上下文长度直接拓展到了 128K,尤其在编程能力方面表现突出。
有网友爆料,在 Aider 测试中,DeepSeek V3.1 获得了 76.3% 的高分。而且,它的推理和响应速度更快。目前,这款模型已经登上 Hugging Face 趋势榜第四位。这款开源的 V3.1 模型拥有 681B 参数,支持从 BF16 到 FP8 等多种精度格式,而且支持原生搜索,新增了原生的 “search token” 的支持,这意味着搜索效果会更好。
为了验证 DeepSeek V3.1 的真实实力,有硬核玩家直接拉来 Claude Opus 4.1 和 GPT-5 进行了一场“捉对厮杀”,而且全程一镜到底,不允许任何修改,只有一次机会生成代码!测试题目也被放到了博客上,任何人都可以先睹为快或者亲自尝试。
游戏大战:DeepSeek V3.1 首战告捷!
第一场,挑战生成一个贪吃蛇游戏。要求编写一个完整的 HTML 文件,使用 HTML、CSS、JavaScript 创建贪吃蛇游戏,方向键控制蛇的移动,吃到食物蛇变长并加分,撞到墙壁或自己游戏结束,页面有开始和重新开始按钮。
DeepSeek V3.1 的深度思考模式速度确实比之前的 R1 模型快很多,大概只用了一分钟左右就完成了代码编写。直接运行代码,完美!方向键控制蛇的移动,吃到食物蛇变长,撞到墙壁游戏结束,重新开始按钮也能正常使用。
但是,Claude Opus 4.1 却意外翻车!虽然 UI 界面做得非常精美,但运行后却直接 Game Over,根本没法玩。
第二局:打砖块,Claude Opus 4.1 扳回一局
第二局,生成一个打砖块游戏,同样是编写一个完整的 HTML 文件。要求玩家用左右键控制挡板,小球反弹击碎砖块加分,全部砖块被打掉游戏胜利,页面有重新开始的按钮。
DeepSeek V3.1 再次顺利完成任务,生成的打砖块游戏可以正常运行。但是,Claude Opus 4.1 也不甘示弱,这一次它没有掉链子,生成的打砖块游戏不仅可以流畅运行,而且 UI 设计也更加精美。
第三局:飞机大战,双方再次打平
第三局,生成一个简易的飞机大战游戏。要求玩家通过方向键控制移动,空格键发射子弹,敌机自动生成并下落,子弹击中敌机加分,玩家被撞到游戏结束。
这一局,DeepSeek V3.1 和 Claude Opus 4.1 都表现出色,生成的飞机大战游戏都可以正常运行,只是 DeepSeek V3.1 的 UI 界面略显粗糙。
第四局:迷宫寻路,DeepSeek V3.1 遭遇滑铁卢
第四局,随机生成一个迷宫和寻路。DeepSeek V3.1 意外翻车,生成的代码无法运行,点击“生成迷宫”和“自动寻路”按钮没有任何反应。
而 Claude Opus 4.1 则再次展现了强大的实力,不仅可以随机生成迷宫,还可以自由切换迷宫算法,并自动寻找从起点到终点的最短路径。
第五局:天气查询,Claude Opus 4.1 小胜
第五局,生成一个功能性的网页——天气查询小工具简化版,不需要 API key。DeepSeek V3.1 快速完成了任务,生成的模拟天气查询工具可以正常运行,UI 界面也相当不错。
Claude Opus 4.1 也不逊色,生成的模拟天气查询工具 UI 界面更加精美,可以根据输入的城市名称显示相应的地理坐标、当前温度、体感温度、湿度、风速、紫外线、能见度、气压等信息。
五局战罢,Claude Opus 4.1 以微弱优势领先 DeepSeek V3.1。
为了更加全面地评估 DeepSeek V3.1 的实力,测试者又将它拉来与 GPT-5 进行了一轮较量。
计算器大战:DeepSeek V3.1 再次胜出!
第六局,编写一个完整的计算器。DeepSeek V3.1 再次稳定发挥,生成的计算器可以正常进行加减乘除运算,UI 界面也说得过去。
然而,GPT-5 却再次翻车!虽然 UI 界面做得非常精美,但生成的计算器代码却无法正常运行,点击任何数字和运算符都显示“错误”。
第七局:番茄钟,DeepSeek V3.1 持续高光
第七局,设计一个倒计时番茄钟。DeepSeek V3.1 顺利完成任务,生成的番茄钟可以正常倒计时,并在页面上显示倒计时时间和时钟走动的过程。
GPT-5 这次没有提供直接运行按钮,只能将代码复制出来放到 HTML 文件中运行。虽然可以正常倒计时,但 UI 界面略显粗糙。
第八局:3D 旋转立方体,DeepSeek V3.1 技高一筹
第八局,生成一个 3D 的旋转立方体。GPT-5 再次掉链子,生成的代码没有任何效果,打开后一片空白。
DeepSeek V3.1 则再次展现了强大的实力,生成的 3D 立方体可以正常旋转,还可以更改颜色和重置视角。
第九局:粒子特效,GPT-5 扳回一局
第九局,生成一个粒子特效。GPT-5 终于扳回一局,生成的粒子特效可以正常运行,画面非常细腻。
DeepSeek V3.1 也不错,可以增加和减少粒子,生成的粒子动画也可以正常运行,但效果没有 GPT-5 那么细腻。
第十局:物理模拟,GPT-5 险胜
第十局,模拟六边形中小球自由落体的物理测试。GPT-5 生成的模拟物理场景可以调节重力、弹性系数和小球数量。
DeepSeek V3.1 生成的模拟场景也可以增加小球数量、重力大小和弹性系数,但整个掉落过程非常缓慢,而且小球会跑到外面的框里。
最终,经过 10 轮激烈的较量,DeepSeek V3.1 与 Claude Opus 4.1 和 GPT-5 互有胜负。虽然 DeepSeek V3.1 的 UI 界面相对粗糙,但代码的准确性和稳定性非常高,在多项测试中都表现出色。
模型 | 胜局数 |
---|---|
DeepSeek V3.1 | 5 |
Claude Opus 4.1 | 3 |
GPT-5 | 2 |
当然,这只是一次娱乐性的测试,并不能完全代表这些模型的真实能力。如果你想更全面地了解这些模型,还需要亲自去尝试体验。