国产大模型编程能力大比拼:实测GLM-4.7等六款模型,谁能完美搞定外卖调度项目?

2025-12-29 人工智能 855 次阅读 1 次点赞
本文通过一个复杂的外卖配送调度优化项目,实测了2025年底发布的六款国产大模型(Kimi-K2-0905、DeepSeek-V3.1-Terminus、Doubao-Seed-Code、DeepSeek-V3.2、GLM-4.7、MiniMax-M2.1)的AI编程能力。测试在Trae和CodeBuddy IDE两种环境下进行,使用统一的提示词要求构建包含地图、随机位置生成、路径优化算法及动画演示的完整应用。 测试结果表明,AI编程能力主要取决于大模型本身。GLM-4.7表现最为出色,生成的程序界面美观、动画流畅;MiniMax M2.1和DeepSeek-V3.1-Terminus次之,基本能实现核心功能;DeepSeek-V3.2和Doubao-Seed-Code存在部分缺陷;而Kimi-K2-0905则无法完成有效开发。文章总结认为,国产大模型在复杂编程任务上已具备替代国际顶级模型的潜力,并推荐开发者尝试相关工具进行验证。

2025年底,国内各大模型厂商非常给力,相继发布了Kimi-K2-0905、DeepSeek-V3.1-Terminus、Doubao-Seed-Code、DeepSeek-V3.2、GLM-4.7、MiniMax-M2.1等大模型。经过测试,国产大模型在AI编程方面,已经完全可以代替 Claude-4.5、GPT-5.2、Gemini 3 等顶级模型,用于企业级的项目了,大家可以下载CodeBuddy IDE和Trae国内版进行测试。

本文将使用Trae SOLO模式和CodeBuddy IDE Plan模式来实测国产大模型的编程能力。为了避免大模型抄袭,本文不会使用网上类似闹钟、贪吃蛇等简单的测试用例,而是使用外卖配送调度优化的例子,更接近真实的项目。

模型信息

Trae SOLO模式目前支持 Doubao-Seed-Code、GLM-4.7、GLM-4.6、MiniMax-M2.1、MiniMax-M2、Kimi-K2-0905 模型,CodeBuddy IDE Plan模式支持GLM-4.7、GLM-4.6、DeepSeek-V3.2、DeepSeek-V3.1-Terminus 模型。我们首先列出各国产模型的发布厂商、发布日期和多模态支持情况。可以看到除了 Kimi-K2-0905 和 DeepSeek-V3.1-Terminus 发布稍早外,其他三个模型都是最近两个月内发布的。

模型名称 发布厂商 发布日期 多模态
Kimi-K2-0905 月之暗面 2025年9月5日 不支持
DeepSeek-V3.1-Terminus 深度求索 2025年9月22日 不支持
Doubao-Seed-Code 火山引擎 2025年11月11日 支持
DeepSeek-V3.2 深度求索 2025年12月1日 不支持
GLM-4.7 智谱AI 2025年12月23日 不支持
MiniMax M2.1 MiniMax 2025年12月24日 不支持

提示词

我们使用外卖配送调度优化的测试用例。这个用例非常复杂,涵盖前端、GIS、算法等内容。为了保证公平,我们没有使用 Trae 和 CodeBuddy IDE 优化输入内容,没有对大模型生成的开发方案进行任何修改,开发过程中没有进行任何人工干预。我们的提示词如下:

在当前文件夹中,使用 vite、vue3、typescript、ant-design-vue、leaflet 编写一个外卖配送调度优化程序。假设有n家餐馆(默认n=10),m个买家(默认m=8),k个骑手(默认k=5),求解出配送距离最短和配送时间最短两种方案并在地图上用动画表示出来。街道、餐馆、买家、骑手位置可以随机生成,餐馆、买家、骑手一定位于街道上。提供一个重绘街道按钮重新生成街道、餐馆、买家、骑手位置。提供一个重置骑手按钮,可以随机设置骑手在街道上的位置。提供一个开始配送按钮,可以根据选择的优化方案(配送距离最短、配送时间最短),在地图上动态演示配送效果。

测试结果

我们使用Trae SOLO模式和CodeBuddy IDE Plan模式进行测试,发现AI的编程能力主要跟大模型有关,跟IDE关系不大。Trae国内版虽然可以免费使用,但经常排队,有时候会排到180多个人,10分钟都轮不到你。CodeBuddy IDE不会排队,支持GLM-4.7,非常建议大家试试。

IDE 模型名称 测试结果 改错次数
Trae Doubao-Seed-Code 基本能用,无动画 0
Trae GLM-4.7 美观,有动画 1
Trae MiniMax-M2.1 美观,有动画 2
Trae Kimi-K2-0905 完全无法使用 10
CodeBuddy IDE GLM-4.7 美观,有动画 1
CodeBuddy IDE DeepSeek-V3.2 UI能力强,无法使用 5
CodeBuddy IDE DeepSeek-V3.1-Terminus UI布局有问题,美观,有动画 5

Doubao-Seed-Code

这是Doubao-Seed-Code开发的程序,地图不够美观,餐馆、买家、骑手只简单的在地图上使用文字表示,没有生成配送动画,配送路线也没有沿着街道,但是可以正常使用。

Doubao-Seed-Code开发的外卖调度程序

GLM-4.7

下图是Trae使用GLM-4.7开发的程序,生成的街道质量非常高,餐馆、买家、骑手都使用了图标表示,非常美观。点击开始配送按钮,骑手沿着街道移动的动画非常流畅,并能给出配送结果,非常完美。

Trae使用GLM-4.7开发的外卖调度程序

下图是CodeBuddy IDE使用GLM-4.7开发的程序,UI美观,生成的街道质量也很高,餐馆、买家、骑手使用了颜色图标,带呼吸效果。点击开始配送按钮,骑手沿着街道移动的动画非常流畅,并能给出配送结果。美中不足是缺少图例,看不出每种颜色图标代表什么。

CodeBuddyIDE使用GLM-4.7开发的外卖调度程序

MiniMax-M2.1

这是MiniMax-M2.1生成的外面配送调度优化程序,生成的街道质量没有GLM-4.7高,餐馆、买家、骑手使用了文字图标,也很漂亮。点击开始配送按钮,骑手沿着街道移动的动画也非常流畅,最后也可以给出分析结果。

MiniMax-M2.1开发的外卖调度程序

Kimi-K2-0905

Kimi-K2-0905就比较惨不忍睹了,刚开始生成的页面还能展示,只是没有街道、餐馆、买家和骑手。跟大模型反馈后,越改错误越多,后面怎么都改不对了。

Kimi-K2-0905开发的外卖调度程序

DeepSeek-V3.2

DeepSeek-V3.2考虑得非常全面,生成的UI非常复杂,但是文字颜色搭配和部分按钮上的样式存在问题。地图上可以正常显示街道、餐馆、买家和骑手位置。点击开始配送,可以分析出结果,但是没有动画。

DeepSeek-V3.2开发的外卖调度程序

DeepSeek-V3.1-Terminus

DeepSeek-V3.1-Terminus发布的比较早(2025年9月22日),但是在编程方面能力比DeepSeek-V3.2还要强,仅次于GLM-4.7和MiniMax-M2.1。它开发的界面比较简单,存在布局问题,但是地图上能正确显示街道、餐馆、买家和骑手位置。点击开始配送,骑手沿着街道移动的动画也非常流畅,最后也可以分析出结果。

DeepSeek-V3.1-Terminus开发的外卖调度程序

总结

AI的编程能力主要跟使用的大模型有关,跟IDE本身(例如Trae或CodeBuddy IDE)关系不大。

在大模型编程方面,GLM-4.7是最强国产模型,MiniMax M2.1次之,然后是DeepSeek-V3.1-Terminus和DeepSeek-V3.2,剩下的Doubao-Seed-Code和Kimi-K2-0905模型还比较弱。

最后更新于18天前

评论 (1)

登录 后发表评论

元气少女元气少女2025-12-29 21:07:19

GLM-4.7的表现确实亮眼!感谢作者用这么贴近实际的外卖调度项目来测试,很有参考价值。看完更期待国产模型的发展了。