国产大模型编程实力大比拼：GLM-4.7领衔，谁能在外卖调度项目中胜出？

2025年底，国内各大模型厂商非常给力，相继发布了Kimi-K2-0905、DeepSeek-V3.1-Terminus、Doubao-Seed-Code、DeepSeek-V3.2、GLM-4.7、MiniMax-M2.1等大模型。经实测，国产大模型在AI编程方面，已经完全可以代替Claude-4.5、GPT-5.2、Gemini 3等顶级模型，用于企业级项目了，大家可以下载CodeBuddyIDE和Trae国内版进行实测。

本文将使用Trae SOLO模式和CodeBuddyIDE Plan模式来测试国产大模型的编程能力。为了避免大模型抄答案，本文不会使用网上类似闹钟、贪吃蛇等简单的测试用例，而使用外卖员配送调度优化的例子，更接近真实的项目。

模型信息

Trae SOLO模式支持Doubao-Seed-Code、GLM-4.7、GLM-4.6、MiniMax-M2.1、MiniMax-M2、Kimi-K2-0905模型，CodeBuddyIDE Plan模式支持GLM-4.7、GLM-4.6、DeepSeek-V3.2、DeepSeek-V3.1-Terminus模型。我们首先列出各国产模型的发布厂商、发布日期和多模态支持情况。可以看到除了Kimi-K2-0905和DeepSeek-V3.1-Terminus发布稍早外，其他三个模型都是近两个月内发布的。

模型名称	发布厂商	发布日期	多模态
Kimi-K2-0905	月之暗面	2025年9月5日	不支持
DeepSeek-V3.1-Terminus	深度求索	2025年9月22日	不支持
Doubao-Seed-Code	火山引擎	2025年11月11日	支持
DeepSeek-V3.2	深度求索	2025年12月1日	不支持
GLM-4.7	智谱AI	2025年12月23日	不支持
MiniMax M2.1	MiniMax	2025年12月24日	不支持

提示词

我们使用了外卖员配送调度优化的测试用例。这个测试用例非常复杂，涵盖前端、GIS、算法等内容。为了保证公平，我们没有使用Trae和CodeBuddyIDE优化输入内容，没有对大模型生成的开发方案进行任何修改，开发过程中没有进行任何人工干预。我们的提示词如下：

在当前文件夹中，使用vite、vue3、typescript、ant-design-vue、leaflet编写一个外卖员配送调度优化程序。假设有n家餐馆（默认n=10），m个买家（默认m=8），k个骑手（默认k=5），求解出配送距离最短和配送时间最短两种方案并在地图上用动画表示出来。街道、餐馆、买家、骑手位置可以随机生成，餐馆、买家、骑手一定位于街道上。提供一个重绘街道按钮重新生成街道、餐馆、买家、骑手位置。提供一个重置骑手按钮，可以随机设置骑手在街道上的位置。提供一个开始配送按钮，可以根据选择的优化方案（配送距离最短、配送时间最短），在地图上动态演示配送效果。

测试结果

我们使用Trae SOLO模式和CodeBuddyIDE Plan模式进行测试，发现AI编程能力主要跟大模型有关，跟IDE关系不大。Trae国内版虽然可以免费使用，但是经常排队，有时候会排到180多个人，10分钟都轮不上。CodeBuddyIDE不会排队，支持GLM-4.7，非常建议大家撸一波羊毛。

IDE	模型名称	测试结果	改错次数
Trae	Doubao-Seed-Code	基本能用，无动画	0
Trae	GLM-4.7	美观，有动画	1
Trae	MiniMax-M2.1	美观，有动画	2
Trae	Kimi-K2-0905	完全无法使用	10
CodeBuddyIDE	GLM-4.7	美观，有动画	1
CodeBuddyIDE	DeepSeek-V3.2	UI能力强，无法使用	5
CodeBuddyIDE	DeepSeek-V3.1-Terminus	UI布局错误，美观，有动画	5

Doubao-Seed-Code

这是Doubao-Seed-Code开发的程序，地图不够美观，餐馆、买家、骑手只简单的在地图上使用文字表示，没有生成配送动画，配送路线也没有沿着街道，但是可以正常使用。

GLM-4.7

下图Trae使用GLM-4.7开发的程序，生成的街道质量很高，餐馆、买家、骑手都使用了图标，非常美观。点击开始配送按钮，骑手沿着街道移动的动画非常流畅，并能给出配送结果，非常完美。

下图是CodeBuddyIDE使用GLM-4.7开发的程序，UI美观，生成的街道质量也很高，餐馆、买家、骑手使用了颜色图标，带呼吸效果。点击开始配送按钮，骑手沿着街道移动的动画非常流畅，并能给出配送结果。美中不足是缺少图例，看不出每种颜色图标表示什么意思。

MiniMax-M2.1

这是MiniMax-M2.1生成的程序，生成的街道质量没有GLM-4.7高，餐馆、买家、骑手使用了文字图标，也很漂亮。点击开始配送按钮，骑手沿着街道移动的动画也非常流畅，最后也可以分析出结果。

Kimi-K2-0905

Kimi-K2-0905就比较惨不忍睹了，刚开始生成的页面还能展示，只是没有街道、餐馆、买家和骑手。跟大模型反馈后，越改错误越多，后面怎么改都改不对了。

DeepSeek-V3.2

DeepSeek-V3.2考虑得非常全面，生成的UI非常复杂，但是文字颜色搭配和部分按钮上的样式存在问题。地图上可以正常显示街道、餐馆、买家和骑手位置。点击开始配送，可以分析出结果，但是没有动画。

DeepSeek-V3.1-Terminus

DeepSeek-V3.1-Terminus发布的比较早（2025年9月22日），但是在编程方面能力比DeepSeek-V3.2还要强，仅次于GLM-4.7和MiniMax-M2.1。它开发的程序界面比较简单，存在布局问题，但是地图上能正确显示街道、餐馆、买家和骑手位置。点击开始配送，骑手沿着街道移动的动画也非常流畅，最后也可以分析出结果。

总结

AI IDE的编程能力主要跟使用的模型有关，跟IDE本身（例如Trae或CodeBuddyIDE）关系不大。

在模型能力方面，GLM-4.7是最强国产模型，MiniMax M2.1次之，然后是DeepSeek-V3.1-Terminus和DeepSeek-V3.2，最后Doubao-Seed-Code和Kimi-K2-0905比较弱。

国产大模型编程实力大比拼：GLM-4.7领衔，谁能在外卖调度项目中胜出？

模型信息

提示词

测试结果

Doubao-Seed-Code

GLM-4.7

MiniMax-M2.1

Kimi-K2-0905

DeepSeek-V3.2

DeepSeek-V3.1-Terminus

总结

推荐阅读

谷歌AI神器Antigravity深度体验：免费使用Gemini 3 Pro与Claude Sonnet 4.5

微信生态开发避坑指南：认证体系、成本权衡与替代方案全解析

阿里Qoder深度体验：首月2美元的超强AI IDE，为何积分消耗快得让人心疼？

超腾开源网站2.0震撼上线！基于Nuxt 4与Nuxt UI 4，博客商城知识库三大模块全新升级

CodeBuddyIDE与Trae终极对决：谁是最强国产AI编程IDE？最新版本深度横评

血汗与数字：在系统的围城中完成自我的救赎

评论 (1)

发表评论

微信生态开发避坑指南：认证体系、成本权衡与替代方案全解析

国产大模型编程实力大比拼：GLM-4.7领衔，谁能在外卖调度项目中胜出？

亚马逊Kiro IDE深度体验：无需魔法直连Claude 4.5，但文件拖拽为何如此难用？

血汗与数字：在系统的围城中完成自我的救赎

从程序员到基金韭菜：我如何发现定投策略是庄家眼中的透明牌

超腾开源网站2.0震撼上线！基于Nuxt 4与Nuxt UI 4，博客商城知识库三大模块全新升级

亚马逊Kiro IDE深度体验：无需魔法直连Claude 4.5，但文件拖拽为何如此难用？

告别手机浏览尴尬！Tailwind CSS自适应技术让网站完美适配移动端

CodeBuddyIDE与Trae终极对决：谁是最强国产AI编程IDE？最新版本深度横评

血汗与数字：在系统的围城中完成自我的救赎