人工智能 - 超腾开源博客 | 了解网站最新动态,分享最新技术
Anthropic公司最新推出的AI编程模型Claude Mythos Preview在SWE-Bench Verified和SWE-Bench Pro两大权威编程基准测试中均位列第一,展现出卓越性能。在SWE-Bench Verified榜单中,它以0.939分领先于第二名Claude Opus 4.7的0.876分;在更复杂的SWE-Bench Pro榜单中,也以0.778分大幅领先。文章同时列举了包括MiniMax、Kimi、Qwen、小米、智谱AI等在内的多个国内主流模型的表现及排名。值得注意的是,Claude Mythos Preview在全部16个涵盖数学、科学、网络安全等多领域的基准测试中均排名第一,但其价格极为昂贵,输出成本是其他领先模型的数十倍。作者指出,虽然榜单成绩不能完全代表实际项目表现,但此类模型的强大能力也同时意味着网络安全风险的门槛可能随之降低。
39
0
创建于2026年4月21日
本文探讨了在AI编程工具能力趋同的背景下,如何通过有效使用提示词来显著提升开发效率。文章从新项目开发、旧项目维护和实用技巧三个维度,通过一系列具体案例展示了提示词的应用。在新项目开发中,提示词可用于从数据库设计生成建表脚本、批量生成前后端代码、自动创建单元测试并修复Bug,以及快速集成第三方SDK。在旧项目维护方面,提示词能帮助理解复杂代码、完成框架或技术栈的平滑迁移。此外,文章还介绍了一些提效技巧,如利用AI进行数据库语法转换、生成SVG图标、编写部署脚本,以及结合Figma、Playwright等工具实现设计稿转代码和自动化测试。全文的核心观点是,善用提示词能让开发者从重复性工作中解放出来,更专注于架构设计和创造性问题解决。
277
1
创建于2026年3月11日
2026年初,国产AI编程大模型(如GLM-4.5、MiniMax M2.5、Kimi K2.5)在编程能力上已接近国际顶尖模型Claude Opus 4.5,而价格仅为后者的十分之一左右。文章基于SWE-Bench Verified榜单评估了各模型的编程性能,并详细对比了智谱AI、MiniMax、月之暗面、火山引擎、摩尔线程、百度、阿里云、腾讯云等厂商的编程套餐价格、调用限额和可用模型。通过性价比分析,作者建议排除使用受限的Kimi套餐及不支持主流高性能模型(如GLM-5、MiniMax-M2.5)的选项,最终推荐智谱AI、MiniMax、百度智能云、阿里云和腾讯云的套餐,为开发者提供了选择参考。
778
3
创建于2026年2月13日
本文通过一个复杂的外卖配送调度优化项目,实测了2025年底发布的六款国产大模型(Kimi-K2-0905、DeepSeek-V3.1-Terminus、Doubao-Seed-Code、DeepSeek-V3.2、GLM-4.7、MiniMax-M2.1)的AI编程能力。测试在Trae和CodeBuddy IDE两种环境下进行,使用统一的提示词要求构建包含地图、随机位置生成、路径优化算法及动画演示的完整应用。
测试结果表明,AI编程能力主要取决于大模型本身。GLM-4.7表现最为出色,生成的程序界面美观、动画流畅;MiniMax M2.1和DeepSeek-V3.1-Terminus次之,基本能实现核心功能;DeepSeek-V3.2和Doubao-Seed-Code存在部分缺陷;而Kimi-K2-0905则无法完成有效开发。文章总结认为,国产大模型在复杂编程任务上已具备替代国际顶级模型的潜力,并推荐开发者尝试相关工具进行验证。
779
1
创建于2025年12月29日
Kiro IDE是亚马逊开发的AI编程工具,基于VSCode二次开发,界面高度可定制。它最大的亮点是对国内用户友好,无需特殊网络即可直接使用Claude系列等顶级大模型。免费试用版提供500额度,支持多款Claude模型;企业版则额外集成了DeepSeek、GLM、Qwen等更多模型,额度消耗较快。在功能上,Kiro提供类似Cursor的Vibe(问答/代理)和Spec(计划)模式,并支持MCP工具、Power扩展、Hooks自动化以及Steering项目规范管理。不过,其操作逻辑与Cursor有明显差异:最让用户不适的是无法拖拽文件到对话框,而是需要右键选择将文件全部内容添加为上下文,这可能造成上下文令牌的浪费。总体而言,Kiro目前版本尚不完善,在交互智能性上可能略逊于Cursor,但其无需特殊网络即可使用Claude模型的优势,使其成为国内开发者的一个便利选择。
1800
1
创建于2025年12月19日