Claude Mythos Preview称霸AI编程榜：16项全冠，昂贵且危险的性能怪兽

世界最强AI编程模型Claude Mythos Preview已经上架SWE-Bench Verified和SWE-Bench Pro榜单。它价格昂贵，强大而又危险，把第二名远远甩在身后。

Claude Mythos Preview在16个榜单中全部排名第一，本文列出2026年4月21日SWE-Bench Verified和SWE-Bench Pro榜单数据，供大家参考。

SWE-Bench Verified榜单

在 SWE-Bench Verified 榜单中，Claude Mythos Preview以0.939分的成绩领先Claude Opus 4.7（0.896分）。

从榜单中，我们还可以看到国内各热门模型数据。MiniMax M2.5和Kimi K2.6排名第6（0.802分），Qwen3.6 Plus排名第10（0.788分），小米的MiMo-V2-Pro模型排名11（0.780分），智谱AI的GLM-5排名13（0.778分）。

排名	模型	得分	参数量	上下文	价格	提供商
1	Anthropic Claude Mythos Preview	0.939	—	—	$25.00 / $125.00	Anthropic
2	Anthropic Claude Opus 4.7 New	0.876	—	1.0M	$5.00 / $25.00	Anthropic
3	Anthropic Claude Opus 4.5	0.809	—	200K	$5.00 / $25.00	Anthropic
4	Anthropic Claude Opus 4.6	0.808	—	1.0M	$5.00 / $25.00	Anthropic
5	Google Gemini 3.1 Pro	0.806	—	1.0M	$2.50 / $15.00	Google
6	MiniMax MiniMax M2.5	0.802	230B	1.0M	$0.30 / $1.20	稀宇科技
6	Moonshot AI Kimi K2.6 New	0.802	1.0T	262K	$0.95 / $4.00	月之暗面
8	OpenAI GPT-5.2	0.800	—	400K	$1.75 / $14.00	OpenAI
9	Anthropic Claude Sonnet 4.6	0.796	—	200K	$3.00 / $15.00	Anthropic
10	Alibaba Cloud / Qwen Team Qwen3.6 Plus	0.788	—	—	—	阿里云
11	Google Gemini 3 Flash	0.780	—	1.0M	$0.50 / $3.00	Google
11	Xiaomi MiMo-V2-Pro	0.780	1.0T	1.0M	$1.00 / $3.00	小米
13	Zhipu AI GLM-5	0.778	744B	200K	$1.00 / $3.20	智谱AI
14	Meta Muse Spark	0.774	—	—	—	Meta
15	Moonshot AI Kimi K2.5	0.768	1.0T	262K	$0.60 / $3.00	月之暗面
16	ByteDance Seed 2.0 Pro	0.765	—	—	—	字节跳动
17	Alibaba Cloud / Qwen Team Qwen3.5-397B-A17B	0.764	397B	262K	$0.60 / $3.60	阿里云
18	OpenAI GPT-5.1 Instant	0.763	—	400K	$1.25 / $10.00	OpenAI
18	OpenAI GPT-5.1 Thinking	0.763	—	400K	$1.25 / $10.00	OpenAI
18	OpenAI GPT-5.1	0.763	—	400K	$1.25 / $10.00	OpenAI
21	Google Gemini 3 Pro	0.762	—	—	—	Google
22	OpenAI GPT-5	0.749	—	—	—	OpenAI
23	Xiaomi MiMo-V2-Omni	0.748	—	262K	$0.40 / $2.00	小米
24	OpenAI GPT-5 Codex	0.745	—	—	—	OpenAI
24	Anthropic Claude Opus 4.1	0.745	—	200K	$15.00 / $75.00	Anthropic
26	StepFun Step-3.5-Flash	0.744	196B	66K	$0.10 / $0.40	阶跃星辰
27	Zhipu AI GLM-4.7	0.738	358B	205K	$0.60 / $2.20	智谱AI
28	OpenAI GPT-5.1 Codex	0.737	—	400K	$1.25 / $10.00	OpenAI
29	ByteDance Seed 2.0 Lite	0.735	—	—	—	字节跳动
30	Xiaomi MiMo-V2-Flash	0.734	309B	256K	$0.10 / $0.30	小米
30	Alibaba Cloud / Qwen Team Qwen3.6-35B-A3B New	0.734	35B	—	—	阿里云
32	Anthropic Claude Haiku 4.5	0.733	—	200K	$1.00 / $5.00	Anthropic
33	DeepSeek DeepSeek-V3.2-Speciale	0.731	685B	—	—	深度求索
33	DeepSeek DeepSeek-V3.2 (Thinking)	0.731	685B	—	—	深度求索
33	DeepSeek DeepSeek-V3.2	0.731	685B	164K	$0.26 / $0.38	深度求索
36	Anthropic Claude Sonnet 4	0.727	—	—	—	Anthropic
37	Anthropic Claude Opus 4	0.725	—	—	—	Anthropic
38	Alibaba Cloud / Qwen Team Qwen3.5-27B	0.724	27B	262K	$0.30 / $2.40	阿里云
39	Alibaba Cloud / Qwen Team Qwen3.5-122B-A10B	0.720	122B	262K	$0.40 / $3.20	阿里云

备注：价格列格式为「输入价格 / 输出价格」（美元/百万Token），输出价格通常高于输入价格2-5倍；参数量单位 B 为十亿参数，T 为万亿参数；上下文指模型支持的最大上下文长度。

SWE-Bench Pro榜单

在SWE-Bench Pro榜单中，Claude Mythos Preview以0.778分的成绩领先Claude Opus 4.7（0.643分）。

国内Kimi K2.6排名第3（0.586）分，智谱AI的GLM-5.1排名第4（0.584分），Qwen3.6 Plus排名第7（0.566分），MiniMax M2.7排名第9（0.562分）。

排名	模型	得分	参数量	上下文	价格	提供商
1	Anthropic Claude Mythos Preview	0.778	—	—	$25.00 / $125.00	Anthropic
2	Anthropic Claude Opus 4.7 New	0.643	—	1.0M	$5.00 / $25.00	Anthropic
3	Moonshot AI Kimi K2.6 New	0.586	1.0T	262K	$0.95 / $4.00	月之暗面
4	Zhipu AI GLM-5.1	0.584	754B	200K	$1.40 / $4.40	智谱AI
5	OpenAI GPT-5.4	0.577	—	1.0M	$2.50 / $15.00	OpenAI
6	OpenAI GPT-5.3 Codex	0.568	—	400K	$1.75 / $14.00	OpenAI
7	Alibaba Cloud / Qwen Team Qwen3.6 Plus	0.566	—	—	—	阿里云
8	OpenAI GPT-5.2 Codex	0.564	—	400K	$1.75 / $14.00	OpenAI
9	MiniMax MiniMax M2.7	0.562	—	205K	$0.30 / $1.20	稀宇科技
10	MiniMax MiniMax M2.5	0.554	230B	1.0M	$0.30 / $1.20	稀宇科技
11	OpenAI GPT-5.4 mini	0.544	—	400K	$0.75 / $4.50	OpenAI
12	Google Gemini 3.1 Pro	0.542	—	1.0M	$2.50 / $15.00	Google
13	OpenAI GPT-5.4 nano	0.524	—	400K	$0.20 / $1.25	OpenAI
13	Meta Muse Spark	0.524	—	—	—	Meta
15	Moonshot AI Kimi K2.5	0.507	1.0T	262K	$0.60 / $3.00	月之暗面
16	Alibaba Cloud / Qwen Team Qwen3.6-35B-A3B New	0.495	35B	—	—	阿里云

备注：价格列格式为「输入价格 / 输出价格」（美元/百万Token），输出价格通常高于输入价格2-5倍；参数量单位 B 为十亿参数，T 为万亿参数；上下文指模型支持的最大上下文长度。

Claude Mythos Preview 各榜单排名情况

从下表可以看出，Claude Mythos Preview在全部16个榜单中排名第一，能力非常强大。

基准测试	排名	得分	说明
CyBench	第1名	1.00/1	一套夺旗赛（CTF）挑战，用于衡量智能体的网络攻击能力。评估双用途网络安全知识，衡量"无指导成功率"，即智能体端到端完成任务而无需子任务指导。
USAMO25	第1名	0.98/1	2025年美国数学奥林匹克竞赛基准，包含六道需要严格证明推理的挑战性数学问题。USAMO是美国最具声望的高中数学竞赛，是美国数学竞赛系列的最终轮。评估模型超越简单数值计算的数学问题解决能力，专注于形式数学推理和证明生成。
GPQA	第1名	0.95/1	由生物学、物理学和化学领域专家编写的448道多选题数据集。问题无法通过谷歌搜索解决，难度极高，博士专家的正确率仅为65%。
SWE-Bench Verified	第1名	0.94/1	来自真实GitHub问题的500个软件工程问题的验证子集，由人工标注验证，用于评估语言模型通过生成Python代码库补丁解决真实世界编码问题的能力。
CharXiv-R	第1名	0.93/1	CharXiv基准的推理组件，专注于需要综合视觉图表元素信息的复杂推理问题。评估多模态大语言模型通过各种推理任务理解和推理arXiv论文中科学图表的能力。
MMMLU	第1名	0.93/1	OpenAI发布的多语言大规模多任务语言理解数据集，包含14种语言（阿拉伯语、孟加拉语、德语、西班牙语、法语、印地语、印尼语、意大利语、日语、韩语、葡萄牙语、斯瓦希里语、约鲁巴语和中文）的专业翻译MMLU测试问题。每种语言约15,908道多选题，涵盖57个学科。
FigQA	第1名	0.89/1	解释生物学论文中科学图表的多选题基准。评估与生物武器开发相关的双用途生物知识和多模态推理。
SWE-Bench 多语言	第1名	0.87/1	软件工程问题解决的多语言基准，涵盖Java、TypeScript、JavaScript、Go、Rust、C和C++。由68位专家标注员从2,456个候选中精心标注的1,632个高质量实例，用于评估大语言模型在Python之外的多样化软件生态系统中的表现。
BrowseComp	第1名	0.87/1	包含1,266个问题的基准，挑战AI智能体持续浏览互联网以搜索难以发现的纠缠信息。衡量智能体在信息收集中的持久性、网页导航中的创造力，以及找到简洁可验证答案的能力。
CyberGym	第1名	0.83/1	评估AI智能体网络安全任务的基准，测试其在受控环境中识别漏洞、执行安全分析和完成安全相关挑战的能力。
Terminal-Bench 2.0	第1名	0.82/1	测试AI智能体通过终端操作计算机的工具使用能力的更新基准。评估模型自主处理现实世界端到端任务的能力，包括编译代码、训练模型、搭建服务器、系统管理、安全任务、数据科学工作流和网络安全漏洞。
Graphwalks BFS >128k	第1名	0.80/1	图推理基准，评估语言模型在超过128k Token的图上执行广度优先搜索（BFS）操作的能力，测试长上下文推理能力。
OSWorld-Verified	第1名	0.80/1	OSWorld的验证子集，是一个可扩展的真实计算机环境，支持Ubuntu、Windows和macOS上的任务设置、基于执行的评估和交互式学习，面向多模态智能体。
SWE-Bench Pro	第1名	0.78/1	SWE-Bench的高级版本，评估语言模型在需要扩展推理和多步问题解决的复杂现实世界软件工程任务上的表现。
Humanity’s Last Exam	第1名	0.65/1	多模态学术基准，包含2,500道跨越数学、人文学科和自然科学的问题，旨在用明确可验证的解决方案测试LLM在人类知识前沿的能力。
SWE-Bench 多模态	第1名	0.59/1	SWE-Bench的多模态扩展，评估语言模型在涉及视觉输入（如截图、UI模型和图表）以及代码理解的软件工程任务上的表现。

总结

虽然榜单并不能完全反映各模型在项目中的实际表现，但是我们可以根据榜单排名来选择合适的编程模型。Claude Mythos Preview非常强大，但是价格昂贵，每百万Token输出价格高达125美元，这个价格是Anthropic Claude Opus模型输出价格的5倍，MiniMax M2.5模型输出价格的104倍，Kimi K2.6模型输出价格的31倍，GLM-5模型的39倍。

另一方面，模型的强大也会使网络安全问题变得非常严峻。随着 Claude Mythos 级别的模型出现，发现和利用软件漏洞的成本、精力和专业知识门槛都出现了急剧下降。

Claude Mythos Preview称霸AI编程榜：16项全冠，昂贵且危险的性能怪兽

SWE-Bench Verified榜单

SWE-Bench Pro榜单

Claude Mythos Preview 各榜单排名情况

总结

相关地址

推荐阅读

超图iServer WMTS服务突破18级限制：自定义接口实现高精度瓦片加载

VMware Workstation 17许可证密钥及免费激活方法详解

OpenVPN安装配置完整指南：从零搭建安全VPN服务器与客户端

XWiki只允许本机访问：Jetty绑定127.0.0.1配置方法

VMware Workstation 16激活码及许可证密钥获取方法

ArcGIS转GDB导入超图后空间查询失效？一个复制操作轻松修复

评论 (0)

超图iServer WMTS服务突破18级限制：自定义接口实现高精度瓦片加载

ArcGIS转GDB导入超图后空间查询失效？一个复制操作轻松修复

XWiki只允许本机访问：Jetty绑定127.0.0.1配置方法

Claude Mythos Preview称霸AI编程榜：16项全冠，昂贵且危险的性能怪兽

GeoServer适配达梦数据库完整教程：从账号创建到图层发布

GeoScene Portal 4.1 SnakeYAML安全漏洞修复指南-CVE-2022-1471解决方案

XWiki升级后编辑页面无光标？快速解决xwiki-relatime插件报错问题

告别显存焦虑！用MultiDiffusion扩展轻松生成4K级Stable Diffusion超清大图

30道脑洞大开的AI推理测试题，测测你和大模型谁更聪明

手把手教你用Ollama实现工具调用，三行Python代码看懂MCP原理