Claude Mythos Preview称霸AI编程榜:16项全冠,昂贵且危险的性能怪兽

2026-04-21 超腾开源 6 次阅读 0 次点赞
Anthropic公司最新推出的AI编程模型Claude Mythos Preview在SWE-Bench Verified和SWE-Bench Pro两大权威编程基准测试中均位列第一,展现出卓越性能。在SWE-Bench Verified榜单中,它以0.939分领先于第二名Claude Opus 4.7的0.876分;在更复杂的SWE-Bench Pro榜单中,也以0.778分大幅领先。文章同时列举了包括MiniMax、Kimi、Qwen、小米、智谱AI等在内的多个国内主流模型的表现及排名。值得注意的是,Claude Mythos Preview在全部16个涵盖数学、科学、网络安全等多领域的基准测试中均排名第一,但其价格极为昂贵,输出成本是其他领先模型的数十倍。作者指出,虽然榜单成绩不能完全代表实际项目表现,但此类模型的强大能力也同时意味着网络安全风险的门槛可能随之降低。

世界最强AI编程模型Claude Mythos Preview已经上架SWE-Bench Verified和SWE-Bench Pro榜单。它价格昂贵,强大而又危险,把第二名远远甩在身后。

Claude Mythos Preview在16个榜单中全部排名第一,本文列出2026年4月21日SWE-Bench Verified和SWE-Bench Pro榜单数据,供大家参考。

SWE-Bench Verified榜单

在 SWE-Bench Verified 榜单中,Claude Mythos Preview以0.939分的成绩领先Claude Opus 4.7(0.896分)。

从榜单中,我们还可以看到国内各热门模型数据。MiniMax M2.5和Kimi K2.6排名第6(0.802分),Qwen3.6 Plus排名第10(0.788分),小米的MiMo-V2-Pro模型排名11(0.780分),智谱AI的GLM-5排名13(0.778分)。

排名 模型 得分 参数量 上下文 价格 提供商
1 Anthropic Claude Mythos Preview 0.939 $25.00 / $125.00 Anthropic
2 Anthropic Claude Opus 4.7 New 0.876 1.0M $5.00 / $25.00 Anthropic
3 Anthropic Claude Opus 4.5 0.809 200K $5.00 / $25.00 Anthropic
4 Anthropic Claude Opus 4.6 0.808 1.0M $5.00 / $25.00 Anthropic
5 Google Gemini 3.1 Pro 0.806 1.0M $2.50 / $15.00 Google
6 MiniMax MiniMax M2.5 0.802 230B 1.0M $0.30 / $1.20 稀宇科技
6 Moonshot AI Kimi K2.6 New 0.802 1.0T 262K $0.95 / $4.00 月之暗面
8 OpenAI GPT-5.2 0.800 400K $1.75 / $14.00 OpenAI
9 Anthropic Claude Sonnet 4.6 0.796 200K $3.00 / $15.00 Anthropic
10 Alibaba Cloud / Qwen Team Qwen3.6 Plus 0.788 阿里云
11 Google Gemini 3 Flash 0.780 1.0M $0.50 / $3.00 Google
11 Xiaomi MiMo-V2-Pro 0.780 1.0T 1.0M $1.00 / $3.00 小米
13 Zhipu AI GLM-5 0.778 744B 200K $1.00 / $3.20 智谱AI
14 Meta Muse Spark 0.774 Meta
15 Moonshot AI Kimi K2.5 0.768 1.0T 262K $0.60 / $3.00 月之暗面
16 ByteDance Seed 2.0 Pro 0.765 字节跳动
17 Alibaba Cloud / Qwen Team Qwen3.5-397B-A17B 0.764 397B 262K $0.60 / $3.60 阿里云
18 OpenAI GPT-5.1 Instant 0.763 400K $1.25 / $10.00 OpenAI
18 OpenAI GPT-5.1 Thinking 0.763 400K $1.25 / $10.00 OpenAI
18 OpenAI GPT-5.1 0.763 400K $1.25 / $10.00 OpenAI
21 Google Gemini 3 Pro 0.762 Google
22 OpenAI GPT-5 0.749 OpenAI
23 Xiaomi MiMo-V2-Omni 0.748 262K $0.40 / $2.00 小米
24 OpenAI GPT-5 Codex 0.745 OpenAI
24 Anthropic Claude Opus 4.1 0.745 200K $15.00 / $75.00 Anthropic
26 StepFun Step-3.5-Flash 0.744 196B 66K $0.10 / $0.40 阶跃星辰
27 Zhipu AI GLM-4.7 0.738 358B 205K $0.60 / $2.20 智谱AI
28 OpenAI GPT-5.1 Codex 0.737 400K $1.25 / $10.00 OpenAI
29 ByteDance Seed 2.0 Lite 0.735 字节跳动
30 Xiaomi MiMo-V2-Flash 0.734 309B 256K $0.10 / $0.30 小米
30 Alibaba Cloud / Qwen Team Qwen3.6-35B-A3B New 0.734 35B 阿里云
32 Anthropic Claude Haiku 4.5 0.733 200K $1.00 / $5.00 Anthropic
33 DeepSeek DeepSeek-V3.2-Speciale 0.731 685B 深度求索
33 DeepSeek DeepSeek-V3.2 (Thinking) 0.731 685B 深度求索
33 DeepSeek DeepSeek-V3.2 0.731 685B 164K $0.26 / $0.38 深度求索
36 Anthropic Claude Sonnet 4 0.727 Anthropic
37 Anthropic Claude Opus 4 0.725 Anthropic
38 Alibaba Cloud / Qwen Team Qwen3.5-27B 0.724 27B 262K $0.30 / $2.40 阿里云
39 Alibaba Cloud / Qwen Team Qwen3.5-122B-A10B 0.720 122B 262K $0.40 / $3.20 阿里云

备注:价格列格式为「输入价格 / 输出价格」(美元/百万Token),输出价格通常高于输入价格2-5倍;参数量单位 B 为十亿参数,T 为万亿参数;上下文指模型支持的最大上下文长度。

SWE-Bench Pro榜单

在SWE-Bench Pro榜单中,Claude Mythos Preview以0.778分的成绩领先Claude Opus 4.7(0.643分)。

国内Kimi K2.6排名第3(0.586)分,智谱AI的GLM-5.1排名第4(0.584分),Qwen3.6 Plus排名第7(0.566分),MiniMax M2.7排名第9(0.562分)。

排名 模型 得分 参数量 上下文 价格 提供商
1 Anthropic Claude Mythos Preview 0.778 $25.00 / $125.00 Anthropic
2 Anthropic Claude Opus 4.7 New 0.643 1.0M $5.00 / $25.00 Anthropic
3 Moonshot AI Kimi K2.6 New 0.586 1.0T 262K $0.95 / $4.00 月之暗面
4 Zhipu AI GLM-5.1 0.584 754B 200K $1.40 / $4.40 智谱AI
5 OpenAI GPT-5.4 0.577 1.0M $2.50 / $15.00 OpenAI
6 OpenAI GPT-5.3 Codex 0.568 400K $1.75 / $14.00 OpenAI
7 Alibaba Cloud / Qwen Team Qwen3.6 Plus 0.566 阿里云
8 OpenAI GPT-5.2 Codex 0.564 400K $1.75 / $14.00 OpenAI
9 MiniMax MiniMax M2.7 0.562 205K $0.30 / $1.20 稀宇科技
10 MiniMax MiniMax M2.5 0.554 230B 1.0M $0.30 / $1.20 稀宇科技
11 OpenAI GPT-5.4 mini 0.544 400K $0.75 / $4.50 OpenAI
12 Google Gemini 3.1 Pro 0.542 1.0M $2.50 / $15.00 Google
13 OpenAI GPT-5.4 nano 0.524 400K $0.20 / $1.25 OpenAI
13 Meta Muse Spark 0.524 Meta
15 Moonshot AI Kimi K2.5 0.507 1.0T 262K $0.60 / $3.00 月之暗面
16 Alibaba Cloud / Qwen Team Qwen3.6-35B-A3B New 0.495 35B 阿里云

备注:价格列格式为「输入价格 / 输出价格」(美元/百万Token),输出价格通常高于输入价格2-5倍;参数量单位 B 为十亿参数,T 为万亿参数;上下文指模型支持的最大上下文长度。

Claude Mythos Preview 各榜单排名情况

从下表可以看出,Claude Mythos Preview在全部16个榜单中排名第一,能力非常强大。

基准测试 排名 得分 说明
CyBench 第1名 1.00/1 一套夺旗赛(CTF)挑战,用于衡量智能体的网络攻击能力。评估双用途网络安全知识,衡量"无指导成功率",即智能体端到端完成任务而无需子任务指导。
USAMO25 第1名 0.98/1 2025年美国数学奥林匹克竞赛基准,包含六道需要严格证明推理的挑战性数学问题。USAMO是美国最具声望的高中数学竞赛,是美国数学竞赛系列的最终轮。评估模型超越简单数值计算的数学问题解决能力,专注于形式数学推理和证明生成。
GPQA 第1名 0.95/1 由生物学、物理学和化学领域专家编写的448道多选题数据集。问题无法通过谷歌搜索解决,难度极高,博士专家的正确率仅为65%。
SWE-Bench Verified 第1名 0.94/1 来自真实GitHub问题的500个软件工程问题的验证子集,由人工标注验证,用于评估语言模型通过生成Python代码库补丁解决真实世界编码问题的能力。
CharXiv-R 第1名 0.93/1 CharXiv基准的推理组件,专注于需要综合视觉图表元素信息的复杂推理问题。评估多模态大语言模型通过各种推理任务理解和推理arXiv论文中科学图表的能力。
MMMLU 第1名 0.93/1 OpenAI发布的多语言大规模多任务语言理解数据集,包含14种语言(阿拉伯语、孟加拉语、德语、西班牙语、法语、印地语、印尼语、意大利语、日语、韩语、葡萄牙语、斯瓦希里语、约鲁巴语和中文)的专业翻译MMLU测试问题。每种语言约15,908道多选题,涵盖57个学科。
FigQA 第1名 0.89/1 解释生物学论文中科学图表的多选题基准。评估与生物武器开发相关的双用途生物知识和多模态推理。
SWE-Bench 多语言 第1名 0.87/1 软件工程问题解决的多语言基准,涵盖Java、TypeScript、JavaScript、Go、Rust、C和C++。由68位专家标注员从2,456个候选中精心标注的1,632个高质量实例,用于评估大语言模型在Python之外的多样化软件生态系统中的表现。
BrowseComp 第1名 0.87/1 包含1,266个问题的基准,挑战AI智能体持续浏览互联网以搜索难以发现的纠缠信息。衡量智能体在信息收集中的持久性、网页导航中的创造力,以及找到简洁可验证答案的能力。
CyberGym 第1名 0.83/1 评估AI智能体网络安全任务的基准,测试其在受控环境中识别漏洞、执行安全分析和完成安全相关挑战的能力。
Terminal-Bench 2.0 第1名 0.82/1 测试AI智能体通过终端操作计算机的工具使用能力的更新基准。评估模型自主处理现实世界端到端任务的能力,包括编译代码、训练模型、搭建服务器、系统管理、安全任务、数据科学工作流和网络安全漏洞。
Graphwalks BFS >128k 第1名 0.80/1 图推理基准,评估语言模型在超过128k Token的图上执行广度优先搜索(BFS)操作的能力,测试长上下文推理能力。
OSWorld-Verified 第1名 0.80/1 OSWorld的验证子集,是一个可扩展的真实计算机环境,支持Ubuntu、Windows和macOS上的任务设置、基于执行的评估和交互式学习,面向多模态智能体。
SWE-Bench Pro 第1名 0.78/1 SWE-Bench的高级版本,评估语言模型在需要扩展推理和多步问题解决的复杂现实世界软件工程任务上的表现。
Humanity’s Last Exam 第1名 0.65/1 多模态学术基准,包含2,500道跨越数学、人文学科和自然科学的问题,旨在用明确可验证的解决方案测试LLM在人类知识前沿的能力。
SWE-Bench 多模态 第1名 0.59/1 SWE-Bench的多模态扩展,评估语言模型在涉及视觉输入(如截图、UI模型和图表)以及代码理解的软件工程任务上的表现。

总结

虽然榜单并不能完全反映各模型在项目中的实际表现,但是我们可以根据榜单排名来选择合适的编程模型。Claude Mythos Preview非常强大,但是价格昂贵,每百万Token输出价格高达125美元,这个价格是Anthropic Claude Opus模型输出价格的5倍,MiniMax M2.5模型输出价格的104倍,Kimi K2.6模型输出价格的31倍,GLM-5模型的39倍。

另一方面,模型的强大也会使网络安全问题变得非常严峻。随着 Claude Mythos 级别的模型出现,发现和利用软件漏洞的成本、精力和专业知识门槛都出现了急剧下降。

相关地址

Claude Mythos Preview各榜单数据:https://llm-stats.com/models/claude-mythos-preview

SWE-Bench Verified榜单:https://llm-stats.com/benchmarks/swe-bench-verified

SWE-Bench Pro榜单:https://llm-stats.com/benchmarks/swe-bench-pro

最后更新于4小时前
本文由人工编写,AI优化,转载请注明原文地址: Claude Mythos Preview称霸AI编程榜:16项全冠,昂贵且危险的性能怪兽

评论 (0)

登录 后发表评论

暂无评论,快来发表第一条评论吧!