Claude Mythos Preview称霸AI编程榜:16项全冠,昂贵且危险的性能怪兽
世界最强AI编程模型Claude Mythos Preview已经上架SWE-Bench Verified和SWE-Bench Pro榜单。它价格昂贵,强大而又危险,把第二名远远甩在身后。
Claude Mythos Preview在16个榜单中全部排名第一,本文列出2026年4月21日SWE-Bench Verified和SWE-Bench Pro榜单数据,供大家参考。
SWE-Bench Verified榜单
在 SWE-Bench Verified 榜单中,Claude Mythos Preview以0.939分的成绩领先Claude Opus 4.7(0.896分)。
从榜单中,我们还可以看到国内各热门模型数据。MiniMax M2.5和Kimi K2.6排名第6(0.802分),Qwen3.6 Plus排名第10(0.788分),小米的MiMo-V2-Pro模型排名11(0.780分),智谱AI的GLM-5排名13(0.778分)。
| 排名 | 模型 | 得分 | 参数量 | 上下文 | 价格 | 提供商 |
|---|---|---|---|---|---|---|
| 1 | Anthropic Claude Mythos Preview | 0.939 | — | — | $25.00 / $125.00 | Anthropic |
| 2 | Anthropic Claude Opus 4.7 New | 0.876 | — | 1.0M | $5.00 / $25.00 | Anthropic |
| 3 | Anthropic Claude Opus 4.5 | 0.809 | — | 200K | $5.00 / $25.00 | Anthropic |
| 4 | Anthropic Claude Opus 4.6 | 0.808 | — | 1.0M | $5.00 / $25.00 | Anthropic |
| 5 | Google Gemini 3.1 Pro | 0.806 | — | 1.0M | $2.50 / $15.00 | |
| 6 | MiniMax MiniMax M2.5 | 0.802 | 230B | 1.0M | $0.30 / $1.20 | 稀宇科技 |
| 6 | Moonshot AI Kimi K2.6 New | 0.802 | 1.0T | 262K | $0.95 / $4.00 | 月之暗面 |
| 8 | OpenAI GPT-5.2 | 0.800 | — | 400K | $1.75 / $14.00 | OpenAI |
| 9 | Anthropic Claude Sonnet 4.6 | 0.796 | — | 200K | $3.00 / $15.00 | Anthropic |
| 10 | Alibaba Cloud / Qwen Team Qwen3.6 Plus | 0.788 | — | — | — | 阿里云 |
| 11 | Google Gemini 3 Flash | 0.780 | — | 1.0M | $0.50 / $3.00 | |
| 11 | Xiaomi MiMo-V2-Pro | 0.780 | 1.0T | 1.0M | $1.00 / $3.00 | 小米 |
| 13 | Zhipu AI GLM-5 | 0.778 | 744B | 200K | $1.00 / $3.20 | 智谱AI |
| 14 | Meta Muse Spark | 0.774 | — | — | — | Meta |
| 15 | Moonshot AI Kimi K2.5 | 0.768 | 1.0T | 262K | $0.60 / $3.00 | 月之暗面 |
| 16 | ByteDance Seed 2.0 Pro | 0.765 | — | — | — | 字节跳动 |
| 17 | Alibaba Cloud / Qwen Team Qwen3.5-397B-A17B | 0.764 | 397B | 262K | $0.60 / $3.60 | 阿里云 |
| 18 | OpenAI GPT-5.1 Instant | 0.763 | — | 400K | $1.25 / $10.00 | OpenAI |
| 18 | OpenAI GPT-5.1 Thinking | 0.763 | — | 400K | $1.25 / $10.00 | OpenAI |
| 18 | OpenAI GPT-5.1 | 0.763 | — | 400K | $1.25 / $10.00 | OpenAI |
| 21 | Google Gemini 3 Pro | 0.762 | — | — | — | |
| 22 | OpenAI GPT-5 | 0.749 | — | — | — | OpenAI |
| 23 | Xiaomi MiMo-V2-Omni | 0.748 | — | 262K | $0.40 / $2.00 | 小米 |
| 24 | OpenAI GPT-5 Codex | 0.745 | — | — | — | OpenAI |
| 24 | Anthropic Claude Opus 4.1 | 0.745 | — | 200K | $15.00 / $75.00 | Anthropic |
| 26 | StepFun Step-3.5-Flash | 0.744 | 196B | 66K | $0.10 / $0.40 | 阶跃星辰 |
| 27 | Zhipu AI GLM-4.7 | 0.738 | 358B | 205K | $0.60 / $2.20 | 智谱AI |
| 28 | OpenAI GPT-5.1 Codex | 0.737 | — | 400K | $1.25 / $10.00 | OpenAI |
| 29 | ByteDance Seed 2.0 Lite | 0.735 | — | — | — | 字节跳动 |
| 30 | Xiaomi MiMo-V2-Flash | 0.734 | 309B | 256K | $0.10 / $0.30 | 小米 |
| 30 | Alibaba Cloud / Qwen Team Qwen3.6-35B-A3B New | 0.734 | 35B | — | — | 阿里云 |
| 32 | Anthropic Claude Haiku 4.5 | 0.733 | — | 200K | $1.00 / $5.00 | Anthropic |
| 33 | DeepSeek DeepSeek-V3.2-Speciale | 0.731 | 685B | — | — | 深度求索 |
| 33 | DeepSeek DeepSeek-V3.2 (Thinking) | 0.731 | 685B | — | — | 深度求索 |
| 33 | DeepSeek DeepSeek-V3.2 | 0.731 | 685B | 164K | $0.26 / $0.38 | 深度求索 |
| 36 | Anthropic Claude Sonnet 4 | 0.727 | — | — | — | Anthropic |
| 37 | Anthropic Claude Opus 4 | 0.725 | — | — | — | Anthropic |
| 38 | Alibaba Cloud / Qwen Team Qwen3.5-27B | 0.724 | 27B | 262K | $0.30 / $2.40 | 阿里云 |
| 39 | Alibaba Cloud / Qwen Team Qwen3.5-122B-A10B | 0.720 | 122B | 262K | $0.40 / $3.20 | 阿里云 |
备注:价格列格式为「输入价格 / 输出价格」(美元/百万Token),输出价格通常高于输入价格2-5倍;参数量单位 B 为十亿参数,T 为万亿参数;上下文指模型支持的最大上下文长度。
SWE-Bench Pro榜单
在SWE-Bench Pro榜单中,Claude Mythos Preview以0.778分的成绩领先Claude Opus 4.7(0.643分)。
国内Kimi K2.6排名第3(0.586)分,智谱AI的GLM-5.1排名第4(0.584分),Qwen3.6 Plus排名第7(0.566分),MiniMax M2.7排名第9(0.562分)。
| 排名 | 模型 | 得分 | 参数量 | 上下文 | 价格 | 提供商 |
|---|---|---|---|---|---|---|
| 1 | Anthropic Claude Mythos Preview | 0.778 | — | — | $25.00 / $125.00 | Anthropic |
| 2 | Anthropic Claude Opus 4.7 New | 0.643 | — | 1.0M | $5.00 / $25.00 | Anthropic |
| 3 | Moonshot AI Kimi K2.6 New | 0.586 | 1.0T | 262K | $0.95 / $4.00 | 月之暗面 |
| 4 | Zhipu AI GLM-5.1 | 0.584 | 754B | 200K | $1.40 / $4.40 | 智谱AI |
| 5 | OpenAI GPT-5.4 | 0.577 | — | 1.0M | $2.50 / $15.00 | OpenAI |
| 6 | OpenAI GPT-5.3 Codex | 0.568 | — | 400K | $1.75 / $14.00 | OpenAI |
| 7 | Alibaba Cloud / Qwen Team Qwen3.6 Plus | 0.566 | — | — | — | 阿里云 |
| 8 | OpenAI GPT-5.2 Codex | 0.564 | — | 400K | $1.75 / $14.00 | OpenAI |
| 9 | MiniMax MiniMax M2.7 | 0.562 | — | 205K | $0.30 / $1.20 | 稀宇科技 |
| 10 | MiniMax MiniMax M2.5 | 0.554 | 230B | 1.0M | $0.30 / $1.20 | 稀宇科技 |
| 11 | OpenAI GPT-5.4 mini | 0.544 | — | 400K | $0.75 / $4.50 | OpenAI |
| 12 | Google Gemini 3.1 Pro | 0.542 | — | 1.0M | $2.50 / $15.00 | |
| 13 | OpenAI GPT-5.4 nano | 0.524 | — | 400K | $0.20 / $1.25 | OpenAI |
| 13 | Meta Muse Spark | 0.524 | — | — | — | Meta |
| 15 | Moonshot AI Kimi K2.5 | 0.507 | 1.0T | 262K | $0.60 / $3.00 | 月之暗面 |
| 16 | Alibaba Cloud / Qwen Team Qwen3.6-35B-A3B New | 0.495 | 35B | — | — | 阿里云 |
备注:价格列格式为「输入价格 / 输出价格」(美元/百万Token),输出价格通常高于输入价格2-5倍;参数量单位 B 为十亿参数,T 为万亿参数;上下文指模型支持的最大上下文长度。
Claude Mythos Preview 各榜单排名情况
从下表可以看出,Claude Mythos Preview在全部16个榜单中排名第一,能力非常强大。
| 基准测试 | 排名 | 得分 | 说明 |
|---|---|---|---|
| CyBench | 第1名 | 1.00/1 | 一套夺旗赛(CTF)挑战,用于衡量智能体的网络攻击能力。评估双用途网络安全知识,衡量"无指导成功率",即智能体端到端完成任务而无需子任务指导。 |
| USAMO25 | 第1名 | 0.98/1 | 2025年美国数学奥林匹克竞赛基准,包含六道需要严格证明推理的挑战性数学问题。USAMO是美国最具声望的高中数学竞赛,是美国数学竞赛系列的最终轮。评估模型超越简单数值计算的数学问题解决能力,专注于形式数学推理和证明生成。 |
| GPQA | 第1名 | 0.95/1 | 由生物学、物理学和化学领域专家编写的448道多选题数据集。问题无法通过谷歌搜索解决,难度极高,博士专家的正确率仅为65%。 |
| SWE-Bench Verified | 第1名 | 0.94/1 | 来自真实GitHub问题的500个软件工程问题的验证子集,由人工标注验证,用于评估语言模型通过生成Python代码库补丁解决真实世界编码问题的能力。 |
| CharXiv-R | 第1名 | 0.93/1 | CharXiv基准的推理组件,专注于需要综合视觉图表元素信息的复杂推理问题。评估多模态大语言模型通过各种推理任务理解和推理arXiv论文中科学图表的能力。 |
| MMMLU | 第1名 | 0.93/1 | OpenAI发布的多语言大规模多任务语言理解数据集,包含14种语言(阿拉伯语、孟加拉语、德语、西班牙语、法语、印地语、印尼语、意大利语、日语、韩语、葡萄牙语、斯瓦希里语、约鲁巴语和中文)的专业翻译MMLU测试问题。每种语言约15,908道多选题,涵盖57个学科。 |
| FigQA | 第1名 | 0.89/1 | 解释生物学论文中科学图表的多选题基准。评估与生物武器开发相关的双用途生物知识和多模态推理。 |
| SWE-Bench 多语言 | 第1名 | 0.87/1 | 软件工程问题解决的多语言基准,涵盖Java、TypeScript、JavaScript、Go、Rust、C和C++。由68位专家标注员从2,456个候选中精心标注的1,632个高质量实例,用于评估大语言模型在Python之外的多样化软件生态系统中的表现。 |
| BrowseComp | 第1名 | 0.87/1 | 包含1,266个问题的基准,挑战AI智能体持续浏览互联网以搜索难以发现的纠缠信息。衡量智能体在信息收集中的持久性、网页导航中的创造力,以及找到简洁可验证答案的能力。 |
| CyberGym | 第1名 | 0.83/1 | 评估AI智能体网络安全任务的基准,测试其在受控环境中识别漏洞、执行安全分析和完成安全相关挑战的能力。 |
| Terminal-Bench 2.0 | 第1名 | 0.82/1 | 测试AI智能体通过终端操作计算机的工具使用能力的更新基准。评估模型自主处理现实世界端到端任务的能力,包括编译代码、训练模型、搭建服务器、系统管理、安全任务、数据科学工作流和网络安全漏洞。 |
| Graphwalks BFS >128k | 第1名 | 0.80/1 | 图推理基准,评估语言模型在超过128k Token的图上执行广度优先搜索(BFS)操作的能力,测试长上下文推理能力。 |
| OSWorld-Verified | 第1名 | 0.80/1 | OSWorld的验证子集,是一个可扩展的真实计算机环境,支持Ubuntu、Windows和macOS上的任务设置、基于执行的评估和交互式学习,面向多模态智能体。 |
| SWE-Bench Pro | 第1名 | 0.78/1 | SWE-Bench的高级版本,评估语言模型在需要扩展推理和多步问题解决的复杂现实世界软件工程任务上的表现。 |
| Humanity’s Last Exam | 第1名 | 0.65/1 | 多模态学术基准,包含2,500道跨越数学、人文学科和自然科学的问题,旨在用明确可验证的解决方案测试LLM在人类知识前沿的能力。 |
| SWE-Bench 多模态 | 第1名 | 0.59/1 | SWE-Bench的多模态扩展,评估语言模型在涉及视觉输入(如截图、UI模型和图表)以及代码理解的软件工程任务上的表现。 |
总结
虽然榜单并不能完全反映各模型在项目中的实际表现,但是我们可以根据榜单排名来选择合适的编程模型。Claude Mythos Preview非常强大,但是价格昂贵,每百万Token输出价格高达125美元,这个价格是Anthropic Claude Opus模型输出价格的5倍,MiniMax M2.5模型输出价格的104倍,Kimi K2.6模型输出价格的31倍,GLM-5模型的39倍。
另一方面,模型的强大也会使网络安全问题变得非常严峻。随着 Claude Mythos 级别的模型出现,发现和利用软件漏洞的成本、精力和专业知识门槛都出现了急剧下降。
相关地址
Claude Mythos Preview各榜单数据:https://llm-stats.com/models/claude-mythos-preview
SWE-Bench Verified榜单:https://llm-stats.com/benchmarks/swe-bench-verified
SWE-Bench Pro榜单:https://llm-stats.com/benchmarks/swe-bench-pro