| 排名 | 模型 | 厂商 | SWE-bench | 类型 |
|---|---|---|---|---|
| 🥇 | Claude 4 Opus | Anthropic | 78.3% | 闭源 |
| 🥈 | GPT-5.5 | OpenAI | 76.1% | 闭源 |
| 🥉 | o3 | OpenAI | 74.8% | 闭源 |
| 4 | Gemini 3.1 | 72.5% | 闭源 | |
| 5 | DeepSeek-V4 | DeepSeek | 70.2% | 开源 |
| 6 | Claude 4 Sonnet | Anthropic | 68.9% | 闭源 |
| 7 | 文心 5.1 | 百度 | 67.5% | 闭源 |
| 8 | Qwen3-Max | 阿里 | 66.0% | 闭源 |
| 9 | GPT-5 | OpenAI | 64.8% | 闭源 |
| 10 | Gemini 3.0 | 63.2% | 闭源 | |
| 11 | Kimi-2 | 月之暗面 | 62.0% | 闭源 |
| 12 | Llama 4 Maverick | Meta | 60.5% | 开源 |
| 13 | GLM-5 | 智谱 AI | 59.3% | 闭源 |
| 14 | Mistral Large 3 | Mistral | 58.0% | 闭源 |
| 15 | Claude 4 Haiku | Anthropic | 56.5% | 闭源 |
| 16 | DeepSeek-V3.2 | DeepSeek | 55.0% | 开源 |
| 17 | Llama 4 Scout | Meta | 53.8% | 开源 |
| 18 | Yi-3 | 零一万物 | 52.5% | 开源 |
| 19 | Command A | Cohere | 51.0% | 闭源 |
| 20 | MiniMax-M2.5 | MiniMax | 50.0% | 闭源 |
💻 模型排行 最近更新: 2026-05-10
AI 代码能力排行榜
SWE-bench VerifiedBigCodeBenchLiveCodeBench