Skip to content

Commit 93dd1e8

Browse files
committed
update README
1 parent 2ebe58e commit 93dd1e8

File tree

2 files changed

+85
-1
lines changed

2 files changed

+85
-1
lines changed

README.md

Lines changed: 10 additions & 1 deletion
Original file line numberDiff line numberDiff line change
@@ -52,6 +52,15 @@
5252
</a>
5353
</div>
5454

55+
<div align="center" style="margin-top: 10px;">
56+
<a href="README.md">
57+
<img src="https://img.shields.io/badge/English-00d4ff?style=for-the-badge&logo=readme&logoColor=white&labelColor=1a1a2e" alt="English">
58+
</a>
59+
<a href="README_ZH.md">
60+
<img src="https://img.shields.io/badge/中文-00d4ff?style=for-the-badge&logo=readme&logoColor=white&labelColor=1a1a2e" alt="中文">
61+
</a>
62+
</div>
63+
5564
### 🖥️ **Interface Showcase**
5665

5766
<table align="center" width="100%" style="border: none; border-collapse: collapse; margin: 30px 0;">
@@ -262,7 +271,7 @@ On the 5-paper subset, DeepCode substantially outperforms leading commercial cod
262271
- Codex: 40.0%
263272
- **DeepCode: 84.8%**
264273

265-
This represents a **+26.1% improvement** over the leading commercial code agent. All commercial agents utilize Claude Sonnet 4.5-thinking or GPT-5 Codex-high, highlighting that **DeepCode's superior architecture**—rather than base model capability—drives this performance gap.
274+
This represents a **+26.1% improvement** over the leading commercial code agent. All commercial agents utilize Claude Sonnet 4.5 or GPT-5 Codex-high, highlighting that **DeepCode's superior architecture**—rather than base model capability—drives this performance gap.
266275

267276
### ③ 🔬 Scientific Code Agents
268277

README_ZH.md

Lines changed: 75 additions & 0 deletions
Original file line numberDiff line numberDiff line change
@@ -52,6 +52,15 @@
5252
</a>
5353
</div>
5454

55+
<div align="center" style="margin-top: 10px;">
56+
<a href="README.md">
57+
<img src="https://img.shields.io/badge/English-00d4ff?style=for-the-badge&logo=readme&logoColor=white&labelColor=1a1a2e" alt="English">
58+
</a>
59+
<a href="README_ZH.md">
60+
<img src="https://img.shields.io/badge/中文-00d4ff?style=for-the-badge&logo=readme&logoColor=white&labelColor=1a1a2e" alt="中文">
61+
</a>
62+
</div>
63+
5564
### 🖥️ **界面展示**
5665

5766
<table align="center" width="100%" style="border: none; border-collapse: collapse; margin: 30px 0;">
@@ -133,8 +142,10 @@
133142

134143
## 📑 目录
135144

145+
- [📰 新闻](#-新闻)
136146
- [🚀 核心特性](#-核心特性)
137147
- [🏗️ 架构](#️-架构)
148+
- [📊 实验结果](#-实验结果)
138149
- [🚀 快速开始](#-快速开始)
139150
- [💡 示例](#-示例)
140151
- [🎬 实时演示](#-实时演示)
@@ -143,6 +154,19 @@
143154

144155
---
145156

157+
## 📰 新闻
158+
159+
🎉 **[2025-10] 🎉 [2025-10-28] DeepCode在PaperBench上达到最先进水平!**
160+
161+
DeepCode在OpenAI的PaperBench Code-Dev所有类别中创造新基准:
162+
163+
- 🏆 **超越人类专家**: **75.9%** (DeepCode) vs 顶级机器学习博士 72.4% (+3.5%)。
164+
- 🥇 **超越最先进商业代码智能体**: **84.8%** (DeepCode) vs 领先商业代码智能体 (+26.1%) (Cursor, Claude Code, 和 Codex)。
165+
- 🔬 **推进科学编程**: **73.5%** (DeepCode) vs PaperCoder 51.1% (+22.4%)。
166+
- 🚀 **击败LLM智能体**: **73.5%** (DeepCode) vs 最佳LLM框架 43.3% (+30.2%)。
167+
168+
---
169+
146170
## 🚀 核心特性
147171

148172
<br/>
@@ -217,6 +241,57 @@
217241

218242
<br/>
219243

244+
---
245+
246+
## 📊 实验结果
247+
248+
<div align="center">
249+
<img src='./assets/result_main02.jpg' /><br>
250+
</div>
251+
<br/>
252+
253+
我们在[*PaperBench*](https://openai.com/index/paperbench/)基准测试(由OpenAI发布)上评估**DeepCode**,这是一个严格的测试平台,要求AI智能体从头独立复现20篇ICML 2024论文。该基准包含8,316个可评分组件,使用带有分层权重的SimpleJudge进行评估。
254+
255+
我们的实验将DeepCode与四个基线类别进行比较:**(1) 人类专家****(2) 最先进商业代码智能体****(3) 科学代码智能体**,以及 **(4) 基于LLM的智能体**
256+
257+
### ① 🧠 人类专家表现(顶级机器学习博士)
258+
259+
**DeepCode: 75.9% vs. 顶级机器学习博士: 72.4% (+3.5%)**
260+
261+
DeepCode在3篇论文的人类评估子集上达到**75.9%****超越3次人类专家基线(72.4%)+3.5个百分点**。这表明我们的框架不仅匹配而且超越了专家级代码复现能力,代表了自主科学软件工程的重要里程碑。
262+
263+
### ② 💼 最先进商业代码智能体
264+
265+
**DeepCode: 84.8% vs. 最佳商业智能体: 58.7% (+26.1%)**
266+
267+
在5篇论文的子集上,DeepCode大幅超越领先的商业编码工具:
268+
- Cursor: 58.4%
269+
- Claude Code: 58.7%
270+
- Codex: 40.0%
271+
- **DeepCode: 84.8%**
272+
273+
这代表了相对于领先商业代码智能体的**+26.1%改进**。所有商业智能体都使用Claude Sonnet 4.5或GPT-5 Codex-high,突出了**DeepCode的卓越架构**——而非基础模型能力——推动了这一性能差距。
274+
275+
### ③ 🔬 科学代码智能体
276+
277+
**DeepCode: 73.5% vs. PaperCoder: 51.1% (+22.4%)**
278+
279+
与最先进的科学代码复现框架PaperCoder(**51.1%**)相比,DeepCode达到**73.5%**,展示了**+22.4%的相对改进**。这一显著差距验证了我们结合规划、分层任务分解、代码生成和迭代调试的多模块架构优于简单的管道式方法。
280+
281+
### ④ 🤖 基于LLM的智能体
282+
283+
**DeepCode: 73.5% vs. 最佳LLM智能体: 43.3% (+30.2%)**
284+
285+
DeepCode显著超越所有测试的LLM智能体:
286+
- Claude 3.5 Sonnet + IterativeAgent: 27.5%
287+
- o1 + IterativeAgent (36小时): 42.4%
288+
- o1 BasicAgent: 43.3%
289+
- **DeepCode: 73.5%**
290+
291+
相对于表现最佳的LLM智能体的**+30.2%改进**表明,复杂的智能体框架,而非延长的推理时间或更大的模型,对于复杂的代码复现任务至关重要。
292+
293+
---
294+
220295
### 🎯 **自主多智能体工作流**
221296

222297
**面临的挑战**:

0 commit comments

Comments
 (0)