Skip to content

Commit 12a6295

Browse files
committed
“agent与工具调用”计入总分
1 parent 5b5675b commit 12a6295

27 files changed

+1058
-1056
lines changed

CHANGELOG.md

Lines changed: 1 addition & 0 deletions
Original file line numberDiff line numberDiff line change
@@ -1,6 +1,7 @@
11
## 最近更新
22
- [2025/10/13] v5.6版本
33
- 各评测集删除太简单的样本,并补充新样本,各模型分数均有较大变动
4+
- “agent与工具调用”计入总分,各模型排名有所变动
45
- 新增大模型:GLM-4.6,☛查看模型完整信息并体验[link](https://nonelinear.com/static/models.html)
56
- [2025/9/30] v5.5版本
67
- 新增大模型:开源DeepSeek-V3.2-Exp、DeepSeek-V3.2-Exp-Think、hunyuan-turbos-20250926,☛查看[模型完整信息](https://nonelinear.com/static/models.html)

README.md

Lines changed: 19 additions & 18 deletions
Original file line numberDiff line numberDiff line change
@@ -3,7 +3,7 @@
33
- ReLE (**R**eally R**e**liable **L**ive **E**valuation for LLM),原名CLiB
44
- 目前已囊括301个大模型,覆盖chatgpt、gpt-5、o4-mini、谷歌gemini-2.5、Claude4、智谱GLM-Z1、文心一言、qwen3-max、百川、讯飞星火、商汤senseChat、minimax等商用模型,
55
以及kimi-k2、ernie4.5、minimax-M1、DeepSeek-R1-0528、deepseek-v3.2、qwen3-2507、llama4、GLM4.5、gemma3、mistral等开源大模型。
6-
- 支持多维度能力评测,包括教育、医疗与心理健康、金融、法律与行政公务、推理与数学计算、语言与指令遵从等6个领域,以及细分的~300个维度(比如牙科、高中语文…)。
6+
- 支持多维度能力评测,包括教育、医疗与心理健康、金融、法律与行政公务、推理与数学计算、语言与指令遵从、agent与工具调用等7个领域,以及细分的~300个维度(比如牙科、高中语文…)。
77
- 不仅提供排行榜,也提供规模**超200万的大模型缺陷库**!方便广大社区研究分析、改进大模型。
88
- 为您的私有大模型提供免费评测服务,联系我们:[加微信](#联系我们)
99

@@ -56,6 +56,7 @@
5656
# 最近更新
5757
- [2025/10/13] v5.6版本
5858
- 各评测集删除太简单的样本,并补充新样本,各模型分数均有较大变动
59+
- “agent与工具调用”计入总分,各模型排名有所变动
5960
- 新增大模型:GLM-4.6,☛查看模型完整信息并体验[link](https://nonelinear.com/static/models.html)
6061
- [2025/9/30] v5.5版本
6162
- 新增大模型:开源DeepSeek-V3.2-Exp、DeepSeek-V3.2-Exp-Think、hunyuan-turbos-20250926,☛查看[模型完整信息](https://nonelinear.com/static/models.html)
@@ -167,13 +168,13 @@ client.chat.completions.create(
167168

168169

169170
## 1、综合能力排行榜
170-
“综合能力”计分方式:“综合能力”改为“专业能力”和“通用能力”平均分,其中“专业能力”为“教育”、“医疗与心理健康”、“金融”、“法律与行政公务”4大领域平均分,“通用能力”为“推理与数学计算”、“语言与指令遵从”两大领域平均分
171+
“综合能力”计分方式:“综合能力”改为“专业能力”和“通用能力”平均分,其中“专业能力”为“教育”、“医疗与心理健康”、“金融”、“法律与行政公务”4大领域平均分,“通用能力”为“推理与数学计算”、“语言与指令遵从”、“agent与工具调用”3大领域平均分
171172
![link](pic/总分.png)
172173

173174
|类别|机构|大模型|【总分】准确率|平均耗时|平均消耗token|花费/千次(元)|排名(准确率)|
174175
|---|---|-----|-------------------|-------|-----------|-----------|-----------|
175-
|商用|豆包|doubao-seed-1-6-thinking-250715|77.6%|37s|2162|15.6|1|
176-
|开源|深度求索|DeepSeek-V3.2-Exp-Think(new)|74.7%|248s|2106|6.1|2|
176+
|商用|豆包|doubao-seed-1-6-thinking-250715|74.2%|37s|2162|15.6|1|
177+
|开源|深度求索|DeepSeek-V3.2-Exp-Think(new)|71.0%|248s|2106|6.1|2|
177178

178179

179180
详细数据见:
@@ -186,8 +187,8 @@ client.chat.completions.create(
186187

187188
|排名|大模型|机构|输出价格|总分| |教育|医疗与心理健康|金融|法律与行政公务|推理与数学计算|语言与指令遵从|
188189
|---|-----|---|-------|---|-|---|-----------|----|-----------|------------|-----------|
189-
|1|doubao-seed-1-6-thinking-250715☛[去体验](https://nonelinear.com/static/modelcompare.html?type=proprietary)|豆包|8.0元|77.6%| | 64.4%|87.8%|84.1%| 85.0%|76.4%|73.3%|
190-
|2|DeepSeek-V3.2-Exp-Think(new)☛[去体验](https://nonelinear.com/static/modelcompare.html?type=open-source)|深度求索|3.0元|74.7%| | 50.4%|80.9%|82.5%| 82.0%|74.0%|77.2%|
190+
|1|doubao-seed-1-6-thinking-250715☛[去体验](https://nonelinear.com/static/modelcompare.html?type=proprietary)|豆包|8.0元|74.2%| | 64.4%|87.8%|84.1%| 85.0%|76.4%|73.3%|
191+
|2|DeepSeek-V3.2-Exp-Think(new)☛[去体验](https://nonelinear.com/static/modelcompare.html?type=open-source)|深度求索|3.0元|71.0%| | 50.4%|80.9%|82.5%| 82.0%|74.0%|77.2%|
191192

192193
完整排行榜见[推理模型排行榜](leaderboard/reasonmodel.md)<br>
193194
<br>
@@ -196,26 +197,26 @@ client.chat.completions.create(
196197

197198
|排名|大模型|机构|输出价格|总分| |教育|医疗与心理健康|金融|法律与行政公务|推理与数学计算|语言与指令遵从|
198199
|---|-----|---|-------|---|-|---|-----------|----|-----------|------------|-----------|
199-
|1|doubao-seed-1-6-thinking-250715☛[去体验](https://nonelinear.com/static/modelcompare.html?type=proprietary)|豆包|8.0元|77.6%| | 64.4%|87.8%|84.1%| 85.0%|76.4%|73.3%|
200-
|2|qwen3-max-preview(new)[去体验](https://nonelinear.com/static/modelcompare.html?type=proprietary)|阿里巴巴|24.0元|72.9%| | 54.2%|82.8%|85.1%| 77.0%|70.1%|71.9%|
200+
|1|doubao-seed-1-6-thinking-250715☛[去体验](https://nonelinear.com/static/modelcompare.html?type=proprietary)|豆包|8.0元|74.2%| | 64.4%|87.8%|84.1%| 85.0%|76.4%|73.3%|
201+
|2|qwen-plus-think-2025-07-28[去体验](https://nonelinear.com/static/modelcompare.html?type=proprietary)|阿里巴巴|8.0元|69.7%| | 58.2%|81.2%|83.0%| 78.7%|73.1%|66.7%|
201202

202203
完整排行榜见[5元及以上商用大模型](leaderboard/commerce1.md)<br><br>
203204

204205
##### (2)输出价格1~5元商用大模型排行榜
205206

206207
|排名|大模型|机构|输出价格|总分| |教育|医疗与心理健康|金融|法律与行政公务|推理与数学计算|语言与指令遵从|
207208
|---|-----|---|-------|---|-|---|-----------|----|-----------|------------|-----------|
208-
|1|DeepSeek-V3.2-Exp-Think(new)☛[去体验](https://nonelinear.com/static/modelcompare.html?type=open-source)|深度求索|3.0元|74.7%| | 50.4%|80.9%|82.5%| 82.0%|74.0%|77.2%|
209-
|2|hunyuan-t1-20250711[去体验](https://nonelinear.com/static/modelcompare.html?type=proprietary)|腾讯|4.0元|73.9%| | 58.9%|82.9%|83.6%| 76.3%|72.0%|72.9%|
209+
|1|DeepSeek-V3.2-Exp-Think(new)☛[去体验](https://nonelinear.com/static/modelcompare.html?type=open-source)|深度求索|3.0元|71.0%| | 50.4%|80.9%|82.5%| 82.0%|74.0%|77.2%|
210+
|2|hunyuan-turbos-20250716[去体验](https://nonelinear.com/static/modelcompare.html?type=proprietary)|腾讯|2.0元|69.9%| | 49.9%|89.5%|83.9%| 82.0%|53.2%|63.4%|
210211

211212
完整排行榜见[1~5元商用大模型](leaderboard/commerce2.md)<br><br>
212213

213214
##### (3)输出价格1元以下商用大模型排行榜
214215

215216
|排名|大模型|机构|输出价格|总分| |教育|医疗与心理健康|金融|法律与行政公务|推理与数学计算|语言与指令遵从|
216217
|---|-----|---|-------|---|-|---|-----------|----|-----------|------------|-----------|
217-
|1|Doubao-1.5-lite-32k-250115[去体验](https://nonelinear.com/static/modelcompare.html?type=proprietary)|豆包|0.6元|62.8%| | 49.6%|80.5%|77.2%| 66.0%|50.3%|64.0%|
218-
|2|GLM-4.5-Flash[去体验](https://nonelinear.com/static/modelcompare.html?type=proprietary)|智谱AI|0.0元|62.4%| | 29.6%|73.3%|70.3%| 72.7%|61.1%|65.5%|
218+
|1|GLM-4.5-Flash[去体验](https://nonelinear.com/static/modelcompare.html?type=proprietary)|智谱AI|0.0元|62.5%| | 29.6%|73.3%|70.3%| 72.7%|61.1%|65.5%|
219+
|2|Doubao-1.5-lite-32k-250115[去体验](https://nonelinear.com/static/modelcompare.html?type=proprietary)|豆包|0.6元|58.2%| | 49.6%|80.5%|77.2%| 66.0%|50.3%|64.0%|
219220

220221
完整排行榜见[1元以下商用大模型](leaderboard/commerce3.md)<br>
221222

@@ -227,26 +228,26 @@ DIY自定义维度筛选榜单:☛ [link](https://nonelinear.com/static/benchm
227228

228229
|排名|大模型|机构|输出价格|总分| |教育|医疗与心理健康|金融|法律与行政公务|推理与数学计算|语言与指令遵从|
229230
|---|-----|---|-------|---|-|---|-----------|----|-----------|------------|-----------|
230-
|1|Qwen3-4B☛[去体验](https://nonelinear.com/static/modelcompare.html?type=open-source)|阿里巴巴|3.0元|54.5%| | 33.1%|64.8%|70.6%| 53.0%|51.2%|56.0%|
231-
|2|Qwen3-1.7B☛[去体验](https://nonelinear.com/static/modelcompare.html?type=open-source)|阿里巴巴|3.0元|47.0%| | 30.5%|51.7%|59.1%| 46.0%|45.3%|49.0%|
231+
|1|Qwen3-4B☛[去体验](https://nonelinear.com/static/modelcompare.html?type=open-source)|阿里巴巴|3.0元|52.4%| | 33.1%|64.8%|70.6%| 53.0%|51.2%|56.0%|
232+
|2|Qwen3-1.7B☛[去体验](https://nonelinear.com/static/modelcompare.html?type=open-source)|阿里巴巴|3.0元|43.9%| | 30.5%|51.7%|59.1%| 46.0%|45.3%|49.0%|
232233

233234
完整排行榜见[5B以下开源大模型](leaderboard/opensource1.md)<br><br>
234235

235236
##### (2)5B~20B开源大模型排行榜
236237

237238
|排名|大模型|机构|输出价格|总分| |教育|医疗与心理健康|金融|法律与行政公务|推理与数学计算|语言与指令遵从|
238239
|---|-----|---|-------|---|-|---|-----------|----|-----------|------------|-----------|
239-
|1|Qwen3-14B☛[去体验](https://nonelinear.com/static/modelcompare.html?type=open-source)|阿里巴巴|2.0元|60.0%| | 43.0%|75.6%|80.2%| 66.2%|54.3%|53.3%|
240-
|2|Qwen3-8B☛[去体验](https://nonelinear.com/static/modelcompare.html?type=open-source)|阿里巴巴|0.0元|58.6%| | 35.0%|67.5%|72.4%| 66.8%|55.8%|57.8%|
240+
|1|Qwen3-14B☛[去体验](https://nonelinear.com/static/modelcompare.html?type=open-source)|阿里巴巴|2.0元|59.4%| | 43.0%|75.6%|80.2%| 66.2%|54.3%|53.3%|
241+
|2|Qwen3-8B☛[去体验](https://nonelinear.com/static/modelcompare.html?type=open-source)|阿里巴巴|0.0元|56.8%| | 35.0%|67.5%|72.4%| 66.8%|55.8%|57.8%|
241242

242243
完整排行榜见[5B~20B开源大模型](leaderboard/opensource2.md)<br><br>
243244

244245
##### (3)20B以上开源大模型排行榜
245246

246247
|排名|大模型|机构|输出价格|总分| |教育|医疗与心理健康|金融|法律与行政公务|推理与数学计算|语言与指令遵从|
247248
|---|-----|---|-------|---|-|---|-----------|----|-----------|------------|-----------|
248-
|1|DeepSeek-V3.2-Exp-Think(new)☛[去体验](https://nonelinear.com/static/modelcompare.html?type=open-source)|深度求索|3.0元|74.7%| | 50.4%|80.9%|82.5%| 82.0%|74.0%|77.2%|
249-
|2|Seed-OSS-36B-Instruct(new)[去体验](https://nonelinear.com/static/modelcompare.html?type=open-source)|豆包|4.0元|73.9%| | 59.8%|82.5%|75.9%| 81.0%|76.3%|69.8%|
249+
|1|DeepSeek-V3.2-Exp-Think(new)☛[去体验](https://nonelinear.com/static/modelcompare.html?type=open-source)|深度求索|3.0元|71.0%| | 50.4%|80.9%|82.5%| 82.0%|74.0%|77.2%|
250+
|2|DeepSeek-V3.1-Think[去体验](https://nonelinear.com/static/modelcompare.html?type=open-source)|深度求索|12.0元|69.4%| | 50.4%|80.5%|82.8%| 82.0%|70.9%|71.7%|
250251

251252
完整排行榜见[20B以上开源大模型](leaderboard/opensource3.md)<br><br>
252253

0 commit comments

Comments
 (0)