33- ReLE (** R** eally R** e** liable ** L** ive ** E** valuation for LLM),原名CLiB
44- 目前已囊括301个大模型,覆盖chatgpt、gpt-5、o4-mini、谷歌gemini-2.5、Claude4、智谱GLM-Z1、文心一言、qwen3-max、百川、讯飞星火、商汤senseChat、minimax等商用模型,
55以及kimi-k2、ernie4.5、minimax-M1、DeepSeek-R1-0528、deepseek-v3.2、qwen3-2507、llama4、GLM4.5、gemma3、mistral等开源大模型。
6- - 支持多维度能力评测,包括教育、医疗与心理健康、金融、法律与行政公务、推理与数学计算、语言与指令遵从等6个领域 ,以及细分的~ 300个维度(比如牙科、高中语文…)。
6+ - 支持多维度能力评测,包括教育、医疗与心理健康、金融、法律与行政公务、推理与数学计算、语言与指令遵从、agent与工具调用等7个领域 ,以及细分的~ 300个维度(比如牙科、高中语文…)。
77- 不仅提供排行榜,也提供规模** 超200万的大模型缺陷库** !方便广大社区研究分析、改进大模型。
88- 为您的私有大模型提供免费评测服务,联系我们:[ 加微信] ( #联系我们 )
99
5656# 最近更新
5757- [ 2025/10/13] v5.6版本
5858 - 各评测集删除太简单的样本,并补充新样本,各模型分数均有较大变动
59+ - “agent与工具调用”计入总分,各模型排名有所变动
5960 - 新增大模型:GLM-4.6,☛查看模型完整信息并体验[ link] ( https://nonelinear.com/static/models.html )
6061- [ 2025/9/30] v5.5版本
6162 - 新增大模型:开源DeepSeek-V3.2-Exp、DeepSeek-V3.2-Exp-Think、hunyuan-turbos-20250926,☛查看[ 模型完整信息] ( https://nonelinear.com/static/models.html )
@@ -167,13 +168,13 @@ client.chat.completions.create(
167168
168169
169170## 1、综合能力排行榜
170- “综合能力”计分方式:“综合能力”改为“专业能力”和“通用能力”平均分,其中“专业能力”为“教育”、“医疗与心理健康”、“金融”、“法律与行政公务”4大领域平均分,“通用能力”为“推理与数学计算”、“语言与指令遵从”两大领域平均分 。
171+ “综合能力”计分方式:“综合能力”改为“专业能力”和“通用能力”平均分,其中“专业能力”为“教育”、“医疗与心理健康”、“金融”、“法律与行政公务”4大领域平均分,“通用能力”为“推理与数学计算”、“语言与指令遵从”、“agent与工具调用”3大领域平均分 。
171172![ link] ( pic/总分.png )
172173
173174| 类别| 机构| 大模型| 【总分】准确率| 平均耗时| 平均消耗token| 花费/千次(元)| 排名(准确率)|
174175| ---| ---| -----| -------------------| -------| -----------| -----------| -----------|
175- | 商用| 豆包| doubao-seed-1-6-thinking-250715| 77.6 %| 37s| 2162| 15.6| 1|
176- | 开源| 深度求索| DeepSeek-V3.2-Exp-Think(new)| 74.7 %| 248s| 2106| 6.1| 2|
176+ | 商用| 豆包| doubao-seed-1-6-thinking-250715| 74.2 %| 37s| 2162| 15.6| 1|
177+ | 开源| 深度求索| DeepSeek-V3.2-Exp-Think(new)| 71.0 %| 248s| 2106| 6.1| 2|
177178
178179
179180详细数据见:
@@ -186,8 +187,8 @@ client.chat.completions.create(
186187
187188| 排名| 大模型| 机构| 输出价格| 总分| | 教育| 医疗与心理健康| 金融| 法律与行政公务| 推理与数学计算| 语言与指令遵从|
188189| ---| -----| ---| -------| ---| -| ---| -----------| ----| -----------| ------------| -----------|
189- | 1| doubao-seed-1-6-thinking-250715☛[ 去体验] ( https://nonelinear.com/static/modelcompare.html?type=proprietary ) | 豆包| 8.0元| 77.6 %| | 64.4%| 87.8%| 84.1%| 85.0%| 76.4%| 73.3%|
190- | 2| DeepSeek-V3.2-Exp-Think(new)☛[ 去体验] ( https://nonelinear.com/static/modelcompare.html?type=open-source ) | 深度求索| 3.0元| 74.7 %| | 50.4%| 80.9%| 82.5%| 82.0%| 74.0%| 77.2%|
190+ | 1| doubao-seed-1-6-thinking-250715☛[ 去体验] ( https://nonelinear.com/static/modelcompare.html?type=proprietary ) | 豆包| 8.0元| 74.2 %| | 64.4%| 87.8%| 84.1%| 85.0%| 76.4%| 73.3%|
191+ | 2| DeepSeek-V3.2-Exp-Think(new)☛[ 去体验] ( https://nonelinear.com/static/modelcompare.html?type=open-source ) | 深度求索| 3.0元| 71.0 %| | 50.4%| 80.9%| 82.5%| 82.0%| 74.0%| 77.2%|
191192
192193完整排行榜见[ 推理模型排行榜] ( leaderboard/reasonmodel.md ) <br >
193194<br >
@@ -196,26 +197,26 @@ client.chat.completions.create(
196197
197198| 排名| 大模型| 机构| 输出价格| 总分| | 教育| 医疗与心理健康| 金融| 法律与行政公务| 推理与数学计算| 语言与指令遵从|
198199| ---| -----| ---| -------| ---| -| ---| -----------| ----| -----------| ------------| -----------|
199- | 1| doubao-seed-1-6-thinking-250715☛[ 去体验] ( https://nonelinear.com/static/modelcompare.html?type=proprietary ) | 豆包| 8.0元| 77.6 %| | 64.4%| 87.8%| 84.1%| 85.0%| 76.4%| 73.3%|
200- | 2| qwen3-max-preview(new) ☛[ 去体验] ( https://nonelinear.com/static/modelcompare.html?type=proprietary ) | 阿里巴巴| 24 .0元| 72.9 %| | 54 .2%| 82.8% | 85.1 %| 77.0% | 70 .1%| 71.9 %|
200+ | 1| doubao-seed-1-6-thinking-250715☛[ 去体验] ( https://nonelinear.com/static/modelcompare.html?type=proprietary ) | 豆包| 8.0元| 74.2 %| | 64.4%| 87.8%| 84.1%| 85.0%| 76.4%| 73.3%|
201+ | 2| qwen-plus-think-2025-07-28 ☛[ 去体验] ( https://nonelinear.com/static/modelcompare.html?type=proprietary ) | 阿里巴巴| 8 .0元| 69.7 %| | 58 .2%| 81.2% | 83.0 %| 78.7% | 73 .1%| 66.7 %|
201202
202203完整排行榜见[ 5元及以上商用大模型] ( leaderboard/commerce1.md ) <br ><br >
203204
204205##### (2)输出价格1~ 5元商用大模型排行榜
205206
206207| 排名| 大模型| 机构| 输出价格| 总分| | 教育| 医疗与心理健康| 金融| 法律与行政公务| 推理与数学计算| 语言与指令遵从|
207208| ---| -----| ---| -------| ---| -| ---| -----------| ----| -----------| ------------| -----------|
208- | 1| DeepSeek-V3.2-Exp-Think(new)☛[ 去体验] ( https://nonelinear.com/static/modelcompare.html?type=open-source ) | 深度求索| 3.0元| 74.7 %| | 50.4%| 80.9%| 82.5%| 82.0%| 74.0%| 77.2%|
209- | 2| hunyuan-t1-20250711 ☛[ 去体验] ( https://nonelinear.com/static/modelcompare.html?type=proprietary ) | 腾讯| 4 .0元| 73 .9%| | 58 .9%| 82.9 %| 83.6 %| 76.3% | 72.0% | 72.9 %|
209+ | 1| DeepSeek-V3.2-Exp-Think(new)☛[ 去体验] ( https://nonelinear.com/static/modelcompare.html?type=open-source ) | 深度求索| 3.0元| 71.0 %| | 50.4%| 80.9%| 82.5%| 82.0%| 74.0%| 77.2%|
210+ | 2| hunyuan-turbos-20250716 ☛[ 去体验] ( https://nonelinear.com/static/modelcompare.html?type=proprietary ) | 腾讯| 2 .0元| 69 .9%| | 49 .9%| 89.5 %| 83.9 %| 82.0% | 53.2% | 63.4 %|
210211
211212完整排行榜见[ 1~ 5元商用大模型] ( leaderboard/commerce2.md ) <br ><br >
212213
213214##### (3)输出价格1元以下商用大模型排行榜
214215
215216| 排名| 大模型| 机构| 输出价格| 总分| | 教育| 医疗与心理健康| 金融| 法律与行政公务| 推理与数学计算| 语言与指令遵从|
216217| ---| -----| ---| -------| ---| -| ---| -----------| ----| -----------| ------------| -----------|
217- | 1| Doubao-1 .5-lite-32k-250115 ☛[ 去体验] ( https://nonelinear.com/static/modelcompare.html?type=proprietary ) | 豆包 | 0.6元 | 62.8 %| | 49 .6%| 80.5% | 77.2 %| 66.0% | 50.3% | 64.0 %|
218- | 2| GLM-4 .5-Flash ☛[ 去体验] ( https://nonelinear.com/static/modelcompare.html?type=proprietary ) | 智谱AI | 0.0元 | 62.4 %| | 29 .6%| 73.3% | 70.3 %| 72.7% | 61.1% | 65.5 %|
218+ | 1| GLM-4 .5-Flash ☛[ 去体验] ( https://nonelinear.com/static/modelcompare.html?type=proprietary ) | 智谱AI | 0.0元 | 62.5 %| | 29 .6%| 73.3% | 70.3 %| 72.7% | 61.1% | 65.5 %|
219+ | 2| Doubao-1 .5-lite-32k-250115 ☛[ 去体验] ( https://nonelinear.com/static/modelcompare.html?type=proprietary ) | 豆包 | 0.6元 | 58.2 %| | 49 .6%| 80.5% | 77.2 %| 66.0% | 50.3% | 64.0 %|
219220
220221完整排行榜见[ 1元以下商用大模型] ( leaderboard/commerce3.md ) <br >
221222
@@ -227,26 +228,26 @@ DIY自定义维度筛选榜单:☛ [link](https://nonelinear.com/static/benchm
227228
228229| 排名| 大模型| 机构| 输出价格| 总分| | 教育| 医疗与心理健康| 金融| 法律与行政公务| 推理与数学计算| 语言与指令遵从|
229230| ---| -----| ---| -------| ---| -| ---| -----------| ----| -----------| ------------| -----------|
230- | 1| Qwen3-4B☛[ 去体验] ( https://nonelinear.com/static/modelcompare.html?type=open-source ) | 阿里巴巴| 3.0元| 54.5 %| | 33.1%| 64.8%| 70.6%| 53.0%| 51.2%| 56.0%|
231- | 2| Qwen3-1.7B☛[ 去体验] ( https://nonelinear.com/static/modelcompare.html?type=open-source ) | 阿里巴巴| 3.0元| 47.0 %| | 30.5%| 51.7%| 59.1%| 46.0%| 45.3%| 49.0%|
231+ | 1| Qwen3-4B☛[ 去体验] ( https://nonelinear.com/static/modelcompare.html?type=open-source ) | 阿里巴巴| 3.0元| 52.4 %| | 33.1%| 64.8%| 70.6%| 53.0%| 51.2%| 56.0%|
232+ | 2| Qwen3-1.7B☛[ 去体验] ( https://nonelinear.com/static/modelcompare.html?type=open-source ) | 阿里巴巴| 3.0元| 43.9 %| | 30.5%| 51.7%| 59.1%| 46.0%| 45.3%| 49.0%|
232233
233234完整排行榜见[ 5B以下开源大模型] ( leaderboard/opensource1.md ) <br ><br >
234235
235236##### (2)5B~ 20B开源大模型排行榜
236237
237238| 排名| 大模型| 机构| 输出价格| 总分| | 教育| 医疗与心理健康| 金融| 法律与行政公务| 推理与数学计算| 语言与指令遵从|
238239| ---| -----| ---| -------| ---| -| ---| -----------| ----| -----------| ------------| -----------|
239- | 1| Qwen3-14B☛[ 去体验] ( https://nonelinear.com/static/modelcompare.html?type=open-source ) | 阿里巴巴| 2.0元| 60.0 %| | 43.0%| 75.6%| 80.2%| 66.2%| 54.3%| 53.3%|
240- | 2| Qwen3-8B☛[ 去体验] ( https://nonelinear.com/static/modelcompare.html?type=open-source ) | 阿里巴巴| 0.0元| 58.6 %| | 35.0%| 67.5%| 72.4%| 66.8%| 55.8%| 57.8%|
240+ | 1| Qwen3-14B☛[ 去体验] ( https://nonelinear.com/static/modelcompare.html?type=open-source ) | 阿里巴巴| 2.0元| 59.4 %| | 43.0%| 75.6%| 80.2%| 66.2%| 54.3%| 53.3%|
241+ | 2| Qwen3-8B☛[ 去体验] ( https://nonelinear.com/static/modelcompare.html?type=open-source ) | 阿里巴巴| 0.0元| 56.8 %| | 35.0%| 67.5%| 72.4%| 66.8%| 55.8%| 57.8%|
241242
242243完整排行榜见[ 5B~ 20B开源大模型] ( leaderboard/opensource2.md ) <br ><br >
243244
244245##### (3)20B以上开源大模型排行榜
245246
246247| 排名| 大模型| 机构| 输出价格| 总分| | 教育| 医疗与心理健康| 金融| 法律与行政公务| 推理与数学计算| 语言与指令遵从|
247248| ---| -----| ---| -------| ---| -| ---| -----------| ----| -----------| ------------| -----------|
248- | 1| DeepSeek-V3.2-Exp-Think(new)☛[ 去体验] ( https://nonelinear.com/static/modelcompare.html?type=open-source ) | 深度求索| 3.0元| 74.7 %| | 50.4%| 80.9%| 82.5%| 82.0%| 74.0%| 77.2%|
249- | 2| Seed-OSS-36B-Instruct(new) ☛[ 去体验] ( https://nonelinear.com/static/modelcompare.html?type=open-source ) | 豆包 | 4 .0元| 73.9 %| | 59.8% | 82 .5%| 75.9 %| 81 .0%| 76.3% | 69.8 %|
249+ | 1| DeepSeek-V3.2-Exp-Think(new)☛[ 去体验] ( https://nonelinear.com/static/modelcompare.html?type=open-source ) | 深度求索| 3.0元| 71.0 %| | 50.4%| 80.9%| 82.5%| 82.0%| 74.0%| 77.2%|
250+ | 2| DeepSeek-V3.1-Think ☛[ 去体验] ( https://nonelinear.com/static/modelcompare.html?type=open-source ) | 深度求索 | 12 .0元| 69.4 %| | 50.4% | 80 .5%| 82.8 %| 82 .0%| 70.9% | 71.7 %|
250251
251252完整排行榜见[ 20B以上开源大模型] ( leaderboard/opensource3.md ) <br ><br >
252253
0 commit comments