Skip to content

Commit 3b2f62a

Browse files
committed
v5.6
1 parent 12a6295 commit 3b2f62a

File tree

11 files changed

+405
-405
lines changed

11 files changed

+405
-405
lines changed

README.md

Lines changed: 28 additions & 28 deletions
Original file line numberDiff line numberDiff line change
@@ -185,38 +185,38 @@ client.chat.completions.create(
185185

186186
#### 1.1、推理模型排行榜
187187

188-
|排名|大模型|机构|输出价格|总分| |教育|医疗与心理健康|金融|法律与行政公务|推理与数学计算|语言与指令遵从|
189-
|---|-----|---|-------|---|-|---|-----------|----|-----------|------------|-----------|
190-
|1|doubao-seed-1-6-thinking-250715☛[去体验](https://nonelinear.com/static/modelcompare.html?type=proprietary)|豆包|8.0元|74.2%| | 64.4%|87.8%|84.1%| 85.0%|76.4%|73.3%|
191-
|2|DeepSeek-V3.2-Exp-Think(new)☛[去体验](https://nonelinear.com/static/modelcompare.html?type=open-source)|深度求索|3.0元|71.0%| | 50.4%|80.9%|82.5%| 82.0%|74.0%|77.2%|
188+
|排名|大模型|机构|输出价格|总分| |教育|医疗与心理健康|金融|法律与行政公务|推理与数学计算|语言与指令遵从|agent与工具调用|
189+
|---|-----|---|-------|---|-|---|-----------|----|-----------|------------|-----------|-----------|
190+
|1|doubao-seed-1-6-thinking-250715☛[去体验](https://nonelinear.com/static/modelcompare.html?type=proprietary)|豆包|8.0元|74.2%| | 64.4%|87.8%|84.1%| 85.0%|76.4%|73.3%| 54.4%|
191+
|2|DeepSeek-V3.2-Exp-Think(new)☛[去体验](https://nonelinear.com/static/modelcompare.html?type=open-source)|深度求索|3.0元|71.0%| | 50.4%|80.9%|82.5%| 82.0%|74.0%|77.2%| 53.2%|
192192

193193
完整排行榜见[推理模型排行榜](leaderboard/reasonmodel.md)<br>
194194
<br>
195195
#### 1.2、商用大模型排行榜(含开源模型的付费API)
196196
##### (1)输出价格5元及以上商用大模型排行榜
197197

198-
|排名|大模型|机构|输出价格|总分| |教育|医疗与心理健康|金融|法律与行政公务|推理与数学计算|语言与指令遵从|
199-
|---|-----|---|-------|---|-|---|-----------|----|-----------|------------|-----------|
200-
|1|doubao-seed-1-6-thinking-250715☛[去体验](https://nonelinear.com/static/modelcompare.html?type=proprietary)|豆包|8.0元|74.2%| | 64.4%|87.8%|84.1%| 85.0%|76.4%|73.3%|
201-
|2|qwen-plus-think-2025-07-28☛[去体验](https://nonelinear.com/static/modelcompare.html?type=proprietary)|阿里巴巴|8.0元|69.7%| | 58.2%|81.2%|83.0%| 78.7%|73.1%|66.7%|
198+
|排名|大模型|机构|输出价格|总分| |教育|医疗与心理健康|金融|法律与行政公务|推理与数学计算|语言与指令遵从|agent与工具调用|
199+
|---|-----|---|-------|---|-|---|-----------|----|-----------|------------|-----------|-----------|
200+
|1|doubao-seed-1-6-thinking-250715☛[去体验](https://nonelinear.com/static/modelcompare.html?type=proprietary)|豆包|8.0元|74.2%| | 64.4%|87.8%|84.1%| 85.0%|76.4%|73.3%| 54.4%|
201+
|2|qwen-plus-think-2025-07-28☛[去体验](https://nonelinear.com/static/modelcompare.html?type=proprietary)|阿里巴巴|8.0元|69.7%| | 58.2%|81.2%|83.0%| 78.7%|73.1%|66.7%| 52.7%|
202202

203203
完整排行榜见[5元及以上商用大模型](leaderboard/commerce1.md)<br><br>
204204

205205
##### (2)输出价格1~5元商用大模型排行榜
206206

207-
|排名|大模型|机构|输出价格|总分| |教育|医疗与心理健康|金融|法律与行政公务|推理与数学计算|语言与指令遵从|
208-
|---|-----|---|-------|---|-|---|-----------|----|-----------|------------|-----------|
209-
|1|DeepSeek-V3.2-Exp-Think(new)☛[去体验](https://nonelinear.com/static/modelcompare.html?type=open-source)|深度求索|3.0元|71.0%| | 50.4%|80.9%|82.5%| 82.0%|74.0%|77.2%|
210-
|2|hunyuan-turbos-20250716☛[去体验](https://nonelinear.com/static/modelcompare.html?type=proprietary)|腾讯|2.0元|69.9%| | 49.9%|89.5%|83.9%| 82.0%|53.2%|63.4%|
207+
|排名|大模型|机构|输出价格|总分| |教育|医疗与心理健康|金融|法律与行政公务|推理与数学计算|语言与指令遵从|agent与工具调用|
208+
|---|-----|---|-------|---|-|---|-----------|----|-----------|------------|-----------|-----------|
209+
|1|DeepSeek-V3.2-Exp-Think(new)☛[去体验](https://nonelinear.com/static/modelcompare.html?type=open-source)|深度求索|3.0元|71.0%| | 50.4%|80.9%|82.5%| 82.0%|74.0%|77.2%| 53.2%|
210+
|2|hunyuan-turbos-20250716☛[去体验](https://nonelinear.com/static/modelcompare.html?type=proprietary)|腾讯|2.0元|69.9%| | 49.9%|89.5%|83.9%| 82.0%|53.2%|63.4%| 74.0%|
211211

212212
完整排行榜见[1~5元商用大模型](leaderboard/commerce2.md)<br><br>
213213

214214
##### (3)输出价格1元以下商用大模型排行榜
215215

216-
|排名|大模型|机构|输出价格|总分| |教育|医疗与心理健康|金融|法律与行政公务|推理与数学计算|语言与指令遵从|
217-
|---|-----|---|-------|---|-|---|-----------|----|-----------|------------|-----------|
218-
|1|GLM-4.5-Flash☛[去体验](https://nonelinear.com/static/modelcompare.html?type=proprietary)|智谱AI|0.0元|62.5%| | 29.6%|73.3%|70.3%| 72.7%|61.1%|65.5%|
219-
|2|Doubao-1.5-lite-32k-250115☛[去体验](https://nonelinear.com/static/modelcompare.html?type=proprietary)|豆包|0.6元|58.2%| | 49.6%|80.5%|77.2%| 66.0%|50.3%|64.0%|
216+
|排名|大模型|机构|输出价格|总分| |教育|医疗与心理健康|金融|法律与行政公务|推理与数学计算|语言与指令遵从|agent与工具调用|
217+
|---|-----|---|-------|---|-|---|-----------|----|-----------|------------|-----------|-----------|
218+
|1|GLM-4.5-Flash☛[去体验](https://nonelinear.com/static/modelcompare.html?type=proprietary)|智谱AI|0.0元|62.5%| | 29.6%|73.3%|70.3%| 72.7%|61.1%|65.5%| 64.1%|
219+
|2|Doubao-1.5-lite-32k-250115☛[去体验](https://nonelinear.com/static/modelcompare.html?type=proprietary)|豆包|0.6元|58.2%| | 49.6%|80.5%|77.2%| 66.0%|50.3%|64.0%| 30.0%|
220220

221221
完整排行榜见[1元以下商用大模型](leaderboard/commerce3.md)<br>
222222

@@ -226,28 +226,28 @@ DIY自定义维度筛选榜单:☛ [link](https://nonelinear.com/static/benchm
226226
#### 1.3、开源大模型排行榜
227227
##### (1)5B以下开源大模型排行榜
228228

229-
|排名|大模型|机构|输出价格|总分| |教育|医疗与心理健康|金融|法律与行政公务|推理与数学计算|语言与指令遵从|
230-
|---|-----|---|-------|---|-|---|-----------|----|-----------|------------|-----------|
231-
|1|Qwen3-4B☛[去体验](https://nonelinear.com/static/modelcompare.html?type=open-source)|阿里巴巴|3.0元|52.4%| | 33.1%|64.8%|70.6%| 53.0%|51.2%|56.0%|
232-
|2|Qwen3-1.7B☛[去体验](https://nonelinear.com/static/modelcompare.html?type=open-source)|阿里巴巴|3.0元|43.9%| | 30.5%|51.7%|59.1%| 46.0%|45.3%|49.0%|
229+
|排名|大模型|机构|输出价格|总分| |教育|医疗与心理健康|金融|法律与行政公务|推理与数学计算|语言与指令遵从|agent与工具调用|
230+
|---|-----|---|-------|---|-|---|-----------|----|-----------|------------|-----------|-----------|
231+
|1|Qwen3-4B☛[去体验](https://nonelinear.com/static/modelcompare.html?type=open-source)|阿里巴巴|3.0元|52.4%| | 33.1%|64.8%|70.6%| 53.0%|51.2%|56.0%| 40.8%|
232+
|2|Qwen3-1.7B☛[去体验](https://nonelinear.com/static/modelcompare.html?type=open-source)|阿里巴巴|3.0元|43.9%| | 30.5%|51.7%|59.1%| 46.0%|45.3%|49.0%| 28.3%|
233233

234234
完整排行榜见[5B以下开源大模型](leaderboard/opensource1.md)<br><br>
235235

236236
##### (2)5B~20B开源大模型排行榜
237237

238-
|排名|大模型|机构|输出价格|总分| |教育|医疗与心理健康|金融|法律与行政公务|推理与数学计算|语言与指令遵从|
239-
|---|-----|---|-------|---|-|---|-----------|----|-----------|------------|-----------|
240-
|1|Qwen3-14B☛[去体验](https://nonelinear.com/static/modelcompare.html?type=open-source)|阿里巴巴|2.0元|59.4%| | 43.0%|75.6%|80.2%| 66.2%|54.3%|53.3%|
241-
|2|Qwen3-8B☛[去体验](https://nonelinear.com/static/modelcompare.html?type=open-source)|阿里巴巴|0.0元|56.8%| | 35.0%|67.5%|72.4%| 66.8%|55.8%|57.8%|
238+
|排名|大模型|机构|输出价格|总分| |教育|医疗与心理健康|金融|法律与行政公务|推理与数学计算|语言与指令遵从|agent与工具调用|
239+
|---|-----|---|-------|---|-|---|-----------|----|-----------|------------|-----------|-----------|
240+
|1|Qwen3-14B☛[去体验](https://nonelinear.com/static/modelcompare.html?type=open-source)|阿里巴巴|2.0元|59.4%| | 43.0%|75.6%|80.2%| 66.2%|54.3%|53.3%| 50.0%|
241+
|2|Qwen3-8B☛[去体验](https://nonelinear.com/static/modelcompare.html?type=open-source)|阿里巴巴|0.0元|56.8%| | 35.0%|67.5%|72.4%| 66.8%|55.8%|57.8%| 45.9%|
242242

243243
完整排行榜见[5B~20B开源大模型](leaderboard/opensource2.md)<br><br>
244244

245245
##### (3)20B以上开源大模型排行榜
246246

247-
|排名|大模型|机构|输出价格|总分| |教育|医疗与心理健康|金融|法律与行政公务|推理与数学计算|语言与指令遵从|
248-
|---|-----|---|-------|---|-|---|-----------|----|-----------|------------|-----------|
249-
|1|DeepSeek-V3.2-Exp-Think(new)☛[去体验](https://nonelinear.com/static/modelcompare.html?type=open-source)|深度求索|3.0元|71.0%| | 50.4%|80.9%|82.5%| 82.0%|74.0%|77.2%|
250-
|2|DeepSeek-V3.1-Think☛[去体验](https://nonelinear.com/static/modelcompare.html?type=open-source)|深度求索|12.0元|69.4%| | 50.4%|80.5%|82.8%| 82.0%|70.9%|71.7%|
247+
|排名|大模型|机构|输出价格|总分| |教育|医疗与心理健康|金融|法律与行政公务|推理与数学计算|语言与指令遵从|agent与工具调用|
248+
|---|-----|---|-------|---|-|---|-----------|----|-----------|------------|-----------|-----------|
249+
|1|DeepSeek-V3.2-Exp-Think(new)☛[去体验](https://nonelinear.com/static/modelcompare.html?type=open-source)|深度求索|3.0元|71.0%| | 50.4%|80.9%|82.5%| 82.0%|74.0%|77.2%| 53.2%|
250+
|2|DeepSeek-V3.1-Think☛[去体验](https://nonelinear.com/static/modelcompare.html?type=open-source)|深度求索|12.0元|69.4%| | 50.4%|80.5%|82.8%| 82.0%|70.9%|71.7%| 52.3%|
251251

252252
完整排行榜见[20B以上开源大模型](leaderboard/opensource3.md)<br><br>
253253

0 commit comments

Comments
 (0)