|
1 | 1 | ## 目录 |
| 2 | +- [8月11~8月17](#8月118月17) |
| 3 | +- [8月4~8月10](#8月48月10) |
2 | 4 | - [7月28~8月3](#7月288月3) |
3 | 5 | - [7月21~7月27](#7月217月27) |
4 | 6 | - [7月14~7月20](#7月147月20) |
|
10 | 12 | - [6月2~6月8](#6月26月8) |
11 | 13 | <br><br> |
12 | 14 |
|
| 15 | +## 8月11~8月17 |
| 16 | +### 8月15日 |
| 17 | +- 【开源】 腾讯发布Hunyuan-GameCraft 1.0,用于游戏环境高动态交互视频生成的新颖框架。将键盘鼠标输入统一到共享摄像机表示空间,采用混合历史条件训练策略,在超过100个AAA游戏的百万级游戏录制数据集上进行训练。详情请参见https://modelscope.cn/models/Tencent-Hunyuan/Hunyuan-GameCraft-1.0/summary |
| 18 | + |
| 19 | +### 8月14日 |
| 20 | +- 【闭源】 谷歌正式发布Imagen 4系列模型(Ultra、标准版、快速版),支持2K分辨率生成。详情请参见https://ai.google.dev/gemini-api/docs/imagen?hl=zh-cn |
| 21 | + |
| 22 | +### 8月13日 |
| 23 | +- 【闭源】 阿里发布qwen-vl-max-2025-08-13视觉理解模型,提升多语言处理和文本渲染能力。详情请参见 https://help.aliyun.com/zh/model-studio/vision/ |
| 24 | +- 【开源】 Skywork AI发布Matrix-Game 2.0,首个开源实时长序列交互世界模型,支持25 FPS视频生成。详情请参见https://modelscope.cn/models/Skywork/Matrix-Game-2.0/summary |
| 25 | + |
| 26 | +### 8月12日 |
| 27 | +- 【闭源】 Anthropic推出Claude Sonnet 4的100万令牌上下文窗口,增加5倍容量,支持处理超过75,000行代码。详情请参见https://docs.anthropic.com/en/docs/build-with-claude/context-windows#1m-token-context-window |
| 28 | +- 【开源】百川智能发布Baichuan-M2-32B医疗增强推理模型,基于Qwen2.5-32B构建,采用大型验证系统和多阶段强化学习策略,在HealthBench上超越所有开源模型并达到接近GPT-5的医疗能力。详情请见https://modelscope.cn/models/baichuan-inc/Baichuan-M2-32B/summary |
| 29 | + |
| 30 | +### 8月11日 |
| 31 | +- 【闭源】 阿里发布wan2.2-i2v-flash万相2.2极速版模型,相较2.1模型在画面细节表现和运动稳定性方面均有显著提升,生成速度提升达50%。详情请参见 https://help.aliyun.com/zh/model-studio/image-to-video-api-reference/ |
| 32 | +- 【开源】 智谱AI发布GLM-4.5V视觉语言模型,基于GLM-4.5-Air(106B参数,12B激活),在42个公开视觉多模态榜单中达到同级开源模型SOTA性能,支持图像推理、视频理解、GUI任务及思考模式开关。详情请参见https://modelscope.cn/models/ZhipuAI/GLM-4.5V/summary |
| 33 | + |
| 34 | +<br><br> |
| 35 | + |
| 36 | + |
| 37 | +## 8月4~8月10 |
| 38 | +### 8月8日 |
| 39 | +- 【闭源】搜索结果内容块现在已在 Anthropic API 和 Google Cloud 的 Vertex AI 上全面推出。此功能能够为具有适当来源归属的 RAG 应用实现自然引用。不再需要 2025 年 6 月 9 日的 beta 首头部 search-results-2025-06-09。更多内容请查看搜索结果文档https://docs.anthropic.com/en/docs/build-with-claude/search-results。 |
| 40 | + |
| 41 | +### 8月7日 |
| 42 | +- 【闭源】谷歌gemini图像转视频生成中的允许成人内容设置现在已在受限制地区提供。详情请参见 Veo 页面https://ai.google.dev/gemini-api/docs/video?example=dialogue#veo-model-parameters。 |
| 43 | +- 【闭源】OpenAI发布新一代旗舰模型GPT-5(也包含mini/nano两款轻量模型),GPT-5也是所有已登录用户的新型默认模型。它简化了 ChatGPT,将其整合为一个自动切换的系统,将我们之前各模型的优势集于一身,成为一个智能且高效的新模型。所有 ChatGPT 计划的用户均可使用 GPT-5 。付费计划(Plus、Pro、Team)的用户可以使用模型选择器,能够手动选择 GPT-5 或 GPT-5 Thinking。Pro 和 Team 计划的用户可使用 GPT-5 Thinking Pro,虽然思考耗时稍长,但能为复杂任务提供所需的高精准度。了解更多关于 ChatGPT 中 GPT-5 的信息https://help.openai.com/en/articles/11909943。 |
| 44 | + |
| 45 | +### 8月6日 |
| 46 | +- 【闭源】MiniMax语音模型Speech 2.5发布,新一代语音生成模型,极致相似度,支持更多语种 |
| 47 | + |
| 48 | +### 8月5日 |
| 49 | +- 【开源】OpenAI 正式开源gpt-oss-120b / 20b 系列大模型,专为强大的推理、代理任务和多用途开发场景设计,单卡 H100 或 16 GB 内存可实现本地部署,支持可调推理深度、完整思维链、函数调用、网页浏览及 LoRA 微调,两款模型情况如下:gpt-oss-120b —— 适用于生产环境、通用目的和高推理需求的场景,可以装入单个 H100 GPU(117B 参数,其中 5.1B 激活参数);gpt-oss-20b —— 适用于低延迟以及本地或特定用途的场景(21B 参数,其中 3.6B 激活参数)。模型链接:[gpt-oss-120b](https://modelscope.cn/models/openai-mirror/gpt-oss-120b),[gpt-oss-20b](https://modelscope.cn/models/openai-mirror/gpt-oss-20b) |
| 50 | +- 【闭源】Anthropic推出了 Claude Opus 4.1,这是对 Claude Opus 4 的一次渐进式更新,具有增强的能力和性能改进。更多内容请查看模型和定价文档https://docs.anthropic.com/en/docs/about-claude/models。 |
| 51 | + |
| 52 | +### 8月4日 |
| 53 | +- 【开源|图像生成】通义千问团队开源了首个图像生成基础模型 Qwen-Image,一个20B的MMDiT模型,展示其在复杂文本渲染和精确图像编辑方面取得的显著进展,模型主要特性包括:卓越的文本渲染能力: Qwen-Image 在复杂文本渲染方面表现出色,支持多行布局、段落级文本生成以及细粒度细节呈现。无论是英语还是中文,均能实现高保真输出;一致性的图像编辑能力(即将推出): 通过增强的多任务训练范式,Qwen-Image 在编辑过程中能出色地保持编辑的一致性;强大的跨基准性能表现: 在多个公开基准测试中的评估表明,Qwen-Image 在各类生成与编辑任务中均获得SOTA,是一个强大的图像生成基础模型。目前魔搭社区AIGC专区已支持Qwen-Image的在线推理、训练。模型链接:https://www.modelscope.cn/models/Qwen/Qwen-Image。 |
| 54 | +<br><br> |
| 55 | + |
| 56 | + |
13 | 57 | ## 7月28~8月3 |
| 58 | +### 8月1日 |
| 59 | +- 【闭源】Kimi K2 高速版模型 kimi-k2-turbo-preview 正式发布。(注:kimi-k2为开源,但kimi-k2-turbo没有对应的开源版本) |
| 60 | + |
14 | 61 | ### 7月31日 |
15 | 62 | - 【开源】阶跃星辰发布step-3模型,该模型拥有强大的视觉感知和复杂推理能力,可准确完成领域的复杂知识理解、数学与现实信息的交叉分析,以及日常生活中的各类视觉分析问题。详情见https://platform.stepfun.com/docs/llm/reasoning。 |
16 | 63 | - 【闭源】谷歌发布Veo 3预览版模型,针对Veo 3预览版模型推出了图像转视频功能,并发布了Veo 3 Fast预览版模型,进一步提升生成效率。Veo 3详细请访问https://ai.google.dev/gemini-api/docs/video?hl=zh-cn&example=dialogue。 |
|
27 | 74 | - 【闭源】阿里发布wan2.2-t2v-plus文生视频模型,新版本在画面细节表现和运动稳定性方面均有显著提升,生成速度提升达50%。详细信息见https://help.aliyun.com/zh/model-studio/text-to-video-api-reference。 |
28 | 75 | - 【闭源】阿里发布wan2.2-t2i-flash、wan2.2-t2i-plus文生图模型,相较2.1模型,新版本在创意性、稳定性、写实质感上全面升级,生成速度提升达50%。详细请见https://help.aliyun.com/zh/model-studio/text-to-image-v2-api-reference。 |
29 | 76 | - 【开源】智谱发布GLM-4.5系列模型,GLM-4.5拥有3550亿总参数和320亿激活参数,GLM-4.5-Air采用更紧凑设计,1060亿总参数和120亿激活参数。两个模型都是混合推理模型,提供复杂推理和工具使用的思维模式,以及即时响应的非思维模式。模型的相关详细介绍请见:https://docs.z.ai/guides/llm/glm-4.5 |
| 77 | +<br><br> |
| 78 | + |
30 | 79 |
|
31 | 80 | ## 7月21~7月27 |
32 | 81 | ### 7月27日 |
|
0 commit comments