AI 快讯日报 | 2026-05-20
Google I/O 发布 Gemini 3.5 及智能体 Gemini Spark,OpenAI 加强图像溯源;行业多款重要模型与平台更新。
AI 行业综合动态
今日 AI 行业的核心焦点是 Google I/O 2026 大会。Google 正式发布新一代模型 Gemini 3.5 以及全新的 AI 智能体 Gemini Spark,同时宣布 Gemini 应用将变得更主动,提供 7×24 小时帮助。此外,OpenAI 宣布为 AI 图像添加 C2PA 元数据和 SynthID 水印,以增强内容溯源。中国方面,百度、阿里、字节跳动等公司也纷纷推出重量级模型更新,AI 竞争进入白热化阶段。
Gemini
在 Google I/O 上,Gemini 3.5 正式亮相,随后 Google 还推出了 AI 智能体 Gemini Spark,后者能自动执行多步骤任务。同时,Gemini 应用迎来重大升级,可主动为用户提供提醒、日程管理等功能,被广泛视为向“超级个人助手”迈进的关键一步。来源:CNBC | Google Blog
ChatGPT
OpenAI 宣布推出 Guaranteed Capacity 服务,允许企业客户锁定专用算力,保障模型推理稳定性。此外,OpenAI 为 DALL·E 3 生成的图像全面集成 C2PA 元数据 和 Google DeepMind 的 SynthID 水印,提升 AI 内容可信度。来源:CNBC | The Next Web
Claude
Anthropic 宣布聘请 OpenAI 联合创始人 Andrej Karpathy 担任关键顾问,此举被视为对前沿 AI 研究的重大押注。同时,Anthropic 与 Cloudflare 联合推出 Claude Managed Agents,支持云端自动化部署,并且 Claude Code 发布了 v2.1.145 版本。来源:CNBC | Cloudflare Blog
Cursor
AI 编程工具 Cursor 发布 Composer 2,大幅增强了多文件协作和上下文感知能力。同时,有报道称 SpaceX 计划在 IPO 后以 600 亿美元收购 Cursor,但尚未得到官方确认。来源:Cursor Blog | The Next Web
Devin
Cognition 发布 Devin 2.1,新增 Auto-Triage 功能,可自动分析并分类软件缺陷,进一步提升开发效率。同时,Cursor 的 Composer 2.5 也同步更新,形成编程工具间的良性竞争。来源:Cognition Labs | Code Newsletter
DeepSeek
DeepSeek 在 V4.1 更新前率先推出 图像识别功能,并大幅降价以抢占市场份额。据 Yahoo Finance 分析,DeepSeek 的扩张正越来越依赖政府资金,反映出中国 AI 产业国家队力量的崛起。来源:CnTechPost | Reuters
豆包
字节跳动旗下的 豆包 发布 全模态理解模型,进一步巩固其作为 AI 超级入口的地位。当前豆包已整合搜索、创作、对话等功能,日活用户持续攀升。来源:新浪新闻 | AI Betas
通义千问
阿里发布新一代旗舰模型 Qwen3.7-Max,在多项基准测试中表现领先。此前推出的 Qwen3.5 已聚焦 AI Agent 方向,此次升级进一步强化了推理与多模态能力。来源:网易 | CNBC
文心一言
百度推出 文心大模型 5.1,在多榜单登顶,预训练成本降至业界 6%,搜索能力在国内领先。该模型强调“写得好更懂你”,并已在百度搜索、智能云等场景落地。来源:百度ERNIE Blog | 天脉财经
可灵
快手旗下 可灵 AI 传出拆分计划:拟以 200 亿美元估值融资 20 亿美元,腾讯正在洽谈参与。若成真,可灵将成为中国视频生成领域的独角兽。来源:腾讯新闻
Kimi
Kimi(月之暗面)推出开源浏览器操作工具 WebBridge,同时 Cerebras 为企业提供 Kimi K2.6 推理服务。据 Forbes 报道,Kimi 正在以 200 亿美元估值融资。来源:Open Source For You | Forbes
Perplexity
Perplexity 近期对部分 Pro 账户实施用量限制,引发用户不满。公司解释称系促销码滥用所致,并调整了高级模型调用策略。来源:PCMag
Midjourney
Midjourney 发布 V8 Alpha 版本,带来更精细的图像生成控制与风格一致性。同时官方更新日志显示多项修复与性能优化。来源:Midjourney Updates | V8 Alpha 页面
Notion AI
Notion 推出 开发者平台,支持自定义 Agent 构建和第三方集成。管理员现在可对自定义 AI Agent 进行更细粒度的权限控制,进一步拓展 Notion 在企业协作中的应用。来源:Notion Blog | Notion Releases
GitHub Copilot
GitHub Copilot 现已支持 Gemini 3.5 Flash 模型,同时推出 Copilot Cloud Agent,提供低成本、高效率的简单任务自动完成方案。来源:GitHub Changelog | GitHub Changelog
Bolt.new
Bolt.new 集成 Claude Sonnet 4.6,显著提升代码生成质量。同时平台推出 Bolt for Teams 企业版,强化团队协作与设计系统支持。来源:Bolt Blog | Bolt Blog
Flux
Flux AI 发布 CRAISEE Teams Enterprise,主打企业级可扩展性。此外 Flux 持续更新其图像生成模型,在速度和细节上有所提升。来源:OpenPR | Flux AI News
ElevenLabs
ElevenLabs 与音乐平台 Splice 合作,共同开发 AI 音乐创作产品。同时 ElevenLabs 文档显示其语音合成 API 在 4 月底进行了更新,支持更多语言和情绪表达。来源:Billboard | ElevenLabs Changelog
Pika
Pika 完成 8000 万美元 B 轮融资,估值达 4.7 亿美元。其 AI 视频生成工具在速度与易用性上超越 OpenAI Sora,吸引大量创作者。来源:AI for Automation
Sora
OpenAI 已决定 停用 Sora 视频平台,转向更聚焦核心业务。此举引发行业对其战略调整的讨论,Sora 的用户将迁移至其他 OpenAI 产品。来源:NYT | CNN
DALL·E 3
伴随水印功能的上线,DALL·E 3 面临被 OpenAI 逐步淘汰的传闻。但当前图像生成领域仍需依赖其高质量的视觉输出,社区对其未来走向高度关注。来源:OnyxRanked
Grok
Grok 出现短暂宕机,xAI 随后发布模型弃用通知(May 15, 2026)。另一方面,Elon Musk 演示了 Grok Agent 模式,称其为“重大能力解锁”,展示了 4 分钟以上的视频自主操作。来源:Economic Times | Gate News
Ideogram
Ideogram 3.0 发布,主打逼真度、设计感和风格一致性,被誉为 ChatGPT 与 Gemini 图像生成的有力替代品。来源:Digital Trends | Ideogram 官网
HeyGen
HeyGen 的 Avatar Agent 已上线 Agent.ai 平台,用户可部署数字人助手。同时 HeyGen 发布四月产品更新,包括多语言支持与更自然的唇形同步。来源:HeyGen Blog | YouTube
Gamma
Gamma 推出 Gamma Imagine,尝试将 AI 原生设计融入演示文稿。此前 Gamma 已融资 6800 万美元,成为 PPT 赛道的挑战者。来源:Yahoo Finance | NYT
Descript
Descript 发布 API(Open Beta),并带来一系列编辑与工作流更新,让开发者能自动化音频/视频编辑。来源:Newsfile | Descript Changelog
海螺 AI
海螺 AI(Hailuo)持续推广其视频生成能力,定位“每个想法都是一部大片”。其视频生成工具已支持从文本和图片生成高质量短片。来源:海螺官网 | YouTube
讯飞听见
讯飞听见 升级语音转写引擎,支持中英粤自由说,并新增 AI 纪要功能,可自动抓取笔记中的图片重点。科大讯飞同时升级“听见 AI 的声音”公益计划,关爱听障群体。来源:讯飞听见 | ITBear
秘塔 AI
秘塔 AI 在 AI 产品榜上表现稳定,其搜索产品受到关注。此外相关报道提及 DeepSeek 的最新回应,秘塔作为中文搜索新锐持续迭代。来源:AI产品榜 | IT之家
Consensus
Consensus 利用 GPT-5 和 OpenAI Responses API 将数周研究缩短至数分钟,并为非营利组织提供定制化 AI 研究搜索引擎。来源:OpenAI | One Hundred Nights