AI Digest 日报 · 2026/05/17

世界模型能拍一分钟,机器人训练的素材账要重算。

SANA-WM、Notion Developer Platform、工具调用可靠性论文、杭州具身智能中试基地和马耳他全民 ChatGPT Plus,把今天的重点拉到同一件事:AI 要进入更长流程,成本会从生成转向验证、数据和现场条件。

杭州启用国家人工智能应用中试基地(具身智能),用 30 多个应用导向训练场景承接机器人从展示到应用的中间环节。对智能家居和空间智能团队来说,场景、数据、验收和生态协作会比单点模型能力更快变成竞争变量。

今日关键词
SANA-WM World Model Notion Workers Tool Reliability Embodied AI
01

SANA-WM 发布 26 亿参数开源世界模型

SANA-WM 是 NVIDIA 相关研究团队发布的开源世界模型,论文题为《Efficient Minute-Scale World Modeling with Hybrid Linear Diffusion Transformer》。它面向的任务超出普通短视频生成:从输入图像、文本和相机轨迹出发,生成最长 60 秒、720p 的视频,并保持相机运动可控。

论文把模型规模控制在 26 亿参数,并强调效率:训练使用约 21.3 万条带有度量级 6-DoF 相机姿态标注的公开视频,在 64 张 H100 上训练 15 天;推理时可在单张 GPU 上生成 60 秒片段,蒸馏版本配合 NVFP4 量化可在 RTX 5090 上运行。系统设计包括混合线性注意力、双分支相机控制、两阶段生成管线和姿态标注流程。

这条新闻值得放在今天首位,是因为“世界模型”开始把长视频、视角控制和硬件效率放到同一张账本里。它仍是研究系统,距离真实物理预测、交互式仿真和可直接训练机器人的环境还有边界;但如果一分钟级场景生成变得便宜,机器人、空间智能、门店动线和家庭场景测试的素材成本都会被重新计算。

原文:arXiv · SANA-WM: Efficient Minute-Scale World Modeling with Hybrid Linear Diffusion Transformer
02

Notion 推出 Developer Platform 和 ntn CLI

Notion 发布 Developer Platform,把数据库同步、Agent 工具、Webhook 触发和外部 Agent 接入放进同一个开发体系。核心组件是 Workers:开发者或 coding agent 写 TypeScript 逻辑,通过 CLI 部署到 Notion 托管的安全沙箱中,用来同步 Salesforce、Zendesk、Postgres 等外部数据,或为 Custom Agent 提供确定性的工具调用。

Notion 同时推出面向开发者和 coding agent 的命令行工具 ntn。它可以登录工作区、读取和操作 Notion、管理 Workers、部署自动化逻辑。官方说明还把 Claude Code、Cursor、Codex、Decagon 等外部 Agent 放进 Notion 协作界面,强调代理的工作记录、审批和权限能在同一个工作区中被看见。

新闻细节
01 · 知识库开始承接执行逻辑 Notion 不再只保存团队资料,还试图承载数据同步、自动触发和 Agent 工具。业务上下文和执行动作被放进同一个协作面板。
02 · 确定性工具补上 MCP 的空隙 当通用工具连接不够稳定时,Workers 让团队用代码固化验证、查数、创建工单等步骤,减少纯模型调用带来的波动。
行动提示

知识库和客服、渠道、售后系统之间的同步逻辑,可以优先挑一个小流程试做:让 Agent 读到最新状态,再把每次修改留痕。

原文:Notion · Introducing Notion’s Developer Platform
03

研究指出工具调用 Agent 存在“知道但不做”缺口

一篇新论文提出 Model-Adaptive Tool Necessity 方法,用来判断某个模型在具体问题上是否真的需要调用工具。作者在算术和事实问答任务中比较“应当调用工具”的内部信号与实际工具调用行为,发现四个模型存在 26.5%-54.0% 和 30.8%-41.8% 的不匹配。

论文把工具使用拆成两个阶段:模型内部是否认为工具必要,以及它是否把这种判断转成实际调用。探测结果显示,很多失败集中在认知到行动的过渡阶段;模型内部状态中能线性解码出工具必要性,但在后期层和最后令牌附近,信号方向与最终动作几乎正交。

新闻细节
01 · 失败点不一定在提示词 如果模型已经“知道”该查工具,却没有发起调用,单纯改提示或补样例可能无法解决根因。
02 · Agent 验收要看动作链 对设备控制、售后流程和内部运维 Agent,评估不能只看最终答案,还要记录每一步是否该调用工具、是否真的调用、调用后是否复核。
行动提示

给内部 Agent 增加“应调用工具但未调用”的专项用例,比只统计任务成功率更容易发现上线前的可靠性短板。

原文:arXiv · Model-Adaptive Tool Necessity Reveals the Knowing-Doing Gap in LLM Tool Use
04

杭州启用国家人工智能应用中试基地(具身智能)

新华社报道,国家人工智能应用中试基地(具身智能)5 月 16 日在浙江杭州挂牌启用。基地定位是机器人“职业技能训练场”,展厅中覆盖餐饮服务、无人超市、赛会演艺、电力巡检、果实采摘、井下作业等 30 多个应用导向场景,有 130 多个机器人“员工”参与展示和训练。

基地建设方表示,平台会围绕算力保障、数据开放、模型服务和场景验证,连接机器人企业与产业链上下游。它展示的不只是产品样机,也包括数据采集、技能训练和场景验证过程,目标是把具身智能从实验室推进到可复制的商业应用。

新闻细节
01 · 机器人需要中试环节 具身智能从 Demo 到交付,中间要补场景、数据、可靠性和安全验收。中试基地正是在承接这类工程化缺口。
02 · 空间智能可借鉴场景方法 智能家居、酒店和办公空间中的 AI 能力,也需要把设备、传感器、用户动作和异常情况放进可重复测试的样板间。
行动提示

面向家庭和商用空间的 AI 功能,可以把“样板间测试集”前置:定义设备组合、用户任务、异常条件和人工接管规则。

原文:新华网 · 基地启用 机器人有了国家级职业技能训练场
05

OpenAI 与马耳他合作向公民提供 ChatGPT Plus

OpenAI 宣布与马耳他政府合作,把 ChatGPT Plus 提供给所有马耳他公民。官方说明称,公民完成由马耳他大学开发的 AI literacy 课程后,可免费获得一年的 ChatGPT Plus 访问权限。课程会覆盖 AI 能做什么、不能做什么,以及如何在家庭和工作中负责任地使用。

这条新闻的行业意义在于,大模型订阅第一次以全国公民服务的方式被打包进教育和数字能力建设。它把账号发放、基础课程和责任使用放在同一套机制里,测试全民级 AI 普及是否能从“尝鲜”走向更稳定的日常工作能力。

新闻细节
01 · 普及路径从账号转向课程 OpenAI 和马耳他政府把 Plus 权益与大学课程绑定,说明通用 AI 工具的推广正在加入责任使用和技能训练环节。
02 · 国家级采用会反推企业培训 当公民服务开始要求 AI literacy,企业内部导入 AI 工具时也需要明确培训、权限、数据边界和可审计使用规范。
原文:OpenAI · OpenAI and Malta partner to bring ChatGPT Plus to all citizens