SANA-WM 发布 26 亿参数开源世界模型
SANA-WM 是 NVIDIA 相关研究团队发布的开源世界模型,论文题为《Efficient Minute-Scale World Modeling with Hybrid Linear Diffusion Transformer》。它面向的任务超出普通短视频生成:从输入图像、文本和相机轨迹出发,生成最长 60 秒、720p 的视频,并保持相机运动可控。
论文把模型规模控制在 26 亿参数,并强调效率:训练使用约 21.3 万条带有度量级 6-DoF 相机姿态标注的公开视频,在 64 张 H100 上训练 15 天;推理时可在单张 GPU 上生成 60 秒片段,蒸馏版本配合 NVFP4 量化可在 RTX 5090 上运行。系统设计包括混合线性注意力、双分支相机控制、两阶段生成管线和姿态标注流程。
这条新闻值得放在今天首位,是因为“世界模型”开始把长视频、视角控制和硬件效率放到同一张账本里。它仍是研究系统,距离真实物理预测、交互式仿真和可直接训练机器人的环境还有边界;但如果一分钟级场景生成变得便宜,机器人、空间智能、门店动线和家庭场景测试的素材成本都会被重新计算。
Notion 推出 Developer Platform 和 ntn CLI
Notion 发布 Developer Platform,把数据库同步、Agent 工具、Webhook 触发和外部 Agent 接入放进同一个开发体系。核心组件是 Workers:开发者或 coding agent 写 TypeScript 逻辑,通过 CLI 部署到 Notion 托管的安全沙箱中,用来同步 Salesforce、Zendesk、Postgres 等外部数据,或为 Custom Agent 提供确定性的工具调用。
Notion 同时推出面向开发者和 coding agent 的命令行工具 ntn。它可以登录工作区、读取和操作 Notion、管理 Workers、部署自动化逻辑。官方说明还把 Claude Code、Cursor、Codex、Decagon 等外部 Agent 放进 Notion 协作界面,强调代理的工作记录、审批和权限能在同一个工作区中被看见。
知识库和客服、渠道、售后系统之间的同步逻辑,可以优先挑一个小流程试做:让 Agent 读到最新状态,再把每次修改留痕。
研究指出工具调用 Agent 存在“知道但不做”缺口
一篇新论文提出 Model-Adaptive Tool Necessity 方法,用来判断某个模型在具体问题上是否真的需要调用工具。作者在算术和事实问答任务中比较“应当调用工具”的内部信号与实际工具调用行为,发现四个模型存在 26.5%-54.0% 和 30.8%-41.8% 的不匹配。
论文把工具使用拆成两个阶段:模型内部是否认为工具必要,以及它是否把这种判断转成实际调用。探测结果显示,很多失败集中在认知到行动的过渡阶段;模型内部状态中能线性解码出工具必要性,但在后期层和最后令牌附近,信号方向与最终动作几乎正交。
给内部 Agent 增加“应调用工具但未调用”的专项用例,比只统计任务成功率更容易发现上线前的可靠性短板。
杭州启用国家人工智能应用中试基地(具身智能)
新华社报道,国家人工智能应用中试基地(具身智能)5 月 16 日在浙江杭州挂牌启用。基地定位是机器人“职业技能训练场”,展厅中覆盖餐饮服务、无人超市、赛会演艺、电力巡检、果实采摘、井下作业等 30 多个应用导向场景,有 130 多个机器人“员工”参与展示和训练。
基地建设方表示,平台会围绕算力保障、数据开放、模型服务和场景验证,连接机器人企业与产业链上下游。它展示的不只是产品样机,也包括数据采集、技能训练和场景验证过程,目标是把具身智能从实验室推进到可复制的商业应用。
面向家庭和商用空间的 AI 功能,可以把“样板间测试集”前置:定义设备组合、用户任务、异常条件和人工接管规则。
OpenAI 与马耳他合作向公民提供 ChatGPT Plus
OpenAI 宣布与马耳他政府合作,把 ChatGPT Plus 提供给所有马耳他公民。官方说明称,公民完成由马耳他大学开发的 AI literacy 课程后,可免费获得一年的 ChatGPT Plus 访问权限。课程会覆盖 AI 能做什么、不能做什么,以及如何在家庭和工作中负责任地使用。
这条新闻的行业意义在于,大模型订阅第一次以全国公民服务的方式被打包进教育和数字能力建设。它把账号发放、基础课程和责任使用放在同一套机制里,测试全民级 AI 普及是否能从“尝鲜”走向更稳定的日常工作能力。