Anthropic MSM:Agent 规则要写清楚“为什么”
Anthropic 提出 Model Spec Midtraining,在预训练和对齐微调之间加入一个阶段,让模型学习规范内容及其背后的理由。它的目标是减少模型在新场景里只模仿表面行为、却无法理解规则意图的问题。对 Agent 来说,真正难点在邮件、工单、权限和客户数据等新组合场景里,仍能按原则做出稳妥选择。
建议把智能助手规范拆成“规则、原因、例子、反例、升级路径”五部分,优先覆盖客户隐私、设备控制、工单权限和安全场景。
Gemma 4 MTP:端侧 AI 的响应速度继续被压低
Google 发布 Gemma 4 MTP draft models,用推测性解码缓解一次只生成一个 token 的延迟瓶颈。草稿模型先提出多个候选 token,目标模型再并行验证。这个方向对代码助手、语音交互、移动端和边缘场景都很关键,因为用户直接感受到的是响应能否跟上真实对话和设备控制节奏。
OpenAI Agents SDK:生产级 Agent 需要沙箱、记忆和工具边界
OpenAI 的 Agents SDK 新能力把文件系统工具、沙箱执行、可配置记忆、manifest 和 sandbox-aware orchestration 放到同一套基础设施里。这个变化说明 Agent 已经从调用几个函数的聊天机器人,升级为会读写文件、运行命令、连接存储和长期执行任务的工作单元。越接近生产,越需要清楚的运行边界和审计能力。
内部 Agent 试点不要先追求“大而全”。先为一个流程定义 manifest、允许工具、数据范围、写入动作和回滚方式,再扩大适用范围。
SubQ:超长上下文重新挑战 RAG 和代码库理解
Subquadratic 发布 SubQ,主打 Subquadratic Sparse Attention 和超长上下文推理。官方材料强调模型可以处理百万级到研究级 1200 万 token 的上下文,并在长文档、代码库和持久 Agent 状态上降低注意力计算成本。虽然这些指标还需要更多独立验证,但它代表了一个明确趋势:未来系统会重新权衡切片检索、全量上下文和长程记忆。
Inworld Voice Profiles:语音助手开始理解“怎么说”
Inworld 的 Voice Profiles 在语音转文本之外返回情绪、口音、年龄估计、音高和语音风格等标签,并带有置信度。它把语音从“文字输入”重新变成带状态的交互信号。对家庭、客服、游戏和无障碍场景来说,语调里的焦虑、愤怒、犹豫或疲惫,可能比文字内容更早暴露用户真正需要什么。
这类能力适合辅助判断,不适合替代事实确认。涉及健康、儿童、老人和家庭安全时,要保留人工确认、关闭入口和清晰的数据说明。