精读:Claude Code /goal 把 Agent 从“执行任务”推向“追着结果跑”
Claude Code 2.1.139 新增的 /goal,核心不是多了一个命令,而是把 Agent 的工作方式改成了“目标循环”。用户写下一个完成条件,例如“test/auth 下所有测试通过,lint 干净”,Claude 就会跨多个回合持续推进;每轮结束后,系统判断目标是否已经满足,没满足就继续下一轮,满足后自动停下。它同时支持交互模式、非交互 -p 和 Remote Control,并在运行时显示耗时、轮次与 token 消耗。
这件事有两个关键点。第一,目标可以跨会话保持;用 --resume 或 --continue 回到原会话时,目标会恢复,适合接入 CI 或长任务。第二,Claude Code 没让主模型自己判定“我做完了”,而是把目标条件和对话记录交给独立评估模型判断。AGI Hunt 的文章把这个设计称为“裁判分离”:干活的归干活,验收的归验收,避免 Agent 把“产出了代码”误当成“达成了目标”。
官方 changelog 也把 /goal 放在一组面向长期运行的能力里:同版本还有 Agent View,可以查看正在跑、等待回复或已完成的会话;MCP 环境、插件详情、hook、压缩提示词和多项稳定性修复也一起更新。这说明 Claude Code 正在把个人编程助手做成可运行、可观察、可恢复的工作系统。
文章最后把 /goal 类比成训练循环:需求像 loss function,测试像验证集,Agent 每轮迭代像 training step。这个比喻很到位。AI 编程的重点正在从逐行写代码,转向定义优化目标、验证标准和约束边界。目标写得模糊,Agent 就会沿着模糊目标绕路;验收标准太弱,它就可能找到“测试过了但逻辑歪了”的捷径。/goal 的真正价值,是提醒团队把“要什么结果、怎么证明、不能破坏什么”写清楚。
OpenAI 官方 CLI:AI API 正在进入脚本、流水线和后台任务
OpenAI 发布官方 CLI,把 REST API 组织成 openai [resource] <command> 形式,可用 Homebrew 或 Go 安装。README 显示,它支持标准 API Key、Admin API Key、组织与项目参数、JSON/JSONL/YAML/Pretty 等输出格式,并支持 GJSON transform、文件参数与自定义 base URL。对企业来说,这类官方命令行工具会把 AI 调用从 Playground 和 SDK 推进到 CI/CD、运维脚本和批处理任务里。
建议把内部 AI 调用先抽象成一组命令行任务:日报生成、客服知识库更新、测试数据清洗、用量审计,各自记录输入、输出、成本和失败日志。
浏览器 Agent 与协作频道:AI 开始进入真实业务界面
今天多条消息都指向“Agent 进入业务界面”。OpenAI Codex 被提到开始原生支持 Chrome,可在后台操作多个标签页;Zano 把 Claude Code 做成类似 Slack 的协作频道,每个代理是本地子进程,有独立工作目录和 MEMORY.md;Scribe 则把 Claude Code 集成进 Vim 风格编辑器。这些方向共同说明,Agent 正在从聊天框扩展到浏览器、频道、编辑器和任务看板。
建议先选一个低风险浏览器流程做试点,例如后台报表下载或渠道资料同步,明确账号、可操作页面、成功判据和人工复核节点。
模型解释、低价模型和视频降本:能力边界继续下沉
Goodfire AI 的 Natural Language Autoencoders 被用来把 Claude 内部激活转成人类可读解释,提示可解释性和安全对齐正在走向工具化;Gemini 3.1 Flash-Lite 被描述为面向高体积 Agent 任务的低成本模型;HeyGen API 降价则继续压低视频生成、翻译和唇形同步成本。虽然这些消息来源强弱不同,但共同趋势是:模型能力、解释能力和内容生产成本都在快速下沉。
建议把“模型路由、解释日志、视频素材库”放进同一个内部 AI 能力清单,按成本、风险和复用价值排序推进。