Anthropic + SpaceX:算力正在变成 Agent 产品体验的一部分
Anthropic 宣布获得 SpaceX 计算资源支持,并同步提高 Claude Code 和 Opus API 使用额度:Claude Code 的五小时窗口限额翻倍,Pro/Max 的高峰期限制取消,Opus API 限额也上调。源材料提到 Colossus 1 的 300MW+ 与 22 万块 GPU 量级,公开报道可确认这条算力合作和额度调整,估值数字则不宜作为硬结论写入正文。
建议把常用 AI 工具按“个人效率、团队流程、生产依赖”分级,分别设定额度监控、替代模型、排队规则和成本上限。
Claude Managed Agents:验收、复盘和多 Agent 成为标配能力
Anthropic 在 Claude Managed Agents 中推出 dreaming、outcomes、multiagent orchestration 和 webhooks。Dreaming 仍是研究预览,用于跨历史会话复盘模式;Outcomes 让独立 grader Agent 按 rubric 判断任务是否完成;Multiagent 让主 Agent 拆分任务并调度多个专门 Agent。官方材料称 outcomes 在内部测试中最高带来 10 个百分点的任务成功率提升。
挑一个内部高频流程试点 outcomes:例如安装问题诊断、售后工单摘要或 PR 评审,先把 rubric 写出来,再让 Agent 按标准交付。
GPT-5.5:模型选择开始进入“性能 / 成本 / 任务类型”组合题
OpenAI 官方发布 GPT-5.5,强调它在 Codex 和 ChatGPT 中面向复杂软件工程、计算机使用和知识工作任务增强。公开基准显示,GPT-5.5 在 Terminal-Bench 2.0 为 82.7%,GDPval 为 84.9%,并且 OpenAI 称其在 Codex 中通常能用更少 token 完成更好结果。源材料里的 ARC-AGI-2 与“低于 Claude Opus 4.7 30%”未在官方页直接对应,适合作为待观察口径处理。
建议建立一张内部模型任务矩阵:列出代码、文档、客服、数据分析、知识库五类任务,记录准确率、返工率、耗时、token 和人工验收成本。
从 Claude Code 到 Harness:Agent 要像容量资源一样被调度
源材料把 Boris Cherny 的手机 Claude Code 用法、Claude Code 2.1.132 版本更新,以及 Inner Loop / Outer Loop 的 Harness 框架放在同一条线上。可确认的是 Claude Code 2.1.132 增加了会话 ID 和 alternate screen 控制等工程细节;更大的信号是,Agent 正从“开一个聊天窗口”走向并发任务、可恢复状态、工具超时处理和跨会话学习。
为内部 Agent 试点补齐四个字段:任务状态、失败原因、恢复路径、验收人。先把任务跑完的路径看清,再追求更复杂的自治。
3DGenStudio 与 llm_wiki:工作流资产开始被 AI 接管
3DGenStudio 把 ComfyUI、外部 API、图像生成、网格生成、UV、贴图和资产库整合进可视化工作区;llm_wiki 则把 Karpathy 的 LLM Wiki 方法落成开源个人知识库工具。两者虽然一个偏 3D 资产、一个偏知识管理,但共同点是把“零散生成”变成可追踪、可复用、可迭代的工作流资产。
建议选择一个窄场景试点:例如“安装培训素材库”或“售后故障知识 wiki”,先把来源、版本、审核人和复用入口设计清楚。