Google DeepMind 展示 AI 鼠标指针实验
Google DeepMind 这次展示的是一组围绕“鼠标指针”的 AI 交互实验。它没有把 AI 做成新的聊天窗口,而是从桌面上最基础的操作对象入手:用户移动指针、圈选对象、配合语音或简短文字,Gemini 就能理解屏幕上的目标,并给出对应动作。公开演示里,指针不再只是定位工具,而是承载上下文、意图和操作入口的界面元素。
这组实验覆盖了几种常见动作:通过手势或简写表达“处理这里”,让 AI 识别当前屏幕对象;在复杂界面里直接指向某块内容,请 Gemini 解释或操作;把语音意图和屏幕位置结合起来,减少重新描述上下文的步骤。它强调的是“就地交互”:用户不需要先打开另一个 AI 页面,再把当前界面发生的事情复述一遍。
这类设计还有明显边界。它目前更像研究和原型演示,并不等于一个已经普及到所有操作系统里的成熟产品;AI 是否能稳定理解屏幕对象、是否会误操作、系统如何确认高风险动作,都还需要产品层面的约束。但方向很清楚:AI 能力正在靠近用户正在看的界面,而不是只停留在文本对话框里。
对智能家居和企业工具来说,可以先把它理解为交互入口的提醒:很多 AI 功能未必从“问一句话”开始,而可能从 App 控件、设备面板、安装调试页面、摄像头时间轴或售后工作台里的一个对象开始。
Statewright 用状态机约束 Agent 工作流
Statewright 是一个开源项目,目标是用可视化状态机约束 AI Agent 的工作过程。它把一次任务拆成不同阶段,例如规划、实现、测试、修复,并为每个阶段限定可用工具和下一步转移条件。这样做的目的,是避免 Agent 在还没完成规划时就开始乱改代码,或在测试阶段继续调用不该使用的工具。
项目说明里给出的核心机制,是把 Agent 工作流从一段长提示词改成一张状态图。每个节点代表一个阶段,每条边代表允许的流转,工具权限也跟着状态变化。Statewright 还展示了本地模型在 SWE-bench 子任务上的测试结果,用来说明约束式流程可能提升任务完成率,不过这类数字仍应视为项目演示,不宜当作通用结论。
Claude 通过 MCP 连接器接入专业工作流
Claude 面向专业行业的扩展,重点在于把模型接入真实工作软件,而不是只提供一个通用聊天入口。法律场景里,用户处理的是合同、邮件、Word 文档、条款比对、审阅意见和案件材料;如果 AI 不能访问这些系统,就只能停留在“帮我写一段文字”的层面。
Anthropic 当前公开的 MCP connector 文档说明了这种方向:Claude 可以通过连接器访问外部工具和数据源,让企业把已有系统接入模型工作流。对法律、财务、安全、客服等岗位来说,插件和连接器的价值在于保留原有工作软件,同时让 AI 在这些软件之间读取信息、生成草稿、比对内容或汇总结果。
Anthropic 安全团队用 Claude Code 辅助告警调查
Anthropic 安全相关材料展示了 Claude Code 在内部安全运营里的用法:安全团队把自然语言界面接到告警、日志、上下文信息和调查流程上,让分析师可以用问题驱动查询,而不是在多个系统里手动拼接线索。相关案例把平台称为 CLUE,用于告警初筛、上下文整理和调查辅助。
这类系统的工作方式通常分两层:第一层把告警、日志、用户、资产和历史处置记录整理到同一条调查链路里;第二层让模型帮助生成查询、归纳结果、给出初步判断或下一步建议。真正的安全处置仍需要人工确认,尤其是涉及账号权限、生产环境和客户数据的动作。