实时语音模型:语音助手正在从“能聊天”走向“能办事”
OpenAI 发布面向 API 的新一代语音模型,包括语音到语音的 gpt-realtime、语音识别 gpt-4o-transcribe 与 gpt-4o-mini-transcribe,以及文本转语音 gpt-4o-mini-tts,并强调更自然、可控、低延迟的语音交互。对智能家居来说,真正值得关注的是实时语音能力正与工具调用、对话状态和任务执行结合。
建议选 20 个高频家庭语音任务,逐个补齐“识别、确认、执行、回执、失败恢复、权限”六段流程,再评估是否接入更强实时语音模型。
Claude 进入 Office:AI 开始贯穿文档、表格、邮件和日程
Anthropic 的帮助文档显示,Claude 可连接 Microsoft 365 文件与 Outlook,读取 Word、Excel、PowerPoint、OneDrive、SharePoint、邮件、日历和联系人等上下文,并用于总结、分析、起草和跨材料问答。更值得关注的是,AI 正从单个编辑器插件变成跨办公数据的工作流层。
建议选择一个跨文档流程试点,例如“经销商问题回复”或“售后周报生成”,明确可读取资料范围、输出模板和人工审核人。
浏览器里的 Agent:执行入口正在贴近业务系统本身
浏览器自动化、后台任务、结构化命令行和跨标签页执行,已经成为 AI Agent 落地企业工作流的明确方向。对内部系统来说,关键变化不是多一个入口,而是 Agent 可以更贴近 CRM、售后平台、渠道后台和测试平台等真实业务界面执行任务。
建议梳理三个最适合浏览器 Agent 的内部流程:只选“高重复、低创造、高可验收”的任务,先做读写权限和操作日志设计。
公开漏洞赏金:AI 产品的安全测试正在外部化
Anthropic 在 HackerOne 上公开运行漏洞赏金计划,覆盖 Anthropic 开发的软件、系统和相关基础设施,鼓励研究人员报告可验证安全问题。对 AI 公司来说,这类机制不仅是传统安全工程,也是在为模型、产品、数据访问和工具调用建立外部压力测试通道。
建议为 AI 助手和设备控制链路建立一份安全用例清单,至少覆盖提示注入、越权控制、家庭成员权限、日志脱敏和第三方插件访问。
重构能力榜单升温:Coding Agent 的价值开始转向老系统治理
代码智能体的评估正在从“能否写出新功能”转向“能否治理老系统”。重构、测试、评审和回滚正在成为 Coding Agent 的关键任务,比单纯生成代码更贴近企业代码库现实,也更适合用来判断工具是否能进入正式工程流程。
建议挑一个低风险老模块做 Agent 重构试点:先补 e2e 或集成测试,再限定改动范围、生成迁移说明和回滚方案。