最新消息: 找到一个合适的灵魂(SOUL)和相处方式(AGENTS)是开启AI私人助理的第一步。

OpenClaw 已升级到 2026.5.4 更新内容

39 浏览 0 条评论 openclaw 更新

OpenClaw 在 2026 年 5 月 5 日 发布了 v2026.5.4 版本。本次更新的核心亮点在于​深度集成了 Google Meet 实时语音通话能力​,让 AI 能够真正“走进”会议现场;同时在插件架构上进行了大量底层优化(NPM-First 迁移),显著提升了系统的启动速度和稳定性。

核心新增:Google Meet 实时通话 (Voice Call)

这是本版本最大的功能更新,打通了 Twilio 与 Gemini 的语音桥梁:

  • 实时语音代理​:通过 Twilio 拨入 Google Meet 会议,利用 Gemini 的实时语音(Realtime)功能进行对话。
  • 流式音频优化​:实现了节拍音频流 (paced audio streaming) 和​反压感知缓冲 (backpressure-aware buffering)​,解决了语音堆积问题。
  • 抢占式交互​:支持 ​Barge-in​(插话/打断)队列清理,让 AI 在会议中能像真人一样自然插话,而不是机械地等待静默。
  • 无回退机制​:在实时语音模式下,不再回退到 TwiML(传统的语音 XML 配置),确保了语音交互的连贯性和低延迟。

插件体系与架构重构

为了提升性能和依赖管理的健壮性,底层进行了多项关键调整:

  • NPM-First 迁移​:外部插件的安装、更新和修复全面覆盖了向 NPM-First 的迁移,解决了依赖混乱问题,并增加了 Beta 频道插件的回退机制。
  • 启动性能优化​:网关(Gateway)和控制中心(Control UI)移除了热路径上的冗余导入(如模型目录测试助手、QR 配对助手等),显著减少了内存占用和启动时间。
  • 工具规划器​:新增了平台级工具描述符规划器,缓存插件工具描述符,使得在提示词规划阶段可以跳过插件运行时加载,大幅减少响应延迟。

控制中心与 UI 改进 (Control UI)

  • 移动端优化​:iOS PWA 增加了高对比度选中颜色,优化了 Talk 模式诊断。
  • 交互细节​:
    • 聊天界面增加了代理优先的会话筛选器,折叠了连续的重复消息(如心跳信号)。
    • 新建 Cron 任务侧边栏支持折叠,节省空间。
    • 修复了长任务导致的界面卡顿,增加了调试事件日志记录。

模型与提供商支持

  • OpenAI/Codex 媒体​:在运行时和清单元数据中广播 Codex 音频转录能力,路由活动 Codex 聊天模型到 OpenAI 默认转录,而非直接发送聊天模型 ID。
  • OpenRouter 增强​:增加了响应缓存参数(X-OpenRouter-Cache)支持,并扩展了应用归因类别(编码、写作、个人代理等)。
  • DeepSeek V4​:适配了 DeepSeek V4 的 reasoning_effort 参数,将过时的 max 映射为 xhigh,防止 400 错误。

关键修复 (Fixes)

涵盖了从 Windows 兼容性到特定渠道的大量问题:

  • Windows 路径​:修复了 Windows 上 /tmp/openclaw 路径问题,强制使用 %TEMP% 目录;修复了媒体文件 fsync 导致的权限错误。
  • Discord​:偏好 IPv4 启动路径,解决 IPv6-only 网络的卡顿问题;修复了按钮和选择菜单在重启后失效的问题。
  • Telegram​:修复了多 Bot 账户路由,复用活动预览作为长文本的第一块,避免气泡闪烁;修复了媒体附件处理。
  • WhatsApp​:支持显式的 WhatsApp Channel/Newsletter @newsletter 目标发送。
  • 安全性​:在共享/管理员令牌轮换响应中,不再回显旋转后的承载令牌(防止泄露);增强了 Windows 环境变量(如 SystemRoot)的验证,防止路径劫持。
  • Docker​:修复了 Compose 环境变量泄露问题,防止主机路径权限错误。

v2026.5.4 是一个以“实时交互”​​“架构现代化”为核心的版本。Google Meet 的深度集成让 OpenClaw 从“后台助手”变成了“会议参与者”。如果你需要 AI 代理直接参与语音会议,或者希望获得更流畅的插件加载体验,建议更新此版本。