OpenClaw 在 2026 年 5 月 5 日 发布了 v2026.5.4 版本。本次更新的核心亮点在于深度集成了 Google Meet 实时语音通话能力,让 AI 能够真正“走进”会议现场;同时在插件架构上进行了大量底层优化(NPM-First 迁移),显著提升了系统的启动速度和稳定性。
核心新增:Google Meet 实时通话 (Voice Call)
这是本版本最大的功能更新,打通了 Twilio 与 Gemini 的语音桥梁:
- 实时语音代理:通过 Twilio 拨入 Google Meet 会议,利用 Gemini 的实时语音(Realtime)功能进行对话。
- 流式音频优化:实现了节拍音频流 (paced audio streaming) 和反压感知缓冲 (backpressure-aware buffering),解决了语音堆积问题。
- 抢占式交互:支持 Barge-in(插话/打断)队列清理,让 AI 在会议中能像真人一样自然插话,而不是机械地等待静默。
- 无回退机制:在实时语音模式下,不再回退到 TwiML(传统的语音 XML 配置),确保了语音交互的连贯性和低延迟。
插件体系与架构重构
为了提升性能和依赖管理的健壮性,底层进行了多项关键调整:
- NPM-First 迁移:外部插件的安装、更新和修复全面覆盖了向 NPM-First 的迁移,解决了依赖混乱问题,并增加了 Beta 频道插件的回退机制。
- 启动性能优化:网关(Gateway)和控制中心(Control UI)移除了热路径上的冗余导入(如模型目录测试助手、QR 配对助手等),显著减少了内存占用和启动时间。
- 工具规划器:新增了平台级工具描述符规划器,缓存插件工具描述符,使得在提示词规划阶段可以跳过插件运行时加载,大幅减少响应延迟。
控制中心与 UI 改进 (Control UI)
- 移动端优化:iOS PWA 增加了高对比度选中颜色,优化了 Talk 模式诊断。
- 交互细节:
- 聊天界面增加了代理优先的会话筛选器,折叠了连续的重复消息(如心跳信号)。
- 新建 Cron 任务侧边栏支持折叠,节省空间。
- 修复了长任务导致的界面卡顿,增加了调试事件日志记录。
模型与提供商支持
- OpenAI/Codex 媒体:在运行时和清单元数据中广播 Codex 音频转录能力,路由活动 Codex 聊天模型到 OpenAI 默认转录,而非直接发送聊天模型 ID。
- OpenRouter 增强:增加了响应缓存参数(
X-OpenRouter-Cache)支持,并扩展了应用归因类别(编码、写作、个人代理等)。 - DeepSeek V4:适配了 DeepSeek V4 的
reasoning_effort参数,将过时的max映射为xhigh,防止 400 错误。
关键修复 (Fixes)
涵盖了从 Windows 兼容性到特定渠道的大量问题:
- Windows 路径:修复了 Windows 上
/tmp/openclaw路径问题,强制使用%TEMP%目录;修复了媒体文件fsync导致的权限错误。 - Discord:偏好 IPv4 启动路径,解决 IPv6-only 网络的卡顿问题;修复了按钮和选择菜单在重启后失效的问题。
- Telegram:修复了多 Bot 账户路由,复用活动预览作为长文本的第一块,避免气泡闪烁;修复了媒体附件处理。
- WhatsApp:支持显式的 WhatsApp Channel/Newsletter
@newsletter目标发送。 - 安全性:在共享/管理员令牌轮换响应中,不再回显旋转后的承载令牌(防止泄露);增强了 Windows 环境变量(如
SystemRoot)的验证,防止路径劫持。 - Docker:修复了 Compose 环境变量泄露问题,防止主机路径权限错误。
v2026.5.4 是一个以“实时交互”和“架构现代化”为核心的版本。Google Meet 的深度集成让 OpenClaw 从“后台助手”变成了“会议参与者”。如果你需要 AI 代理直接参与语音会议,或者希望获得更流畅的插件加载体验,建议更新此版本。