OpenClaw 工具管理与多媒体能力

操控浏览器、文字转语音、发图片发视频

你好，我是鱼皮。OpenClaw 内置了很多工具，但默认并不是全部开启的。这篇教程教你怎么管理工具的开关，以及如何解锁文字转语音、发送图片视频等多媒体能力。

工具管理

OpenClaw 的工具分为多个类别，比如 EXEC（执行命令）、WRITE（写文件）、READ（读文件）、BROWSER（浏览器）、MESSAGE（消息发送）、TTS（文字转语音）等等。默认只开启了一部分，其他的需要你自己按需打开。

在 OpenClaw 控制台的代理模块，可以查看当前 Agent 的工具情况。

可以选择预设工具组合，也可以单独开关某个工具。比如担心 AI 误操作你电脑上的文件，可以关闭文件写入和修改等工具。

除了在 Web 控制台管理工具，你也可以通过配置文件 openclaw.json 的 tools 字段来控制工具的开关。工具权限控制是安全的重要环节，建议只开启你需要的工具，减少 AI 误操作的风险。

举个例子，我给小龙虾一个任务：

你能帮我操作浏览器，访问 shuzi123.vercel.app 网站并进入 AI 知识库页面，然后截图么？

默认是不可以操作浏览器的：

开启 Browser 工具并保存：

这次它成功操作了浏览器，帮我访问了网站、导航到了指定页面并完成了截图。

有了浏览器工具，你还可以让 AI 帮你自动化各种网页操作，比如自动填表单、批量采集信息等。

如果你安装了插件，可能会获取到更多工具。比如安装飞书插件后，可以按需让 AI 使用飞书的功能，比如操作日历、多维表格、文档、任务等等：

TTS 文字转语音

OpenClaw 内置了微软免费的 Edge TTS 文字转语音服务，不需要额外的 API Key 就能用！

除了 Edge TTS，OpenClaw 还支持 OpenAI TTS、ElevenLabs 等其他 TTS 引擎。但 Edge TTS 免费且支持多种语言和声音，对大多数人来说完全够用了。常用的中文声音包括 zh-CN-XiaoxiaoNeural（女声）、zh-CN-YunxiNeural（男声）等，完整的 TTS 配置可以参考官方文档：https://docs.openclaw.ai/tools/tts

首先，在代理的工具管理中开启 TTS（文字转语音工具）和 MESSAGE（消息发送工具）并保存。TTS 负责把文字转成语音文件，MESSAGE 负责把语音文件发送给你。

注意，还需要做一些配置，否则生成的音频文件可能为空！

我们要指定 TTS 使用 Edge 引擎、并设置中文语音。

打开 OpenClaw 的核心配置文件 openclaw.json，追加这段配置：

"messages": {
  "tts": {
    "auto": "off",
    "provider": "edge",
    "edge": {
      "enabled": true,
      "voice": "zh-CN-XiaoxiaoNeural",
      "lang": "zh-CN"
    }
  }
}

也可以直接在终端输入下列命令来配置：

openclaw config set messages.tts.edge.voice "zh-CN-XiaoxiaoNeural"
openclaw config set messages.tts.edge.lang "zh-CN"
openclaw gateway restart

开启工具并完成配置后，试一试：

请用语音跟我打个招呼："鱼皮系狗"

小龙虾调用 TTS 工具获得了语音文件，但是 AI 就卡在这里了，大概率不会把音频文件发送给你：

因为 TTS 只负责文本转语音，如果要把语音文件以「语音气泡消息」的方式发送给飞书，还必须控制语音文件的输出格式为 .opus 格式。

飞书的底层代码是这样判断的：只有文件扩展名为 .opus 的音频，才会以语音气泡消息的方式发送，否则只会当作文件附件。

可以跟小龙虾说下面这句话，这是我目前跑出来成功率最高、配置最快的方法：

如果要发语音消息，必须执行以下步骤：
1. 先用 TTS 工具生成音频（会得到一个 MEDIA: 路径）
2. 执行 ffmpeg 命令将音频文件转为 .opus 格式（首次需安装）
3. 调用 message 工具发送 .opus 文件，从而让我通过飞书收到语音气泡消息
请先用语音跟我打个招呼："鱼皮系狗"
如果任务正常执行，把这套流程保存到长期记忆中。

如果命令执行卡住，可能是 ffmpeg 下载太慢了，可以到官网手动下载。

发完这条消息后，记忆文件也更新了，下次发送语音就非常方便了：

爽用！

对了，OpenClaw 在聊天中还支持 /tts 斜杠命令来控制语音行为（比如 /tts on、/tts off），但我感觉不是很好用，一般也不用每句话都回复语音，需要的时候直接跟 AI 说 “发语音” 就好了。

多媒体消息发送

除了语音，OpenClaw 还支持通过各个聊天渠道发送图片、音频、视频、文件等多媒体消息。

不过要注意，不同聊天渠道对多媒体的支持情况是不一样的。比如飞书支持发送图片和语音，WhatsApp 支持发送图片、音频和视频，QQ 的多媒体支持又有自己的一套规则。所以你在用的时候可能会遇到有些格式发不出去的情况，这很正常。

如果发送多媒体不成功，不用自己到处翻文档，可以直接让小龙虾自己去研究！它会读取对应渠道的技能文档来学习具体的发送方法。比如你可以跟它说：

帮我研究一下怎么通过飞书发送图片，然后发一张测试图片给我看看。

小龙虾搞明白之后，推荐让它把学到的方法保存为技能或者写入长期记忆。这样以后再发多媒体消息就顺畅多了，不用每次都重新摸索。关于技能系统的用法，可以阅读本教程的《10 Skills 技能系统》。

写在最后

学会了工具管理和多媒体能力，接下来我们来学习给小龙虾装技能扩展包，让它能做更多事情。

09 OpenClaw 工具管理与多媒体能力

OpenClaw 工具管理与多媒体能力

工具管理

TTS 文字转语音

多媒体消息发送

写在最后

推荐资源

评论0

09 OpenClaw 工具管理与多媒体能力

OpenClaw 工具管理与多媒体能力

工具管理

TTS 文字转语音

多媒体消息发送

写在最后

推荐资源

猜你喜欢

番外 – OpenClaw 创始人的故事

OpenClaw 接入微信保姆级教程

OpenClaw 实战 – 用 GLM-5 打造你的 AI 伴侣

15 OpenClaw 一键卸载脚本

14 OpenClaw 安全指南

13 OpenClaw 记忆管理与成本控制

评论0