OpenClaw 工具管理与多媒体能力
操控浏览器、文字转语音、发图片发视频
你好,我是鱼皮。OpenClaw 内置了很多工具,但默认并不是全部开启的。这篇教程教你怎么管理工具的开关,以及如何解锁文字转语音、发送图片视频等多媒体能力。
工具管理
OpenClaw 的工具分为多个类别,比如 EXEC(执行命令)、WRITE(写文件)、READ(读文件)、BROWSER(浏览器)、MESSAGE(消息发送)、TTS(文字转语音)等等。默认只开启了一部分,其他的需要你自己按需打开。
在 OpenClaw 控制台的代理模块,可以查看当前 Agent 的工具情况。
可以选择预设工具组合,也可以单独开关某个工具。比如担心 AI 误操作你电脑上的文件,可以关闭文件写入和修改等工具。

除了在 Web 控制台管理工具,你也可以通过配置文件 openclaw.json 的 tools 字段来控制工具的开关。工具权限控制是安全的重要环节,建议只开启你需要的工具,减少 AI 误操作的风险。
举个例子,我给小龙虾一个任务:
你能帮我操作浏览器,访问 shuzi123.vercel.app 网站并进入 AI 知识库页面,然后截图么?
默认是不可以操作浏览器的:

开启 Browser 工具并保存:

这次它成功操作了浏览器,帮我访问了网站、导航到了指定页面并完成了截图。

有了浏览器工具,你还可以让 AI 帮你自动化各种网页操作,比如自动填表单、批量采集信息等。
如果你安装了插件,可能会获取到更多工具。比如安装飞书插件后,可以按需让 AI 使用飞书的功能,比如操作日历、多维表格、文档、任务等等:

TTS 文字转语音
OpenClaw 内置了微软免费的 Edge TTS 文字转语音服务,不需要额外的 API Key 就能用!
除了 Edge TTS,OpenClaw 还支持 OpenAI TTS、ElevenLabs 等其他 TTS 引擎。但 Edge TTS 免费且支持多种语言和声音,对大多数人来说完全够用了。常用的中文声音包括 zh-CN-XiaoxiaoNeural(女声)、zh-CN-YunxiNeural(男声)等,完整的 TTS 配置可以参考官方文档:https://docs.openclaw.ai/tools/tts
首先,在代理的工具管理中开启 TTS(文字转语音工具)和 MESSAGE(消息发送工具)并保存。TTS 负责把文字转成语音文件,MESSAGE 负责把语音文件发送给你。

注意,还需要做一些配置,否则生成的音频文件可能为空!
我们要指定 TTS 使用 Edge 引擎、并设置中文语音。
打开 OpenClaw 的核心配置文件 openclaw.json,追加这段配置:
"messages": {
"tts": {
"auto": "off",
"provider": "edge",
"edge": {
"enabled": true,
"voice": "zh-CN-XiaoxiaoNeural",
"lang": "zh-CN"
}
}
}
也可以直接在终端输入下列命令来配置:
openclaw config set messages.tts.edge.voice "zh-CN-XiaoxiaoNeural"
openclaw config set messages.tts.edge.lang "zh-CN"
openclaw gateway restart
开启工具并完成配置后,试一试:
请用语音跟我打个招呼:"鱼皮系狗"
小龙虾调用 TTS 工具获得了语音文件,但是 AI 就卡在这里了,大概率不会把音频文件发送给你:

因为 TTS 只负责文本转语音,如果要把语音文件以「语音气泡消息」的方式发送给飞书,还必须控制语音文件的输出格式为 .opus 格式。
飞书的底层代码是这样判断的:只有文件扩展名为 .opus 的音频,才会以语音气泡消息的方式发送,否则只会当作文件附件。

可以跟小龙虾说下面这句话,这是我目前跑出来成功率最高、配置最快的方法:
如果要发语音消息,必须执行以下步骤:
1. 先用 TTS 工具生成音频(会得到一个 MEDIA: 路径)
2. 执行 ffmpeg 命令将音频文件转为 .opus 格式(首次需安装)
3. 调用 message 工具发送 .opus 文件,从而让我通过飞书收到语音气泡消息
请先用语音跟我打个招呼:"鱼皮系狗"
如果任务正常执行,把这套流程保存到长期记忆中。

如果命令执行卡住,可能是 ffmpeg 下载太慢了,可以到 官网 手动下载。
发完这条消息后,记忆文件也更新了,下次发送语音就非常方便了:

爽用!

对了,OpenClaw 在聊天中还支持 /tts 斜杠命令来控制语音行为(比如 /tts on、/tts off),但我感觉不是很好用,一般也不用每句话都回复语音,需要的时候直接跟 AI 说 “发语音” 就好了。
多媒体消息发送
除了语音,OpenClaw 还支持通过各个聊天渠道发送图片、音频、视频、文件等多媒体消息。
不过要注意,不同聊天渠道对多媒体的支持情况是不一样的。比如飞书支持发送图片和语音,WhatsApp 支持发送图片、音频和视频,QQ 的多媒体支持又有自己的一套规则。所以你在用的时候可能会遇到有些格式发不出去的情况,这很正常。
如果发送多媒体不成功,不用自己到处翻文档,可以直接让小龙虾自己去研究!它会读取对应渠道的技能文档来学习具体的发送方法。比如你可以跟它说:
帮我研究一下怎么通过飞书发送图片,然后发一张测试图片给我看看。
小龙虾搞明白之后,推荐让它把学到的方法保存为技能或者写入长期记忆。这样以后再发多媒体消息就顺畅多了,不用每次都重新摸索。关于技能系统的用法,可以阅读本教程的《10 Skills 技能系统》。
写在最后
学会了工具管理和多媒体能力,接下来我们来学习给小龙虾装技能扩展包,让它能做更多事情。
推荐资源
1)鱼皮 AI 导航网站:AI 资源大全、最新 AI 资讯、免费 AI 教程
2)编程导航学习圈:学习路线、编程教程、实战项目、求职宝典、交流答疑
3)程序员面试八股文:实习/校招/社招高频考点、企业真题解析
4)程序员写简历神器:专业模板、丰富例句、直通面试
5)1 对 1 模拟面试:实习/校招/社招面试拿 Offer 必备

评论0