让云端的 OpenClaw 拥有一个“有血有肉”的真实桌面浏览器,就像我们在本地自己电脑上浏览网页一样自由
WebTop: LinuxServer.io 维护的 Docker 镜像,提供完整的 Linux 桌面环境,也内置浏览器。底层仍是 Xvfb ,但做了完善封装,内存占用多一点,却换来稳定性和更简单的配置。无需客户端,浏览器即可访问远程桌面。
┌──────────────┐
│ Local PC │
└──────┬───────┘
│
┌──────▼───────┐
│ Tailscale │ (私有网络)
└──────┬───────┘
│ (3000/3001)
▼
┌─────────────────────────────────────────────┐
│ Oracle Cloud VPS │
│ │
│ ┌──────────────┐ │
│ │ OpenClaw │ │
│ └──────┬───────┘ │
│ │ CDP (127.0.0.1:9222) │
│ ▼ │
│ ┌────────────────────────┐ │
│ │ WebTop Container │◄─────────────────┘
│ │ (XFCE Desktop) │ │
│ │ │ │
│ │ ├─ socat :9222 │ │
│ │ │ └─> 127.0.0.1:9223│ │
│ │ └─ Chromium :9223 │ │
│ │ │ │
│ │ Watchdog Supervisor │ │
│ └────────────────────────┘ │
└─────────────────────────────────────────────┘


这份教程是我在 Oracle Cloud 4C24G 机器上连续调试、反复和 Claude / GPT / Grok / Gemini / Kimi 拉扯之后沉淀下来的生产级实践:
细节太多,访问OpenClaw 云端桌面浏览器部署教程查看详情
1
foxio2 3 月 22 日 via Android
👍大拇指朝上。我去试一试雪球。
|
2
zzfly256 3 月 22 日
赞。我最早在自己的开发机上安装 OpenClaw 的时候,也是先套了层 Docker + Xfce ,再安装的主体
|
4
gotoschool 3 月 22 日
妈妈呀,正好需要 你来了
|
5
gotoschool 3 月 22 日
有没有办法在 win 上部署一套,这样在 win 能看到它干活就放心了
|
6
niubilewodev 3 月 22 日
这其实也是 Mac Mini 跑 openclaw 的一个优点。
天生就带有头浏览器。 |
7
binux 3 月 22 日 via iPhone
这和你在本地 xvfb 有何区别?
|
8
yeekal OP @niubilewodev 确实,有本地 mac mini 就不用折腾这些了
|
9
yeekal OP @gotoschool 本地的 win 么,本地直连 chrome ,不需要这一套,chrome 开发者模式打开 cdp 端口即可
|
10
andyL 3 月 22 日
好东西呀
|
11
andyL 3 月 22 日
想象力够大就能做成这个了 https://www.browserbase.com/ 普通人就做给自己玩玩了
|
12
milkv 3 月 22 日
vps 本身就有公网 ip ,为什么还要使用 Tailscale 私有网络搞复杂了
|
15
k4x7UW92WE8 3 月 22 日
现在搞浏览器自动化 模拟真实用户行为都是直接用大模型的吗 不能用 selenium 或者 playwright 这样的方案再封装成 agent 吗
|
16
yeekal OP @k4x7UW92WE8 这是不同层级的问题吧。selenium 或者 playwright 对应的是控制浏览器的渠道,跟文中的 agent browser / browser use / Chrome DevTools MCP 属于同一层级。在这一层级之上你用不用模型都能做浏览器自动化,可以用 python 写脚本,也可以让大模型帮你直接操作
|
17
k4x7UW92WE8 3 月 22 日
@yeekal 我听说有的龙虾读帖子评论 哪怕用上了顶级 sota 模型 也会偶尔漏个一两条 但是如果规定好 网页内容的 dom 结构 使用 selenium 和 playwright 就不会有这些问题 一定会严格按照选择器规则 把所有的数据都获取到 大模型漏数据不知道是不是本身的注意力机制导致的 听说他们搞神经网络的就会给不同上下文的不同语料 token 赋予不同的权重 权重低的就会被忽略掉 那么这样看来很多场景下使用大模型直接操作浏览器不是一个很成熟的技术方案 那么我就很想知道 目前用龙虾搞浏览器自动化都是什么场景 还是纯属炫技
|
18
goodryb 3 月 22 日
阿里云的无影 jvs 直接就是云桌面套 openclaw ,直接用浏览器可以搞
|
19
frank1256 3 月 23 日
好帖
|
20
yeekal OP @k4x7UW92WE8 需要重复操作的当然还是固定好的规则比较保险,也省 token 。大模型控制浏览器主要是更通用一些,比如突然给一个从没见过的网站,如果只操作一次,那直接就让大模型操作一下。那比如获取知乎热点,这就是一个可能需要频繁操作的任务,这种写一个固定脚本会比较划算
|
21
frank1256 3 月 23 日
@yeekal 感谢作者,已成功。很方便。解决 我的 nas 没有 mac mini 的 ui 。可以真人操作,一直在苦恼怎么运行一个带 ui 的 os 。功耗要低,主要就是为了模拟网页,这样搜索方便太多了。
|
23
yeekal OP @frank1256 我没有用过,但是我推测得看接不接显示器。 如果没有接显示器,mac mini 还是得需要 HDMI 虚拟插头类似的东西强制 mac mini 显示图形模式。
|
24
bkmi 3 月 26 日
OpenClaw 内置 Browser 速度太慢了,建议本地装一个 chrome-devtools-mcp 配合 skill 使用,
agent-browser 问题也不少,按元素截图总是跑偏 |
26
cairnechen 3 月 29 日
OP 我问一个小白问题,龙虾访问浏览器进行网页操作,需要通过视觉进行内容分析吗?还是完全依赖网页元素结构?比如你这个示例中选择性别,因为我最近一直在做大模型视觉处理图片相关的东西,即使是顶级的模型比如 opus4.6 ,视觉处理能力(特别是坐标定位能力)都很差,基本要迭代很多次才能定位到目标区域,GPT5.4 好一点,如果依赖视觉来进行网页操作的话,我感觉很不靠谱啊
|
27
yeekal OP @cairnechen agentbrowser 这个库依赖的是网页元素,大部分都是网页元素来操作的
|