一、核心设计理念

本文围绕OpenClaw(曾用名:Clawdbot、Moltbot))的底层架构展开,其核心基于AI主权(AI Sovereignty)操作系统即界面(OS as Interface)两大设计原则。区别于依赖云端API的传统SaaS模式AI,Clawdbot强调数据主权,主张将用户隐私数据存储于本地服务器,这也是其采用本地优先架构的主要原因。

二、底层架构核心组件

  1. 网关(Gateway):作为统一接入多渠道消息的控制面入口,是整个系统的中枢连接模块。

    • 中枢(Hub):运行在用户核心计算设备上,作为唯一事实来源(Single Source of Truth),维护所有活跃对话的状态机、消息队列以及设备节点注册表,负责集中处理核心数据与决策。

    • 客户端/节点(Spokes):作为与节点交互的主要界面,负责轮询与处理来自WhatsApp、移动端应用、Web控制台等多渠道的消息,通过结构化的上下文将信息聚合至中枢,解决多端同步问题。

    • 通信机制:基于WebSocket(全双工通信协议)建立连接并进行严格授权,完成服务器与客户端的设备配对。每个客户端节点可主动声明自身能力(如调用摄像头、发送通知等),网关会维护动态路由表,将功能映射到对应的WebSocket连接,实现精准的命令分发。

    • 远程访问逻辑:优先在本地处理,通过Tailscale(私有网络工具)实现外网访问,仅在需要公网连接时开启通道,确保数据传输安全。

  2. 智能体运行时(Agent Runtime):其核心是智能体事件循环(Agent Loop)机制,将消息上下文、工具调用、回复动作、状态持久化转化为一个可观测的循环流程。

    • 思考机制:采用思考层级(Thinking Level)路由体系,支持按需调用不同能力的模型(如闲聊使用轻量模型、复杂代码使用大模型),并通过持久化配置实现用户偏好学习。

    • 上下文与记忆优化:基于自适应压缩保障(Adaptive Compaction Safeguard)策略,将上下文动态分块并进行递归摘要,在内存刷新前会向网关发送关键信息备份,实现记忆的高效存储与复用。

    • 语音交互支持:通过智能体优化,实现自然的对话插话与轮替机制,弥补基础模型在交互流畅性上的不足。

三、四大核心设计原则

  1. 网关优先(Gateway First):以网关作为统一控制面,集中规划多渠道、多客户端、多节点的数据与决策,发挥类似中台架构的核心调度作用。

  2. 本地优先(Local First):优先在本地完成运算与操作,仅远程需求通过专用入口访问,保障数据低延迟调用与主权掌控。

  3. 操作系统即服务(OS as a Service):将系统权限(如macOS的文件下载、录屏权限)进行前置管控,通过拾取桥接工具(Pickup Bridge)托管核心功能模块,搭建独立的AI操作系统边界。

  4. 技能生态(Skill Ecosystem):外部工具(如消息、图像、社交账号管理等)以插件形式融入智能体事件循环,通过标准化接口实现能力扩展。

四、关键技术细节

  1. 操作系统去界面化:让智能体直接操控命令行(Command Line),而非构建复杂的图形用户界面或固定API。由于大模型训练时已学习海量Shell脚本,其天然适配命令行操作,无需为人类设计交互界面,只需为AI提供操作入口。

  2. 会话模型与并发控制

    • 基于会话通道(Session Channel)实现互斥锁机制,同一时间仅处理一个核心对话,其他任务进入队列并实时反馈预计等待时长。

    • 支持智能体间通信(Agent-to-Agent),可查询系统内活跃对话的元数据(如模型类型、上下文等),实现知识共享与任务协作(例如乒乓模式:A发送指令→B执行→返回结果)。

    • 会话状态持久化:将用户习惯与系统配置异步写入会话JSON(Session JSON)文件,重启后可恢复个性化设置。

  3. IDE对接能力:通过IDE桥接工具(ACP Bridge)实现VS Code等编辑器与Clawdbot网关的双向同步,支持在编辑器内直接调用智能体能力。

  4. 声明式UI(Declarative UI):服务端不直接生成HTML/JS代码,而是输出描述UI意图的文件(如“一个带日期选择器和提交按钮的表单”),客户端通过Web Components、React UI等组件库渲染为原生界面,实现微应用的即时构建与组件复用。

  5. 工具生态

    • Pickup:基于机器视觉的屏幕控件识别与操控工具,提供类似自动化的操作能力。

    • Three Cookie:用于绕过浏览器运行时直接获取会话令牌,无需输入API Key即可继承用户权限。

    • Wordsmith:基于Rock SQL的Twitter/X客户端工具,支持实时信息获取。

    • 其他技能:如Summarize(内容总结)、Article(网页搜索)、Snap(摄像头连接)等,均通过技能说明文件定义能力,并以插件形式集成。

五、安全架构与防御纵深

  1. 最小权限原则:智能体仅获取完成任务所需的最低权限。例如,当需要录屏权限而未获授权时,会直接返回权限缺失(Missing Permission)提示,拒绝静默失败或尝试绕过权限。

  2. Docker沙箱(Docker Sandbox):不受信任或复杂的代码在隔离的虚拟机内运行,避免直接操作主机系统,降低安全风险。

  3. 设备配对(Device Pairing):默认开启设备配对验证,未知设备尝试接入时,需输入由主机端生成的配对码,防止恶意程序接管智能体。

六、开源意义与行业影响

  1. Clawdbot由创始人Peter Stevenson独立设计开发,整合了行业共识与创新技术。其开源属性使其有望成为未来智能体(Agent)生态的基础设施标准

  2. 已有PC端产品基于Clawdbot框架重构了底层架构,并计划融合Cloudwork与技能能力,进一步拓展智能体的应用边界。

七、核心术语对照表

英文术语

中文释义

核心说明

AI Sovereignty

AI主权 / 主权AI

核心在于用户掌控本地数据与运算主权,区别于云端SaaS模式

Gateway

网关

系统统一接入与控制入口,包含Hub和Spokes模块

Single Source of Truth

唯一事实来源

特指Hub模块,作为所有数据与状态的核心存储与处理中心

WebSocket

WebSocket协议

支持服务器与客户端双向实时通信的协议,保障指令与数据传输

Agent Loop

智能体事件循环

Agent Runtime的核心机制,实现消息、工具、回复的闭环处理

Thinking Level

思考层级

按需调用不同能力模型的路由策略

Adaptive Compaction Safeguard

自适应压缩保障

上下文分块压缩与备份的记忆优化策略

Command Line

命令行

AI优先操控的交互接口,适配大模型的训练数据特性

Session Model

会话模型

管理对话状态,支持智能体间通信与并发控制

Declarative UI

声明式UI

以意图描述生成界面,而非直接编写前端代码

Docker Sandbox

Docker沙箱

用于隔离运行风险代码的安全环境

Missing Permission

权限缺失

权限未获授权时的明确反馈机制

Tailscale

私有网络工具

实现安全的外网远程访问通道

ACP Bridge

IDE桥接工具

连接编辑器与Clawdbot网关的同步工具

Session JSON

会话JSON文件

持久化存储用户习惯与系统设置的配置文件格式

Logo

助力广东及东莞地区开发者,代码托管、在线学习与竞赛、技术交流与分享、资源共享、职业发展,成为松山湖开发者首选的工作与学习平台

更多推荐