- Browser Agent 是 OpenClaw 生態系中最受關注的 Skill 之一,讓 AI 代理能像人類一樣操作瀏覽器——點擊按鈕、填寫表單、擷取資料、截圖與導航[1]
- 底層基於 Playwright 自動化框架,支援 Chromium、Firefox 與 WebKit 三大引擎,具備 Headless(無頭)模式,可在無圖形介面的伺服器上運行[4]
- 與傳統爬蟲不同,Browser Agent 結合 LLM 的語意理解能力,能處理動態載入的 JavaScript 頁面、辨識驗證碼提示並適應頁面結構變化[3]
- Computer Use 模式進一步擴展能力邊界——AI 不只操作瀏覽器,還能看懂螢幕畫面並據此決策[5]
一、Browser Agent 是什麼?
想像你有一個助手坐在電腦前,你告訴他「幫我到那個網站上查一下最新的報價」,他就會自己打開瀏覽器、導航到正確的頁面、找到報價資訊並回報給你。Browser Agent 做的就是這件事——只不過這個助手是 AI。[3]
OpenClaw 的 agent-browser Skill 賦予 AI 代理操作瀏覽器的能力,包括:
- 導航:打開 URL、前進/後退、切換分頁
- 互動:點擊元素、填寫表單、選擇下拉選項
- 擷取:讀取頁面文字、截圖、下載檔案
- 等待:等待特定元素出現或消失,處理動態載入
二、安裝與設定
2.1 安裝 agent-browser Skill
npx clawhub install agent-browser
安裝過程會自動下載 Playwright 及其瀏覽器引擎(Chromium)。首次安裝可能需要幾分鐘,取決於你的網路速度。[2]
2.2 驗證安裝
openclaw doctor
確認 agent-browser 出現在已安裝 Skill 清單中。如果 doctor 回報 Playwright 相關錯誤,執行:
npx playwright install chromium
2.3 Web Search 配置(選配)
如果你希望代理能主動搜尋網頁(而不只是操作你指定的 URL),需要額外配置 Web Search API:[8]
openclaw configure --section web
系統會引導你設定搜尋 API 金鑰(支援 Google、Bing 等搜尋引擎)。
三、基本操作指南
3.1 網頁資料擷取
最基本的用途——從網頁上提取特定資訊:
「打開 example.com/pricing,告訴我 Enterprise 方案的月費是多少」
代理會啟動瀏覽器、導航到頁面、掃描定價表並回覆你需要的資訊。
3.2 表單自動填寫
「到這個報名網站,幫我填寫姓名、電子郵件和公司名稱,
但不要按送出——截圖給我確認」
代理會填入資訊後截圖,讓你確認內容無誤後再由你決定是否送出。這是處理敏感表單操作時的最佳實踐。
3.3 多頁面比較
「分別打開這三家雲端服務的定價頁面,
比較他們 8 核心 32GB 方案的月費和包含的流量」
代理會依序訪問每個頁面、擷取相關數據,最後整理成比較表格回覆你。
四、進階場景
4.1 定時監控
搭配 Cron 功能,實現網頁內容的定時監控:
「每天早上 9 點,打開公司官網的所有頁面,
檢查有沒有任何頁面載入錯誤或顯示異常,
如果有問題就通知我」
4.2 截圖存證
「打開這五個競品的首頁,各截一張全頁截圖,
存到 ~/screenshots/ 目錄下並以日期命名」
適用於需要定期存檔網頁外觀的場景,例如法務存證或設計參考。
4.3 Computer Use 模式
搭配支援 Computer Use 的模型(如 Claude Opus 4.6),Browser Agent 可以進入「視覺理解」模式——AI 不只讀取 DOM 結構,還能看懂螢幕截圖並據此操作。[5]
這意味著代理可以處理傳統自動化工具無法應對的場景:
- 無法透過 DOM 選取的 Canvas 元素
- 複雜的拖放操作
- 動態渲染的圖表和儀表板
五、與傳統爬蟲的差異
| 特性 | Browser Agent | 傳統爬蟲(Scrapy 等) |
|---|---|---|
| 動態內容 | 完整支援(真實瀏覽器渲染) | 需額外設定 Selenium |
| 頁面結構變化 | AI 自動適應 | CSS Selector 失效即中斷 |
| 操作複雜度 | 自然語言指令 | 需寫程式碼 |
| 擴展性 | 單一代理逐頁操作 | 可大規模並行 |
| 速度 | 較慢(含 LLM 推理時間) | 極快 |
| 成本 | 每次操作消耗 LLM Token | 幾乎免費 |
結論:Browser Agent 適合低頻率、高複雜度的網頁操作任務。如果你需要每天爬取上萬個頁面,傳統爬蟲仍然是更好的選擇。
六、安全注意事項
Browser Agent 本質上是讓 AI 控制一個真實的瀏覽器。以下風險需要特別關注:[6][7]
- 不要讓代理操作已登入的個人帳號:使用獨立的瀏覽器 Profile,避免代理存取你的密碼、Cookie 與個人資料
- 避免在代理可達的環境中儲存密碼:代理可能在操作過程中無意間讀取到自動填入的密碼
- 監控代理的瀏覽行為:透過
openclaw tail即時觀察代理正在存取哪些網頁 - 設定 URL 白名單:限制代理只能存取你指定的網域,防止被惡意網頁內容引導至危險頁面
- 尊重 robots.txt:確保自動化操作符合目標網站的使用條款
結語
Browser Agent 讓 OpenClaw 從「命令列工具」進化為「能看網頁的 AI 助手」。[1] 無論是資料擷取、表單操作還是網頁監控,你只需要用自然語言描述目標,代理就會操作瀏覽器完成任務。
如果你想了解更多 OpenClaw 的實戰應用,建議參閱《使用案例完全指南》。需要設定定時自動化?請看《Cron 定時任務指南》。