概要
Copelf はワークフロー実行のあらゆる段階で AI を活用します。壊れやすい CSS セレクタに依存せず、DOM 解析と視覚認識を組み合わせて Web ページを理解するため、UI 変更に強いワークフローを実現できます。
要素検出
ステップが UI 要素(click、fill、select)を対象にする場合、Copelf は 2 つのシグナルで対象を特定します。
- DOM 構造 — ページの HTML を解析して候補要素を絞り込みます
- 見た目 — スクリーンショットを vision モデルで確認し、正しい要素か判定します
対象要素は自然言語で説明します。
target:
description: 'Email input field in the login form'
vision:
hint: "Text field with placeholder 'Enter your email'"description は意味的な文脈を与え、vision.hint は視覚モデルに補助情報を与えます。これにより、クラス名、ID、レイアウトが変わっても要素を見つけやすくなります。
要素検出には Gemini 3.1 Flash Lite Preview を使用します。高速でコスト効率のよい要素選択向けモデルです。
ステップ検証
各ステップの実行後、Copelf は操作前後のページ状態を比較して結果を検証します。
実行前状態を取得
ステップの直前にスクリーンショットとページメタデータを保存します。
ステップを実行
AI が click、fill、select、navigate のいずれかを実行します。
実行後状態を取得
新しいスクリーンショットとページメタデータを取得します。
AI が比較
検証モデルが実行前後を比較し、結果を返します。
検証結果には次の情報が含まれます。
| Field | 説明 |
|---|---|
| Confidence | ステップ成功に対する AI の確信度(0〜1) |
| Evidence type | 何が変わったか。visual、elements、text、url のいずれか |
| Explanation | 観測された変化を説明する人間向けの文 |
ステップ検証にも Gemini 3.1 Flash Lite Preview を使用します。要素検出と同じ軽量モデルのため、速度とコストを抑えられます。
ブラウザエージェント
agent アクションでは、AI が自律的に複数ステップのブラウザ操作を行います。単発の操作ではなく、自然言語プロンプトを受け取り、自分で何をすべきか判断します。
エージェントの動き
プロンプトを受け取る
エージェントは「このフォームの必須項目をすべて入力する」のような指示を読み、現在のページをスクリーンショットで把握します。
計画して操作する
何をすべきかを推論し、組み込みツールを使ってブラウザを操作します。
| Tool | 説明 |
|---|---|
view | 現在のページのスクリーンショットを取得 |
click | ページ要素をクリック |
input | 入力欄にテキストを入力 |
navigate | URL へ移動 |
繰り返す
各操作のあとに新しいスクリーンショットを取得し、進捗を評価して次の操作を決めます。このループはタスク完了または maxSteps 到達まで続きます。
- id: step-5
action: agent
name: 'Complete registration'
with:
prompt: 'Fill in all required fields and submit the registration form'
maxSteps: 15ブラウザエージェントには Gemini 3.1 Pro Preview
を使用します。複雑な推論と複数ステップ計画が可能な、より高性能なモデルです。maxSteps(1〜100)は最大反復回数を制御します。
適応的な推論
Copelf はステップの複雑さに応じて推論深度を切り替えます。
| Step Type | Model | Reasoning Depth |
|---|---|---|
| click, fill, select | Gemini 3.1 Flash Lite Preview | 軽量。要素検出と検証を高速に処理 |
| agent | Gemini 3.1 Pro Preview | 深い推論。複数ステップ計画、複雑フォーム処理、エラー回復に対応 |
| navigate | None | AI 推論なしで URL を直接開く |
この方式により、単純なステップは速く安く、複雑なタスクには十分な推論能力を割り当てられます。
AI 自動化における安全性
Copelf の AI 自動化は、次の 3 つの安全性の柱で成り立っています。
- 拡張機能経由の実行 — run は接続中の Copelf ブラウザ拡張へ配信され、そのブラウザセッションで実行されます
- Human-in-the-Loop — 重要なステップは AI が進む前に承認を要求できます
- 完全な可視性 — すべての run でステップごとのスクリーンショットと実行履歴を確認できます