AI 自動化

概要

Copelf はワークフロー実行のあらゆる段階で AI を活用します。壊れやすい CSS セレクタに依存せず、DOM 解析と視覚認識を組み合わせて Web ページを理解するため、UI 変更に強いワークフローを実現できます。

要素検出

ステップが UI 要素（click、fill、select）を対象にする場合、Copelf は 2 つのシグナルで対象を特定します。

DOM 構造 — ページの HTML を解析して候補要素を絞り込みます
見た目 — スクリーンショットを vision モデルで確認し、正しい要素か判定します

対象要素は自然言語で説明します。

target:
  description: 'Email input field in the login form'
  vision:
    hint: "Text field with placeholder 'Enter your email'"

description は意味的な文脈を与え、vision.hint は視覚モデルに補助情報を与えます。これにより、クラス名、ID、レイアウトが変わっても要素を見つけやすくなります。

要素検出には Gemini 3.1 Flash Lite Preview を使用します。高速でコスト効率のよい要素選択向けモデルです。

ステップ検証

各ステップの実行後、Copelf は操作前後のページ状態を比較して結果を検証します。

実行前状態を取得

ステップの直前にスクリーンショットとページメタデータを保存します。

ステップを実行

AI が click、fill、select、navigate のいずれかを実行します。

実行後状態を取得

新しいスクリーンショットとページメタデータを取得します。

AI が比較

検証モデルが実行前後を比較し、結果を返します。

検証結果には次の情報が含まれます。

Field	説明
Confidence	ステップ成功に対する AI の確信度（0〜1）
Evidence type	何が変わったか。`visual`、`elements`、`text`、`url` のいずれか
Explanation	観測された変化を説明する人間向けの文

ステップ検証にも Gemini 3.1 Flash Lite Preview を使用します。要素検出と同じ軽量モデルのため、速度とコストを抑えられます。

ブラウザエージェント

agent アクションでは、AI が自律的に複数ステップのブラウザ操作を行います。単発の操作ではなく、自然言語プロンプトを受け取り、自分で何をすべきか判断します。

エージェントの動き

プロンプトを受け取る

エージェントは「このフォームの必須項目をすべて入力する」のような指示を読み、現在のページをスクリーンショットで把握します。

計画して操作する

何をすべきかを推論し、組み込みツールを使ってブラウザを操作します。

Tool	説明
`view`	現在のページのスクリーンショットを取得
`click`	ページ要素をクリック
`input`	入力欄にテキストを入力
`navigate`	URL へ移動

繰り返す

各操作のあとに新しいスクリーンショットを取得し、進捗を評価して次の操作を決めます。このループはタスク完了または maxSteps 到達まで続きます。

- id: step-5
  action: agent
  name: 'Complete registration'
  with:
    prompt: 'Fill in all required fields and submit the registration form'
    maxSteps: 15

ブラウザエージェントには Gemini 3.1 Pro Preview を使用します。複雑な推論と複数ステップ計画が可能な、より高性能なモデルです。maxSteps（1〜100）は最大反復回数を制御します。

適応的な推論

Copelf はステップの複雑さに応じて推論深度を切り替えます。

Step Type	Model	Reasoning Depth
click, fill, select	Gemini 3.1 Flash Lite Preview	軽量。要素検出と検証を高速に処理
agent	Gemini 3.1 Pro Preview	深い推論。複数ステップ計画、複雑フォーム処理、エラー回復に対応
navigate	None	AI 推論なしで URL を直接開く

この方式により、単純なステップは速く安く、複雑なタスクには十分な推論能力を割り当てられます。

AI 自動化における安全性

Copelf の AI 自動化は、次の 3 つの安全性の柱で成り立っています。

拡張機能経由の実行 — run は接続中の Copelf ブラウザ拡張へ配信され、そのブラウザセッションで実行されます
Human-in-the-Loop — 重要なステップは AI が進む前に承認を要求できます
完全な可視性 — すべての run でステップごとのスクリーンショットと実行履歴を確認できます

次に読む

変数とテンプレート動的なワークフローのための再利用可能な入力定義を学びます。ワークフローと RITSU フォーマットRITSU フォーマットと 5 種類のステップを詳しく確認します。

概要#

要素検出#

ステップ検証#