本文へスキップ
サイトへ戻る

概要

Copelf はワークフロー実行のあらゆる段階で AI を活用します。壊れやすい CSS セレクタに依存せず、DOM 解析と視覚認識を組み合わせて Web ページを理解するため、UI 変更に強いワークフローを実現できます。

要素検出

ステップが UI 要素(click、fill、select)を対象にする場合、Copelf は 2 つのシグナルで対象を特定します。

  1. DOM 構造 — ページの HTML を解析して候補要素を絞り込みます
  2. 見た目 — スクリーンショットを vision モデルで確認し、正しい要素か判定します

対象要素は自然言語で説明します。

target:
  description: 'Email input field in the login form'
  vision:
    hint: "Text field with placeholder 'Enter your email'"

description は意味的な文脈を与え、vision.hint は視覚モデルに補助情報を与えます。これにより、クラス名、ID、レイアウトが変わっても要素を見つけやすくなります。

要素検出には Gemini 3.1 Flash Lite Preview を使用します。高速でコスト効率のよい要素選択向けモデルです。

ステップ検証

各ステップの実行後、Copelf は操作前後のページ状態を比較して結果を検証します。

実行前状態を取得

ステップの直前にスクリーンショットとページメタデータを保存します。

ステップを実行

AI が click、fill、select、navigate のいずれかを実行します。

実行後状態を取得

新しいスクリーンショットとページメタデータを取得します。

AI が比較

検証モデルが実行前後を比較し、結果を返します。

検証結果には次の情報が含まれます。

Field説明
Confidenceステップ成功に対する AI の確信度(0〜1)
Evidence type何が変わったか。visualelementstexturl のいずれか
Explanation観測された変化を説明する人間向けの文

ステップ検証にも Gemini 3.1 Flash Lite Preview を使用します。要素検出と同じ軽量モデルのため、速度とコストを抑えられます。

ブラウザエージェント

agent アクションでは、AI が自律的に複数ステップのブラウザ操作を行います。単発の操作ではなく、自然言語プロンプトを受け取り、自分で何をすべきか判断します。

エージェントの動き

プロンプトを受け取る

エージェントは「このフォームの必須項目をすべて入力する」のような指示を読み、現在のページをスクリーンショットで把握します。

計画して操作する

何をすべきかを推論し、組み込みツールを使ってブラウザを操作します。

Tool説明
view現在のページのスクリーンショットを取得
clickページ要素をクリック
input入力欄にテキストを入力
navigateURL へ移動

繰り返す

各操作のあとに新しいスクリーンショットを取得し、進捗を評価して次の操作を決めます。このループはタスク完了または maxSteps 到達まで続きます。

- id: step-5
  action: agent
  name: 'Complete registration'
  with:
    prompt: 'Fill in all required fields and submit the registration form'
    maxSteps: 15

ブラウザエージェントには Gemini 3.1 Pro Preview を使用します。複雑な推論と複数ステップ計画が可能な、より高性能なモデルです。maxSteps(1〜100)は最大反復回数を制御します。

適応的な推論

Copelf はステップの複雑さに応じて推論深度を切り替えます。

Step TypeModelReasoning Depth
click, fill, selectGemini 3.1 Flash Lite Preview軽量。要素検出と検証を高速に処理
agentGemini 3.1 Pro Preview深い推論。複数ステップ計画、複雑フォーム処理、エラー回復に対応
navigateNoneAI 推論なしで URL を直接開く

この方式により、単純なステップは速く安く、複雑なタスクには十分な推論能力を割り当てられます。

AI 自動化における安全性

Copelf の AI 自動化は、次の 3 つの安全性の柱で成り立っています。

  1. 拡張機能経由の実行 — run は接続中の Copelf ブラウザ拡張へ配信され、そのブラウザセッションで実行されます
  2. Human-in-the-Loop — 重要なステップは AI が進む前に承認を要求できます
  3. 完全な可視性 — すべての run でステップごとのスクリーンショットと実行履歴を確認できます

次に読む

変数とテンプレート動的なワークフローのための再利用可能な入力定義を学びます。 ワークフローと RITSU フォーマットRITSU フォーマットと 5 種類のステップを詳しく確認します。
クッキー設定

当サイトでは、サービス向上のためにクッキーを使用しています。

必須クッキー

サイトの基本機能に必要なクッキーです。無効にすることはできません。

分析クッキー

サイトの利用状況を分析し、サービス改善に役立てます。

プライバシーポリシー