Web Bench

概要

Web Benchは、AIウェブブラウジングエージェントの性能を評価するための新しいデータセットです。これにより、452の異なるウェブサイトでの5,750のタスクに基づいて、エージェントのパフォーマンスを包括的に計測できます。従来のWebVoyagerでは15のウェブサイトでしか評価できなかったため、不十分でした。

特徴

広範なタスク: 5,750のタスクを用いて、エージェントの性能を多様なウェブサイトでテスト
READとWRITEのタスク概念: データ取得とデータ入力という異なるタスクを定義
ブラウザインフラの影響: エージェントのアクション能力に対するブラウザインフラの役割を測定

主な発見

最も優れたモデルはAnthropicのCUAモデル
すべてのモデルはWRITE重視のタスクで低いパフォーマンス
予測以上にブラウザインフラが重要であることが確認されました

この新しいベンチマークは、AIエージェントの性能をより正確に評価し、業界のスタンダードを築くことを目的としています。興味のある方は、詳細なレポートを参照してください。

ストックにはログインが必要です

概要

特徴

主な発見