cto bench logo

cto bench

実世界データに基づくコードエージェントのベンチマーク

Artificial Intelligence Developer Tools Analytics

概要

実世界の作業データに基づくコードエージェントのベンチマーク。仮説的な課題ではなく、cto.new ユーザーがプラットフォームで実際に行う作業からデータを収集します。

特徴

  • 実使用パターンと PR マージ率を指標化
  • 最新のフロンティアモデルの現実適用性を検証
  • 実務タスクでの性能を直感的に読み解ける指標

データの価値

  • 実務寄りのデータポイントを提供
  • ベンチマークの透明性と再現性を重視
  • 実務意思決定に生かせる実用的な示唆を目指す
  • 今後は他モデル比較・環境別指標の拡充を予定
投票数: 75
← 投稿一覧に戻る