cto bench
ストックにはログインが必要です
実世界データに基づくコードエージェントのベンチマーク
Artificial Intelligence
Developer Tools
Analytics
概要
実世界の作業データに基づくコードエージェントのベンチマーク。仮説的な課題ではなく、cto.new ユーザーがプラットフォームで実際に行う作業からデータを収集します。
特徴
- 実使用パターンと PR マージ率を指標化
- 最新のフロンティアモデルの現実適用性を検証
- 実務タスクでの性能を直感的に読み解ける指標
データの価値
- 実務寄りのデータポイントを提供
- ベンチマークの透明性と再現性を重視
- 実務意思決定に生かせる実用的な示唆を目指す
- 今後は他モデル比較・環境別指標の拡充を予定
投票数: 75