TheThinkbench
ストックにはログインが必要です
競技プログラミングにおけるLLMの推論を継続的に評価する
Artificial Intelligence
GitHub
Open Source
概要
TheThinkbench は競技プログラミングの課題に対してLLMをベンチマークし、推論力・アルゴリズム思考・問題解決能力を総合的に評価します。
特徴
- 主要AIモデルの横断的比較
- 真の推論力の検証を重視
- 完全オープンソースで、コミュニティの探索・改変・実験が自由
コミュニティと活用
- ソースコード公開、貢献歓迎
- フィードバック・アイデアの共有を通じて共同改善
使い方のヒント
- 新規課題の追加、評価指標の拡張、モデル組み合わせの検証などが想定されます
投票数: 1