TheThinkbench

ProductHunt 製品ページ

競技プログラミングにおけるLLMの推論を継続的に評価する

Artificial Intelligence GitHub Open Source

TheThinkbench

概要

TheThinkbench は競技プログラミングの課題に対してLLMをベンチマークし、推論力・アルゴリズム思考・問題解決能力を総合的に評価します。

特徴

主要AIモデルの横断的比較
真の推論力の検証を重視
完全オープンソースで、コミュニティの探索・改変・実験が自由

コミュニティと活用

ソースコード公開、貢献歓迎
フィードバック・アイデアの共有を通じて共同改善

使い方のヒント

新規課題の追加、評価指標の拡張、モデル組み合わせの検証などが想定されます

投票数: 1

← 投稿一覧に戻る