Molmo 2

最先端の動画理解・指し示しと追跡機能を備えたビジョン-ランゲージモデル

概要

Molmo 2は、オープンウェイト・トレーニングデータ・トレーニングコードを公開する最先端の視覚言語モデル群です。動画と複数の画像を同時に分析でき、空間と時間を跨いだ正確なタイムスタンプと座標を出力します。