Molmo 2
ストックにはログインが必要です
最先端の動画理解・指し示しと追跡機能を備えたビジョン-ランゲージモデル
Artificial Intelligence
Open Source
概要
Molmo 2は、オープンウェイト・トレーニングデータ・トレーニングコードを公開する最先端の視覚言語モデル群です。動画と複数の画像を同時に分析でき、空間と時間を跨いだ正確なタイムスタンプと座標を出力します。
特徴
- 動画追跡と指し示し機能
- テキスト要約ではなく具体的な位置情報を出力
- 少量データでの効率的訓練と高性能
技術背景
- Gemini 3 Proを超える動画追跡性能と報告
- PerceptionLMのデータ量が少ない訓練データでの高効率
投票数: 85