GLM-OCR logo

GLM-OCR

0.9Bパラメータで実現する最先端の文書解析とOCR

Artificial Intelligence Open Source

概要

0.9Bパラメータの軽量OCRモデルがSOTA級の性能を発揮。複雑なレイアウトや表、手書きにも対応。OmniDocBenchで94.6のスコア。vLLM/SGLang対応で推論が超高速。

特徴

  • 小型モデルながら高精度
  • Markdown/JSON出力で後処理を容易化
  • CogViTビジュアルエンコーダとGLM-0.5Bデコーダの組み合わせ
  • エッジデプロイに適した設計

想定ユースケース

  • RAGパイプラインで重いレイアウトを含む文書の解析
  • 手書きやLaTeX、スタンプ等の混在コンテンツ対応

技術背景

  • 0.9Bパラメータ、vLLM/Ollama対応で即時性と互換性を確保
投票数: 6
← 投稿一覧に戻る