GLM-OCR
ストックにはログインが必要です
0.9Bパラメータで実現する最先端の文書解析とOCR
Artificial Intelligence
Open Source
概要
0.9Bパラメータの軽量OCRモデルがSOTA級の性能を発揮。複雑なレイアウトや表、手書きにも対応。OmniDocBenchで94.6のスコア。vLLM/SGLang対応で推論が超高速。
特徴
- 小型モデルながら高精度
- Markdown/JSON出力で後処理を容易化
- CogViTビジュアルエンコーダとGLM-0.5Bデコーダの組み合わせ
- エッジデプロイに適した設計
想定ユースケース
- RAGパイプラインで重いレイアウトを含む文書の解析
- 手書きやLaTeX、スタンプ等の混在コンテンツ対応
技術背景
- 0.9Bパラメータ、vLLM/Ollama対応で即時性と互換性を確保
投票数: 6