Qwen3-Omni logo

Qwen3-Omni

ネイティブなエンドツーエンド多言語オムニモーダルLLM

Artificial Intelligence Open Source Audio

概要

Qwen3-omniは、Alibaba CloudのQwenチームによって開発された、エンドツーエンドのマルチモーダルLLMです。これにより、テキスト、音声、画像、動画を理解し、リアルタイムで音声を生成することができます。

特徴

  • ネイティブな音声機能に特化しており、その性能は非常に高い
  • 公式ベンチマークによると、ASR(自動音声認識)、音声理解、音声会話においてGoogleのGemini 2.5 Proと同等のパフォーマンスを発揮
  • 119の言語をサポート

体験方法

Qwen Chatで音声または動画モードを有効にすることにより、Qwen3-omniの能力を手軽に体験できます。

投票数: 88
← 投稿一覧に戻る