Qwen3-TTS logo

Qwen3-TTS

ボイスデザイン、クローン作成、97msの低遅延ストリーミング

Artificial Intelligence Open Source Audio

概要

Qwen3-TTSは、最先端品質・超高速・創造的コントロールを同時に実現するオープンソースTTS。10言語対応の0.6B/1.7Bパラメータモデルを核に、プロンプトベースのVoice Designと3秒のゼロショット・クローン、超低遅延のストリーミングを提供します。

主な特徴

  • プロンプトベースのVoice Designで人格を直感的に設定
  • 3秒のゼロショット・クローンで即時の発声音モデルを生成
  • 超低遅延ストリーミング(約97msのレイテンシ)
  • 10言語対応・0.6B/1.7Bパラメータのモデル群

技術ハイライト

  • 12Hzトークナイザーによる音声圧縮とディテール保持
  • オープンソースによる透明性・拡張性と再利用性

利用シーン

  • ボイス対応アプリ、ナレーション、アシスタント、ゲームキャラなど、音声を活用する製品に適用可能
投票数: 101
← 投稿一覧に戻る