Qwen3-TTS

ProductHunt 製品ページ

ボイスデザイン、クローン作成、97msの低遅延ストリーミング

Artificial Intelligence Open Source Audio

Qwen3-TTS

概要

Qwen3-TTSは、最先端品質・超高速・創造的コントロールを同時に実現するオープンソースTTS。10言語対応の0.6B/1.7Bパラメータモデルを核に、プロンプトベースのVoice Designと3秒のゼロショット・クローン、超低遅延のストリーミングを提供します。

主な特徴

プロンプトベースのVoice Designで人格を直感的に設定
3秒のゼロショット・クローンで即時の発声音モデルを生成
超低遅延ストリーミング（約97msのレイテンシ）
10言語対応・0.6B/1.7Bパラメータのモデル群

技術ハイライト

12Hzトークナイザーによる音声圧縮とディテール保持
オープンソースによる透明性・拡張性と再利用性

利用シーン

ボイス対応アプリ、ナレーション、アシスタント、ゲームキャラなど、音声を活用する製品に適用可能

投票数: 147

← 投稿一覧に戻る