ThinkSound

オープンソース: コードはApache 2.0ライセンスのもとで公開。
高忠実度の音声: 動画シーンに合わせた、同期したオーディオ制作。
商業利用の注意: 研究や教育目的での使用は自由だが、商業利用にはチームへの連絡が必要。

概要

ThinkSoundは、Alibaba Tongyi Labsが開発した新しい音声生成モデルで、初めてChain-of-Thoughtを利用しています。このアプローチにより、AIは音を作り出す前に、動画の内容を段階的に解析し、より高忠実度な音声を生成します。

実際のアプリケーションを試すには、こちらのデモをご覧ください。
この新たなアプローチは、将来的な商業音声モデルに影響を与える可能性があります。