SAM Audio
ストックにはログインが必要です
テキスト・映像・時間指定プロンプトで任意の音を分離
Artificial Intelligence
Open Source
Audio
概要
SAM Audioは、テキスト・ビジュアル・時間指定プロンプトで任意の音を分離する統合モデルです。音声・音楽・効果音の分離を1つのプロンプト対応モデルにまとめ、複数ツールを使い分ける手間を減らします。
操作イメージ
- テキストプロンプト: 例「ギターを分離」
- ビジュアルプロンプト: 動画内の対象をクリック
- スパンプロンプト: 特定の時間区間を選択
特徴と利点
- 従来はノイズ低減、ボーカル分離、話者識別などを別ツールで実現していた“信号処理の混在”を解消
- セマンティックインテントを理解するため、周波数を細かく操作せずに目的を伝えるだけ
- 推論が高速で、エンジニアリングのポテンシャルを拡げる
ライセンスと利用
商用利用が許可されているライセンス情報を参照できる点。
投票数: 97