1. HOME
  2. ブログ
  3. other
  4. META開発の音声生成AIモデル『Voicebox』が高性能・高機能すぎて公開保留!?

BLOG

ブログ

other

META開発の音声生成AIモデル『Voicebox』が高性能・高機能すぎて公開保留!?

AI

こんにちは!
システムズナカシマのインターン生、中嶋です。
ただ今、テクノロジーについて勉強中。こちらのブログでは、学んだことをシェアしています。

今回のテーマは、「Voicebox」です。
Voiceboxは、METAのAI研究チームが2023年6月16日(現地時間)に発表した音声生成AIモデル。TTS(Text-to-Speech:テキストを音声に変換する技術)にとどまらず、音声編集、ノイズ除去、スタイル変換などの高度な音声生成タスクを実行できる、とても画期的なモデルだといえます。

■「VALL-E」の20倍の速度で音声を生成!?

従来、音声生成AIは、入念に整備された学習データを使って、タスクごとに特定のトレーニングを行う必要がありました。一方、Voiceboxは、生の音声とその書き起こしデータだけで学習する「Flow Matching(フローマッチング)」と呼ばれるアプローチを採用して開発されています。
学習に使用されたのは、6言語(英語、フランス語、スペイン語、ドイツ語、ポーランド語、ポルトガル語)による5万時間以上の録音音声とその書き起こしテキストという、膨大なデータ。
これにより、マイクロソフトの最新モデル「VALL-E」を、明瞭度と音声の類似性の両方で上回り、さらに20倍もの高速化を実現したそうです。

■Voiceboxが実行できるタスクは!?

では、具体的にVoiceboxはどんなことができるのでしょう。以下に主なタスクを3つ挙げてみました。

  2秒分のサンプルから音声を生成
たった2秒程度の音声サンプルを使用して、その音声のスタイル(音質や抑揚)を学習。同じスタイルを再現した音声を生成できます。

  多言語対応
英語、フランス語、ドイツ語、スペイン語、ポーランド語、ポルトガル語に対応。たとえば、英語で話した音声を元に、同じ声でフランス語による読み上げができるということです。

③ 音声のノイズ除去と編集

Voiceboxは音声を生成するだけでなく、オーディオ録音内のセグメントをシームレスに編集することが得意だとか。たとえば、録音中に犬の鳴き声や、サイレンの音が入ってしまった場合も、それらのノイズを除去することができます。また、録音中に単語を言い間違えた場合は、その単語だけを自然な音声で置き換えることも可能だということです。

犬の鳴き声の消去、間違えた箇所の訂正デモは、こちらから聞くことができます!https://voicebox.metademolab.com/

■画期的ながら悪用の懸念も!?

いかがでしょう?確かに、とても画期的ですね。

ただ、同社は、悪用への懸念を理由に、2023年6月の発表時点では、Voiceboxのモデルやコードを一般公開していません。確かに、他人の声で音声が作れてしまうと、詐欺や捏造にも悪用されてしまいそうですね。

将来、一般公開されることになれば、YouTubeやSNSなどの動画作成・編集も簡単になるでしょうし、メタバース内のアバターに自分の声で話をさせたり、自分の声で多言語を操ったりすることも夢ではありませんね。「亡くなった方の声を再現する」といったこともできそうです。

▶︎システムズナカシマでは、AI技術を用いたシステム開発をご提案させていただいております。業務効率化などを検討されたい方は、お気軽にご相談ください。

関連記事

%d人のブロガーが「いいね」をつけました。