tech

DeNA、スマートフォンでリアルタイム音声変換を実現できる生成AI技術を独自に開発　企業・個人に対するサービス化も視野に

株式会社ディー・エヌ・エー（DeNA）

ディー・エヌ・エー（DeNA）

2023.11.13 13:05

ディー・エヌ・エー（DeNA）<2432>は、スマートフォンでリアルタイム音声変換を実現できる生成AI技術を独自に開発したことを発表した。

リアルタイム音声変換AIは、音声を受け取るAIと変換音声を出力するAIのペアからなる。これらをリアルタイムで動くようにチューニングすることで本技術を実現している。これまでエッジデバイスと称されるスマートフォン上ではAIを動かすための計算量を担保できず、特にリアルタイムで動かすことが困難だった。今回、計算量を小さくする技術を独自開発することで、高品質かつ遅延100ミリ秒※未満のリアルタイム性を維持しながらスマートフォン上で動作させることを実現した。
※ミリ秒:1000分の1秒

スマートフォン上で動作するため、プラグイン形式で様々なサービスのアプリやプロダクトに組み込むことが可能になる。これにより、音声変換をしたいとき別個に準備が必要だったPC向けソフトウェアや専用機器、それらのアプリへの統合をユーザに求める必要がなくなる。どんなサービスにもマッチするポータビリティの高い音声変換AIを実現した。

多種多様な声への変換を実現する本技術では、ビジネスニーズに応じて新たな種類の声を追加することも可能。ゲームやライブ配信といったサービスでは、多様な方が利用しているため、特定話者だけでなく誰でもなりたい話者の声になれることを目指している。

＜技術の特徴＞
今回提供するリアルタイム音声変換AIでは、「スマホで低遅延」「高品質」「低コスト」を同時に実現した。

低遅延であるほど入力した音声と変換して出力される音声のタイムラグが小さくなるため、応用範囲が非常に広くなる。通常は低遅延にするほど音声の品質が犠牲になるが、今回の技術によりそれらを両立することが可能になった。

品質が高くなることで、入力した音声に対する声色、声質、抑揚、イントネーションなど声にまつわる特徴を安定して維持することができる。また、高い品質で、なるべく低遅延にするためには、従来、高価なGPU※を搭載したPCが必要だったが、今回開発した技術ではGPUを積んでいないノートパソコンはもちろん、スマートフォンでも低遅延、高品質で動作するため、低コストで利用することが可能になった。
※GPU(Graphics Processing Unit)：画像処理装置、画像や映像の描画に必要な計算処理に適した半導体チップ

また、オフライン環境で動作するため、音声変換をするためにクラウドサーバーと通信する必要がないことも広い応用範囲に繋がっている。

本来であれば相反する速度・品質・コストをそれぞれ改良することに成功したことで、誰でも手軽にリアルタイム音声変換ができるようになり、VTuberなどの個人利用から、高い品質を大前提とする商用利用などにも活用が見込まれる。

＜今後の展開予定＞
近年、VTuber配信やゲームにおけるボイスチャットなど、リアルタイムに声でコミュニケーションする市場が拡大している。新たなユーザ体験の重要性は高まってきており、市場拡大と併せて音声変換ニーズも高まることが予測される。活用領域の課題を捉えた中長期の事業戦略を策定し、プロダクトやサービスとシナジーを生み出す事業開発体制を強化する。

さらに、事業戦略に基づくリアルタイム音声変換AIの技術開発も強化する。明瞭性や頑健性の向上、処理負荷の軽減だけでなく、対応デバイスの増加、動作環境に適したAIモデルやプラグインなどニーズに根差した開発を進める。

将来的に、声が価値となるプロダクトを運営する企業・個人に対するサービス化も視野に入れて検討を進めていく。