rinna、テキストを入力するだけで音声合成とフェイスモーション生成が同時にできる生成AIサービス「Koemotion」を提供開始

rinnaは、テキストを入力するだけで音声合成とフェイスモーション生成が同時にできるサービス「Koemotion(コエモーション)」を提供開始したこととAPIを公開したことを発表した。

「Koemotion」は、サービス名に含まれている「コエ」「エモーション」「モーション」を扱う生成AIサービス。サービスを構成する音声合成には2023年3月に先行公開した「Koeiromap」が組み込まれており、従来の音声合成製品のように事前に用意された特定の話者の音声を合成するのではなく、2次元空間(マップ)から任意の座標を選択することで話者の声色を多種多様に変更して音声を合成することができる。

「Koeiromap」では、座標で指定された全ての話者の声色に7種類の感情を乗せて合成することができ、様々な組み合わせを実現する。また、入力されたテキストに込められた感情を推定する機能もあり、感情に合わせた発話スタイルで読み上げる。

「Koemotion」は、「Koeiromap」で合成した音声と同期したフェイスモーションを生成し、2D・3Dモデルや画像生成AIと組み合わせることでキャラクターの表情を音声に合わせて動かせることができるサービスとなる。ブラウザ上のユーザーインターフェースまたはAPIの利用が可能で、個人・法人向けに利用目的に合わせたサービスプランを用意している。

<「Koemotion」の特長>

・「Koemotion」では、入力したテキストの感情予測・音声の合成・フェイスモーションの生成ができる。
・音声合成を担う「Koeiromap」は106話者から収録した約110時間の音声を用いて、話者の声色を表現する2次元の空間が学習されている。この2次元空間から任意の座標を選択することで、106話者の中間的な話者の声色も合成することができる。
・ブラウザ上で動作する2次元マップのユーザーインターフェースを採用した「Koeiromap」では、好きな声を見つける楽しみを体験できる。
・「Koeiromap」では全ての話者の声色で通常・喜び・悲しみ・怒り・恐れ・驚き・囁きの7種類の音声を合成する。また、「Koemotion」のプランでは、入力テキストから感情を予測することもできる。
・「Koemotion」では「Koeiromap」で合成された音声に合わせたフェイス(顔)のキーポイントを3次元座標のモーションとして生成する。この座標情報を用いることで、2D・3Dモデルのキャラクターの表情を音声と同期させて動かすことができる。

▼「Koemotion」サービスURL
https://koemotion.rinna.co.jp/