
Parakeetは、話者識別モデル『Paramatch(パラマッチ)』のデモ版をHugging Face上にて無償公開した。
『Paramatch』は、音声ファイルをアップロードすると声質の最も近い話者を予測・分析する話者識別AIモデル。無断で学習されたAI音声合成モデルが出力した音声から、その元となった声の持ち主を特定するための手がかりを得ることを目的に開発された。
具体的には、アップロードされた音声ファイルに対し、話者データベースの中から声質の最も近い話者上位3名を予測し、それぞれの類似度をスコアとして提示する。これにより、ある合成音声が誰の声に基づいて生成されたものかを特定する客観的な手がかりを得ることが可能となる。
本モデルは30秒以下の音声ファイルに対応している。Parakeetは、アップロードされた音声ファイルがサーバーに保存されたり、二次利用されたりすることは一切ないと明言している。また、学習データは『Paramatch』モデルの構築にのみ使用し、音声合成等の生成モデルや他製品・プロジェクトへの転用は行わないとしている。
開発の背景には、AI音声合成技術の急速な発展に伴い、声優の音声を無断で学習したモデルや、それを用いて生成された合成音声がSNSなどで公開・拡散される事例が後を絶たない現状がある。無断学習モデルの配布や、生成された合成音声の公開・拡散は、声優・俳優が長年の研鑽によって築き上げた「声」というアイデンティティを脅かし、実演家の権利を著しく侵害する問題だ。Parakeetは、この状況に対し、技術を作る側の責任として「声」を守るための技術開発に取り組んだとしている。
同社は、本デモ公開の目的を二つ挙げている。第一に、表現者の「声」の権利を守るための有効な対抗策を実証ベースで検証すること。第二に、声優・俳優、所属事務所、権利者団体の関係者との対話の起点とすることである。
Parakeetは、『Paramatch』を単なる公開デモで終わらせず、社会実装に取り組む意向を示しており、表現者の「声」と向き合う声優・俳優や業界団体に対し、実際の不正事例に対する有効性検証や、話者データベースの精度向上、権利保護の枠組みづくりなどを目的とした共同プロジェクトへの参画を呼びかけている。




