【連載】中山淳雄の「推しもオタクもグローバル」第21回 異能集団「孫正義育英財団」の20歳エンジニア社長、音声AIサービス「CoeFont」で動画業界に革命をもたらす
初音ミクが生まれてすでに15年が経つ現在、ボカロボイスはすでに耳慣れたものになる中で、なかなか「人の声と勘違いするようなAIボイス」は生まれてこない。それは美醜にも起こる“不気味の谷"と同様に、相当に精度を上げた状態にならないと人はその差異に鋭敏になる。現在も数百万円という金額をかければそれに近いものは作れはするが、それでは一般化はままならない。この領域にゲームチェンジャーとして現れた「500円であなたの声をAI再現します」というCoeFontは画期的だった。さらに驚くのはその開発者はまだ20歳の若者だという点である。今回、AIボイスサービスを作った早川尚吾さんにその生い立ちも含めてインタビューを行った。
■AIベンチャーでバイトしながら、美容室大手からファンドレイズを成功させた高校生
――:自己紹介からお願い致します。
早川尚吾です。現在東工大2年生でCoeFont(声フォント)というサービス・会社をやっていて、今社員が30名くらい。さきほども大学の授業受けてたところなんですが、兼業しながらやってます。
――:早川さんは非常に若くして起業されてますが、それ以上に驚くのはCoeFont以前にも高校時代からアプリ開発などずっと手掛けられていることです。幼少時代はどのように育ったのですか?海外にいらっしゃったんですよね?
父の仕事(大学教授)の関係で幼稚園から7歳、数年間イギリスにはいましたが、とりたててフツーの子供でしたよ。サッカーばかりしてました。ゲームも好きで、よく当時PCでClub Penguin※で友達とオンラインチャットもやってましたね。
※Club Penguinは2005年リリースのMMOゲームで2013年には2億人が登録する巨大なサービスである。カナダ開発会社New Horizonは2007年にDisneyが3.5億ドルで買収している。
――:日本に戻って、中高一貫の進学校に入りますが、高校でその系列ではない東京工業大学付属科学技術高等学校※に進学しています。こちらはどうして転校したのでしょうか?
自由じゃなかったんですよね。いや、その中学校も一般的に言えば自由なんですよ。でも授業中にスマホしたら怒られるし、制服は着ないといけないし、昼休み学校の外に遊びにいけないし、、いや、言ってることおかしいのは認めますよ。ただ、高校時代があまりに自由だったので、振り返ると中学校時代はそれがストレスだったんだなと思います笑。
※東京工業大学付属科学技術高等学校:偏差値72で都内では開成、学芸大附属、早稲田などに次ぐ12位の国立進学校(「みんなの高校情報」より)。2年進学時から応用化学/情報システム/機械システム/電気電子/建築デザインなど専門分野に振り分けられ、自由な校風が売りだが、「受験には不利」という声もある。
――:だいぶ尖がってますね(笑)なるほどなるほど。より自由度の高いところに受験して進学したんですね。勉強はできたんですか?
たぶん勉強している時間が少ないわりには勉強できるほうでしたね。1番をとるタイプではなかったですが、一番効率よく上位10%には入っておく、というのを繰り返してました。「1位になること」にそんなに情熱もてなかったんですよ。やるべきことは必要最低限の工数でやって、あとは自分の好きなことをやろう、というタイプでした。
――:東工大付属は聞く限り、ちょっと明らかに「普通の高校」じゃなさそうですよね。そこで情報科学という専門性に目覚めるんですね?
はい、高校時代に堀江貴文さんの講演会に出席したときに、今面白いと思う技術は?と質問したところ、「ディープラーニング。暇ならやれば?」と言われて。そこからAIについて勉強するようになりました。
ただ高校の授業としては、初期で学ぶべきことは学んでしまったので、別途スタンフォードの授業をオンラインでとったり、論文を読みながら、機械学習とかディープラーニングとかアプリ開発を勉強しました。英語ができたことが幸いしましたね。
――:え、スタンフォード!?単価授業でも結構高いですよね。それってお金はどうするんですか?
親が結構そういうのを認めてくれて学費を出してくれたのもありますし、自分でも稼いでました。高2から秋葉原のAIベンチャーでバイトしてたりしたんですよ。学校終わって、週3で毎日6時間(15時~21時半)とかで働いてました。いま思うと普通のアルバイト時給なんですけど、高校時代の自分には「こんなにお金くれるなんて、なんてすばらしい会社なんだ!」と。実際に興味があったAIの実践的な仕事ができたので、面白かったです。
競艇の順位を競技者の年齢や天気などの因子と組み合わせて予測するプログラムとか、人工衛星の写真から地球の空き地をスポットするプログラムなどを開発して、だいたい半年ほど勉強させてもらってやめました。
――:高校はアルバイト自由なんでしょうか?
そうですね、認めてくれていました。放課後の仕事でしたし、そもそもそのバイトの内容自体が高校の目指している方向とぴったり一致してましたし。学校でも机にディスプレイを置いて、ビットコイン相場などを勉強しながら、英語論文よみながら授業を受けたり。目的に適っているのであれば、本当に自由度が高い高校で、そういったところも含めて「育てられた」感じはします。
■美容院大手の出資を受けて、高3で開発したAI髪型診断アプリ
――:企業プレゼンでいうとAIベンチャーのバイトのあとに、「AI Stylist」というアプリを開発しています。こちらはどういう経緯なのでしょうか?
やっぱり外向きに使われるサービスを作りたいんですよ。高校の同級生といろんなサービスは作ってはいましたが、実際に外の世界で使われるものにはならないと磨かれないので。
「写真をもとに自分に似合う髪型をAI診断するサービス」というアイデアをもって、美容院フランチャイズの大手の一つでアースホールディングスに営業にいったんです。全国250くらいフランチャイズ店舗もっている会社なんですが、創業者の國分利治さんにプレゼンにしたら、即決で「お金出すからアプリつくってよ」とすぐに開発がスタートしました。
――:高校生が出資を集めたんですね。国分さんはどうやってルートをみつけるのでしょうか?あとプログラム部分はできてもUIとかデザイン部分も考えると開発チームも必要ですよね?
なんですかね、、、いつもそういうのを紹介してくれるおじさんがまわりにいるんですよ。一応AI Stylistは100万近くダウンロードされています。デザイン部分は確かに苦手で、友達とかまわりに色々お願いしました。
(編集注:早川さんが都度サービスを始めたり開発するときには毎度「なんかおじさんが紹介してくれて」「まわりに手伝ってくれる人がいて」という言葉が出てくる。おそらく彼のポテンシャルに期待する大人・友人たちが、なにか早川さんの興味にあわせて色々つないだり協力して「勝手にチームが周りに出来上がる」様子)
高3の時に開発したAI Stylist、1,300件のレビューが付いている
――:あとAI Stylistの開発していたのって高3の受験真っ只中ですよね?これは受験勉強はどうなるのでしょうか。
そうですね。卒業前の高3最後の1-3月くらいまで、3か月くらいがっつり時間かけて開発してました。幸い内部進学だったので、センター試験の点数をそんなにとる必要もなかったので、、、試験対策もホントに3日前に始めました。あまり受験勉強らしいことはしてなかったですね笑。
(編集注:東工大付属から東工大への進学は10名と限られた枠で、上位5%程度の成績上位者でないといけないことは後日確認済。“通常は"受験勉強らしいことをせずに通過する枠ではなさそう)
――:早川さん、同じ高3の時に外国人観光客向けのARナビアプリでも「アプリ甲子園3位」を受賞してたりしますよね。こういうAI開発にすごく長いキャリアがあるわけじゃないのに、どうして勉強して1-2年でここまでいけるんですか? 日本ってAIエンジニアが育たないっていいますよね?米国の大学と日本の大学は結構差があるんですかね。
そうなんでしょうか、、、いや、普通に勉強していれば(スタンフォード等での授業や最先端の研究論文)、それなりにできるようになりますよ。レベルがまちまちというのはあるかもしれません。イケてる会社のAIスペシャリスト、とか言ってても、やっぱり修士号もってなかったり、ちゃんと論文も読んでない方もいらっしゃいますよね。
(編集注:早川さんも修士号は持っていない)
■一言のみしか発せずに面接通過、孫正義の「天才工場」に入社する
――:早川さん、Mensa(全人口の上位2%の知能指数)も入ってますし、地頭が非常に良いんだろうなと感じます。東大にいく、とか、海外の大学にいく、といった野望はなかったんですか?
なかったですね。別に行きたくなったらあとから行けばいいですし、そもそも受験しなくても内部進学しやすいから東工大付属選んだくらいですからね。東工大も授業は面白いですし。それよりも早くサービスつくって社会に出す、ほうが自分のプライオリティは高いですね。
――:大学に入ってから孫正義育英財団の財団生になります。こちら、中山も1人支援生知ってますが「ちょっと普通じゃない天才アーティスト」だったりします。研究費や学費の助成を無償でうけて、特に見返りを求められないすごい制度ですよね。(日本に限らず世界中の若者を対象に)異能の人材を支援する特別なプロジェクトですよね。
すごい人ばかりですね、本当に。自分は孫正義育英財団の末席汚してます(笑)。財団生は現在240名ですかね。小5で東大の生物学研究室に入っている子とか、14歳でシドニー大学に入学している人とか。
<孫正義財団応募資格>
・分野は問わず、国際大会または全国大会規模のコンテストにて優秀な成績を収めた方
・国際的に通用する資格を所持、または団体に所属している方
・学業や研究活動において、明らかに秀でた成績や成果を持つ方
・起業準備中又はすでに自身の経営する事業にて業績を出している方
・本財団事務局の論文選考で優れた思考を発揮している方
ソフトバンクと無関係で私費で2016年12月に設立した財団は、孫正義氏がクイズ番組が好きで開催したハイスペックな学生や子供との食事会などが設立につながっている。
――:これ、リストみると、もはやMensaもってない人がマイノリティかもというレベルですね。東大総長賞から未踏スーパークリエイターやら、飛び級の海外大学進学やら。賞のない人が1人もいない。。。ちなみに早川さんはどうやって選ばれたんですか?
あ、僕のは面白かったですよ。2分間の限られた時間の中で自分の実績アピールなんですが、僕の場合はAIボイスの「CoeFont」のサービス紹介なので、アピールどころか声を発してすらいませんでした。ちょうど審査員をやっていたのが孫正義さん、ノーベル賞の山中伸弥・京都大学教授、将棋の羽生善治さん、東大の五神総長だったんですが、「ではプレゼン始めます」といってボタンを押したら2分間全部作ったAI音声に話してもらいました。そしてAIが話終わった時に戻ってきて「ありがとうございました」だけ言って終わりました。
――:それはインパクトのあるプレゼンですね~。
■声のAI合成サービス「CoeFont(声フォント)」の起業
――:CoeFontはどうやって思い立ったんですか?大学入ってすぐ起業されてますよね。
大学1年の秋、2020年11月に起業しました。もともとClub Penguineとかチャットゲームなどが好きで、録画したときの自分の声が好きじゃなくて、これってディープラーニング応用してイケボイスとかかわいい声にできないかなと思ったのがきっかけです。
文字のフォントってもともと直筆だと読みにくいものをタイプ分けして読みやすくかつ雰囲気を使いやすいものを選択できるじゃないですか。声でもフォントのように好きなボイスを選べるようになったら面白いんじゃないかと思ったんです。
――:確かに。声ってそのままパーソナリティ・人格を背負いますけど、メタバースやアバターベースの会話が普及してくると、声フォントでの会話ってすごい需要が伸びそうな気がします。
他の会社だと100万円とかかかるんですよ。CoeFontはこれを500円だけ払って15分自分の声を録音すると、それが半日くらいでディープラーニング処理されて自分の「声フォント」になります。あとはテキストで好きな会話をセットすれば、それに沿って「自分の声フォント」でAIが自然な感じで自動で読み上げてくれます。わりと今喋っていると勘違いされるレベルで精度があがってきています。逆に僕のように自分の声が嫌なタイプは有名なイケボの声優さんの声をかって、それに読み上げてもらったりもできます。
――:めちゃくちゃ安く提供されてますね!
現状はほぼ原価のような価格で提供してますね。まずは普及することが大事で、だんだん普及してからそこにビジネスがのっかってくればいいかなと思ってます。自分の声フォントをマーケットにあげて、その使用料でユーザーさんが稼げるとか。
現時点でも4000種類くらいのボイスがアップされていて、こちらをポイント消費して使います。Tポイントのように1文字5ポイントを使って、有名な声優さんのボイスでよみあげてもらいます。その1万ポイントを100円などでプリペイドで事前購入してもらい、売れた分を使われたボイスの販売者に還元していくモデルです。
多忙すぎる声優さんが、毎回1個1個収録スタジオにいかなくても、自分の声フォント自体で商売できるようになるのではないかと。
CoeFontの人気ボイス販売者たち。サイト内ポイントで自分の声を“ライセンス販売"している
このように登録した際に、自分が購入したボイスでテキストデータを自動で読み上げる。アバターを使った動画配信などにはそのまま使えそうなクオリティ
――:サービスの反響はいかがですか?
初動から反響よかったです。2日で累計2万、1か月で20万人を越えるユーザーがきました。テレビでもたくさん取材いただいて、こちらを見ていただくのが一番わかりやすいです。どうやって声フォントが作られるか実際のアナウンサーの方の収録部分と、声帯を失われた方の利用ケースなども取り上げられてます。
――:しかしこれはBtoBで声の監修・版権料まで整備できるのであれば画期的かもしれません。都度事務所とコンタクトとって収録スタジオおさえて、といった作業をすっとばして、「本人の声フォント」をお借りしながら、監修だけしてもらって販売する。
本職の声優事務所になると、クオリティコントロールが非常に重要なところなのでまだそこまでの利用ケースには至っていないです。現在は中小企業の動画作成系の会社さんからのニーズが強くて、想定以上に引き合いをいただいてます。
出版社も興味をもっていただいていて、小学館さんと『鬼滅の刃』産屋敷耀哉役の森川智之さんのAI音声合成オーディオブックをつくったり 、図書印刷さんとAI音声合成のオーディオブック配信サービス「ビジガク」を出したりしています。オーディオブックって収録に2週間とかかかるんですよ、かなり大量に読み上げるので。スケジュール的にどうしても難しいというときに、このCoeFontを使いたいというニーズもありますね。
――:外国人の需要などもありそうですね。
あ、まさにスマートフォン用AI通訳アプリのポケトークさんでも日本語の読み上げ標準音声にも採用されました。ほかにもテレビ局やメディア系は関心が高くてTBSさんやテレビ東京さんともやっていますし、Newspicksさんでも「【AI音声】ニュースのツボ」で、AIが読み上げのメディアを作ってます。
――:こうやってきくと「ボカロ声」とは一線を画してますね。人間が読んでいると感じますね。逆に先ほどのTV取材映像でも出てきましたが、声帯を失った人など普通の生活者にとっても重要なものになるかもしれませんね。
あれは僕も想定していなかった使われ方でしたね。声帯摘出手術をされた酒井さんの事例ですよね。「本人の声」でいろんな会話を家族の方とできるようになっていて、改めて「声フォント」の大事さについて痛感しました。
ほかにも筋萎縮性側索硬化症(ALS)の方なども同じようなニーズがあるんじゃないかと思ってます。こういう方々には無料でサービスを利用していただくようにしています。
――:しかしこうやってプロダクトをつくるという仕事、学生としての必要な勉学や試験、そこに六本木でビル借りて会社つくったり30名規模の組織をマネジメントする仕事も重なると、大変じゃないですか?どうやってマネジメントしてるんですか?
あ、ファンドレイズとか会社設立とか人の採用とか(もちろん僕もみてますけど)、そういったことはやってくれる方々がいるので。アクセンチュア出身の役員の方にそういうのをやっていただいたりしてます。僕自身が全部やっているわけではないです。よくわからないことも多いですし。
あとこのサイズになるとメディア取材や出張など外向きの仕事も色々でてきてしまうので、僕もオフィスにいられないことも多くなってきていて、プロダクトのブラッシュアップやUIのところは社内のエンジニアで創るようになっています。
――:CoeFontとしては今後どういったことをやっていきたいですか?早川さんとしてはもっと違うサービスも色々作る野望もありそうですが。
そうですね、ほかにも作りたいものはありますが、今はとにかくCoeFontをどう広げるかということに集中していくつもりです。まだ200-300社ですがもっと違う使い方もどんどんされるようになっていくと思いますので。警備保障のセキュリティ会社だったり、ゲーム業界をはじめとするエンタテイメント業界でも、声フォント(CoeFont)の利用ケースをふやしていきたいと思ってます。ちょうどこの6月から法人利用のハードルも下げましたので、ぜひどんどん使ってみてくださいませ。
会社情報
- 会社名
- Re entertainment
- 設立
- 2021年7月
- 代表者
- 中山淳雄
- 直近業績
- エンタメ社会学者の中山淳雄氏が海外&事業家&研究者として追求してきた経験をもとに“エンターテイメントの再現性追求”を支援するコンサルティング事業を展開している。
- 上場区分
- 未上場