【DeNA TechCon 2017】『ファイナルファンタジー レコードキーパー』で進むAIへの取り組み―自動プレイがゲームバランス調整の手助けに


2月10日にディー・エヌ・エーが開催した「DeNA TechCon 2017」。本イベントは、「多岐にわたるDeNAの技術的チャレンジに焦点を当て、広く世に公開することで、技術進歩・進化に役立つこと」を目的に、2016年より同社が技術者向けに主催している。
 
本稿ではその中のセッション「強化学習を利用した自立型GameAIの取り組み~高速自動プレイによるステージ設計支援~」の内容を紹介する。

 

■強化学習が切り開くゲーム制作の未来

 
本講演には、ディー・エヌ・エーのAIシステム部に所属する益子遼介氏、そしてHadoopクラスタの運用責任者として活躍する関谷英爾氏の2名が登壇。まずは関谷氏から、強化学習の活用事例が語られた。


▲ディー・エヌ・エーでHadoopクラスタの運用責任者を務める関谷英爾氏。
 
強化学習とはある環境に置かれたエージェントが、試行を繰り返し状態の観測を行うことで最適な行動を獲得していく手法のこと。最近では車が事故を起こさないように運転方法を学習していく自動運転、囲碁でプロ棋士に勝てるような手を学習していく囲碁AIなどが該当する。特にDeepMind社によって開発された囲碁プログラム「AlphaGO」は、インターネット対戦できる「野狐囲碁」と「東洋囲碁」に匿名で参加し全勝を記録した。
 
また、強化学習に画像認識で培ったDeepLearningの技術を用いることで、画像情報を与えて試行錯誤をすれば取るべき行動を学べるようになった。その結果、状態の特徴を人の手で作り込む必要がなくなるなど、技術は日々進化している。


 
関谷氏によると、機械学習のトップカンファレンスのひとつ、NIPSでも強化学習は注目領域になっているという。そのNIPS 2016では大きな2つの発表があり、ひとつがDeepMind Lab.だ。これはAlphaGOを開発したDeepMind社が公開したフレームワークで、3D空間を観察し、同じ空間内での行動を起こせるもの。これまで主流だった2Dではなく、3D空間に移ったことで、ロボティクス分野での応用も考えられるという。



 
もうひとつはOpenAI Universe。こちらはAI技術のオープン化に取り組んでいるOpenAIが公開したフレームワークであり、ブラウザを観察してからキーボード操作など、さまざまなブラウザタスクが学習できる。ゲームのプレイだけでなく、スクロールや文字入力も可能になっているというのだ。
 


関谷氏は最後に、強化学習を用いることで、今後どのようなことが可能になるかを紹介してくれた。まずはさまざまなサービステストの自動化による、QA工数の削減だ。同じくステージ設計にも役立たせることで、プランナーの工数削減にも影響するとした。そしてゲームではリッチなNPC線が楽しめるようになる。将来的には電脳戦や、マルチプレイ通信切断後のプレイ引き継ぎなども視野に入っているという。
 
 

■『FFRK』ではボスAIの調整に活用

 
ここからは益子氏より、ディー・エヌ・エーにおけるAIの具体的な活用事例が紹介された。益子氏によると『ファイナルファンタジー レコードキーパー(FFRK)』のボスAIの調整にかねてから苦労しており、例えばカイナッツォでは通常状態から防御状態、津波集め状態への遷移など、残りHPや受けた攻撃によって行動が常に変わっていく。またボスごとにチューニングポイントが複数あり、そのたびに設計が必要になるという。


▲ディー・エヌ・エーのAIシステム部に所属する益子遼介氏。
 


以前はボスのパラメータ調整から実機でのプレイ感評価を人間の手で行っていたが、それでは時間がかかってしまう。そこをAIによる高速自動プレイで再現することにより、より円滑な設計を実現したのだ。これはゲームバランスを破壊するような味方パーティ組み合わせの検出や、本来ならば数百回のバトルを繰り返さなければいけない総計量の算出にも応用できたりと、さまざまなメリットがある。


 
また「『FFRK』のバトルには、ランダムな要素が多く含まれています」と益子氏も語っており、本作は初期行動順や行動の成否、ダメージの振れ幅によって細かく枝分かれする。それでも事前に行動を予測することは可能なはずだと考え、進行状況に応じて、将来的にもっとも有利となる行動を取るためにも、優秀なAIは必要だったのだ。
 
こうしてAIの開発・調整に臨むことになった『FFRK』の開発チームは、まず探索的アプローチとして「Monte Carlo Tree Search」の導入を試みる。これは現在取りうる行動を思考して算出した行動価値をもとに、次の最適行動を決定する手法だ。実装自体はシンプルなもので、評価関数も定義しやすいなどのメリットがあるが、一方でターンごとに1分判定度の行動選択時間がかかってしまうデメリットも。プレイアウトの影響で、長期戦や勝ち筋の少ないバトルでは苦戦してしまうケースも目立ったという。
 
そこで続いては、ニューラルネットを遺伝的アルゴリズムで学習させる「NEAT」によるアプローチを試みる。「NEAT」では第1世代として多数の個体をランダムに生成し、それぞれがバトルを試行。結果の良かったものを第2世代へ引き継いでいく。第2世代に引き継がれた個体のうち、良かったもの同士を混ぜ合わせたり、完全にランダムな個体を新たに紛れ込ませたりを繰り返しながら、より良い個体を作り出していく。
 
結果的に、世代が進むごとに自律的にネットワーク構造を学習していくことに成功。ただ攻撃を繰り返すだけでなく、相手を弱体化させるなどといった高度な戦術も自然と行えるようになっていった。


 
最後に残っている課題として、学習するまでの時間を益子氏は挙げた。目標は1時間で終わらせることだが、難易度の高いボスとなると10時間ほどかかってしまうという。また状態異常の評価が上手くいっておらず、魔法を跳ね返すリフレク状態のキャラに回復魔法を使い、結果として敵を回復させてしまうケースもあったそうだ。そしてボスの数だけ学習時間が倍増してしまうことも問題点のひとつ。複数ボスへの対応は今後の大きな課題であるという。



 
それでもAIによるゲームの自動プレイは実現可能なところまで来ており、対応できていない高度なバトルについても、引き続き改善を行っていくという。益子氏は「学習したAIを実際に業務に活用していくフェーズに入った」とまとめ、講演を締めくくった。

 
(取材・文:ライター  ユマ)
 


■関連サイト
 

公式サイト

株式会社ディー・エヌ・エー(DeNA)
https://dena.com/jp/

会社情報

会社名
株式会社ディー・エヌ・エー(DeNA)
設立
1999年3月
代表者
代表取締役会長 南場 智子/代表取締役社長兼CEO 岡村 信悟
決算期
3月
直近業績
売上収益1349億1400万円、営業利益42億0200万円、税引前利益135億9500万円、最終利益88億5700万円(2023年3月期)
上場区分
東証プライム
証券コード
2432
企業データを見る