セミナー

【CEDEC 2018】『逆転オセロニア』におけるAI活用…「一緒にゴールを考え、期待値を常に共有する」

株式会社ディー・エヌ・エー（DeNA）

ディー・エヌ・エー（DeNA）

2018.08.31 14:13

パシフィコ横浜にて開催された「CEDEC2018」。期日は8月22日から同月24日までで、この3日間で多数のセッションに多くの人々が集まる。本稿では、ディー・エヌ・エー AIシステム部・AI研究開発グループAI研究開発エンジニア奥村純氏が登壇したセッション「『逆転オセロニア』におけるAI活用ゲーム運用における取り組みとノウハウ」についてのレポートをお届けする。

現在ソーシャルゲーム領域において、各社ともAIを補助的に利用し業務の効率化を図っている場面がある。多岐に渡る事業の様々な技術領域でAI案件の推進を行っているDeNAでも同じで、『逆転オセロニア』においては強化学習と深層学習を活用する事でさながら人間のようにプレイする事ができるAIの開発を行っているという。このセッションでは、その開発プロセスやAI活用においてのあれこれが奥村氏の口から語られた。

▲ディー・エヌ・エー AIシステム部・AI研究開発グループAI研究開発エンジニアの奥村純氏。

奥村氏の所属する部署は各事業の横断部署ではあるが、サービス感を大切にしている。即ち、エンドユーザーやビジネスパートナーにメリットのあるソリューションを生み出す事を重視している。「AIを使う事を目的とせずに、ビジネス課題の解決を目的とする」がミッションなのだ。ゲーム事業におけるAI導入も「プレイヤー目線でメリットがあるソリューションか」がすべてであり、運用チームと一体になってのAI活用を推進している。

■セッションの流れ

■『逆転オセロニア』におけるAI開発の背景

『逆転オセロニア』は、オセロをベースとした戦略対戦ゲーム。その特徴はコミュニティにあり、コミュニティについては本セッションのすぐ後にDeNAの香城卓氏が詳しく解説している。こちらについては下記の関連記事をご参考いただきたい。

【関連記事】
・【CEDEC2018】『逆転オセロニア』プロデューサーの香城卓氏が語る、「コミュニティと共創するゲーム運営」とはなんぞや？

▼ゲーム内容について（画像参照）

・デッキによって、様々な戦略のバリエーションが生まれる。
・ゲーム環境や遊びは、常に新しくなっていく。
・局面に応じて、駒の運用を戦略的に考える必要がある。
これらの要素は、AI開発とどう関係するのだろう？

▼AI観点で検討にあがった課題
まずひとつは、「プレイヤーのサポート」。「デッキや立ち回り方には様々なバリエーションがあり、ゲームプレイ初期は複雑に感じられる場合がある」「戦略やデッキ構築の幅を知ってもらう事で、自分なりの遊び方を見つけつつ楽しさを感じて欲しい」という部分だ。

ふたつめは、「バランス調整のサポート」。「意図しないバランスはゲーム体験を毀損してしまう」「新キャラクターをプランナーの意図したバランスで出したい」「ゲームバランスを可視化して、モニタリングしたい」という事柄があげられる。

では、運用課題とAI技術をどう結びつけるのか？次で、AIが活用できそうな課題が示された。

▲オセロニアの事例だと、現実的に着地しやすい案件から将来を見越したチャレンジングな課題までの様々なタスクを運営チームとやれたそうだ。

▼AI研究開発のプロセス
AIの訓練は「やってみなければ分からない」という不確実性があるため、以下のプロセスで実行された。

▼ここまでのまとめ
・オセロニアで解決したい課題に対して、AIに限らず様々な対応が進んでいる。
・AI観点で解決できそうな課題を整理した。
・それぞれのケースに合わせて検証に着手しており、除々に実現の確度を高めている。

■検証しているAI技術の紹介

プロジェクトの序盤には、次のような技術ロードマップを作成。

プレイヤーサポートで使う技術は、アソシエーション分析と深層学習を使った戦略学習。バランス調整のサポートで使う技術は、クラスタリング分析と強化学習を使った自律的な学習のふたつ。

「1.デッキのアソシエーション分析」では、デッキ内のキャラクター関係を学習する事でデッキ構築ができるAIを作成。「2.デッキのクラスタリング分析」では、利用デッキの解析からゲーム環境のトレンドを分析している。「3.深層学習を使った戦略の学習」では、プレイヤーの棋譜から複雑な戦略を学習。「4.強化学習」では、試行錯誤を繰り返す事で自律的にキャラクターの運用方法を学習させているそうだ。

■1.デッキのアソシエーション分析

上の画像がアソシエーション分析についての説明。大規模デッキログから、「キャラAを使っていたらキャラBも使っている確率は◯％」という関係性、アソシエーションルールを導き出す。

▼デッキのアソシエーションルール

条件部と結論部からなるキャラクターの関係性は、支持度・信頼度・リフトの各指標で定量化。

▼分析結果から分かる事

例えば、支持度の値が大きいとよくある組み合わせとなり、信頼度が大きいと条件時に結論部（◯◯を使う確率は◯％）が生じやすい。リフトが1より大きい時は、ルールの有効性が強くなる。アソシエーション分析は、複数の指標を同時に見て解釈する必要があるのだ。

▼支持度について

分析結果から見た支持度では、多くのプレイヤーが使っている組み合わせほど数値が高くなる。単純に高い支持度のルールは強いと言えるが、一方で支持度が低くても有用なルールはある。

▼信頼度について

条件が与えられた時に結論が導かれる確率。

▼リフトについて

それらを踏まえ、抽出されたキャラクターの関係性からデッキ構築AIを検証。特定のキャラAを持っている場合に他に使うといいキャラを、定量的に評価できる。これについては納得感のある結果が出始めていて、実際にプレイヤーにとって良いケースにできるか検討中との事。

■2.デッキのクラスタリング分析
クラスタリング分析とは、データの中から特徴的なパターンをグルーピングする手法。デッキ同士がどれほど類似しているかを測る事で、類似度の高いデッキをひとつのグループとして求める事ができる。

▼デッキ同士の近さ

Jaccard類似度によって、デッキAはデッキCよりもデッキBに似ていると判断できる。フィーリングを定量的なものに変換する技術で、デッキをクラスタリングする事が可能。

▼クラスタリング分析の結果（可視化）

▼デッキのクラスタリングでできる事
デッキのクラスタリングができると、その恩恵が多くある。ひとつはゲーム環境の継続的なモニタリングができる事。デッキの対戦使用率や編成率などがそれで、トレンドに変化があらわれた際にもすぐに分かるようになっているのだ。

また、デッキ同士の相性のモニタリングもできる。勝率や対戦数を集計して意図しない偏りの有無をチェック、「定番キャラなのに勝率が低い」「特定の相手に勝率がとても高い」などの要素を見出す事が可能となっているそう。各種調整や今後のキャラプランディングにも活かす事が可能だ。

▼デッキ分析のまとめ
アソシエーション分析とクラスタリング分析を検証した結果、納得感のある結果が得られている。技術としてはすでに完成しているが、本当にプレイヤーにメリットがあるケースになるかを検討中。より細かい企画要件のチューニングや評価が必要となってくる。

■3.深層学習を使った戦略の学習
オセロニアは戦略性の高いゲームであるため、AIが盤面から正解の打ち手を出力するモデルを作った。この際、上位プレイヤーの打ち手を正解データとして使用し、AIモデルは表現力の高いニューラルネットワークを用いている。盤面から特徴量を入力、ニューラルネットワークで推論を導き出す流れ。この時、上位プレイヤーの打ち手と比較しつつ、モデルを訓練していく。他にも様々な機械学習のモデル検証を行っているが、今のところニューラルネットワークが一番良いそうだ。

▼学習に使うデータと特徴量（入力データ）

▼学習モデル

▼学習の結果

基本はNPC相手の検証だが、熟練のプレイヤー（プランナー）と戦っても時々勝てるようになっているとの事だった。

▼深層学習を用いた戦略学習の利点と難しい点
利点は、表現力があるため複雑で抽象的な意思決定も学習する事ができるところ。実際にオセロニアのような抽象度が高いゲームでも、一定の成績を出せる事が確認できている。難点は、モデルが複雑なためにチューニングが難しいところ。推論に計算リソースを使うため、実運用上の制約になるとか。モデルを更新するスケージュルなど、運用フローとして検討事項が多い事も問題としてあげられた。

■4.強化学習
強化学習は、試行錯誤を通じて、目的の利益を最大化するための戦略（行動系列）を獲得する機械学習の手法。

▼強化学習技術の進展はめざましく、様々なゲームで用いられ始めている。

▼強化学習は教師データが使えないので、対戦データで学習を進める。その対戦相手には自分と同じネットワークを使用しており、自己対戦の結果でフィードバックを行っているという。

この際、対戦相手の選び方が重要になってくると奥村氏。相手が弱いままだと学習が進まないので、「少し前の自分、過去の自分と戦う」事で学習を進める方法をとっている。一方このやり方だとAI同士が慣れ合ってしまい、局所解に陥ってしまうのだとか。だからバリエーションを持たせて対処している。

▼学習の結果

強化学習の利点は、常に変わるゲーム環境や新しいキャラクターに対しても適用可能なAIが作れる事。初期の検証で学習が進む事を確認できている。難点は、より強くするためには理論的なチャレンジがあるところ。相手のデッキが見えない状況で戦う（不完全情報）ため、ある程度相手の行動を予測しないといけないのだが、強化学習は「2手め3手めにこうしてくるんじゃ？」という判断が苦手なので解消をしなければならない。デッキや戦略が変わると問題が変わるところも問題だ。また、大量の試行錯誤をするために計算リソースを必要として、学習に時間がかかるところも問題にあげた。

▼表現学習（参考）

【ここまでの全体的なまとめ】
◯解決したい課題に対し、AI観点で技術を整理し検証している
◯複数のケースで、技術の有効性が確認できた
◯プレイヤーにメリットのある施策になるか検討している

■今後に向けて

「AIプロジェクトは、とにかく難しい！」と言う奥村氏は、続けて「深層学習や機械学習を使わずに自動化ツールで対応可能なケースがあれば、まずはそちらを検討するべき」だとも語った。これはセガの松田氏も語っていた事であり、共通の解だと見受けられる。

プロジェクト観点で難しいポイントは、まずひとつに「学習環境をゼロベースで作る必要がある」事。AIの学習・評価のためにシミュレータが必要で、特に強化学習にトライする場合はシミュレータ速度がボトルネックになるため、通信の最適化なども含めて考える必要がある。また、シミュレータを常に最新の環境にしなければならないところもポイント。去年の環境を使っても、古い環境しか再現できないのだ。

ふたつめに「特徴的エンジニアリングが複雑」な事。盤面のスキル状態などタイトル固有の情報を扱うため、深いドメイン知識が必要となってくる。みっつめに「タイトルごとの構造に応じたアルゴリズムの開発が必要」になってくる事があげられる。日進月歩の最新技術を実装するだけでは上手くいかず、課題を理解した上でカスタマイズする体制作りが大切だ。最後に、「ユースケースの要件定義」。AI技術があった、検証できたとしても、現場やユーザーにとって意味のある施策でなければならない。

▼AI活用を見越してやっておいた方がいい事
◯事前の学習環境（シミュレータ）の開発
バトルロジックを描画のロジックと切り離しておくような実装を予めしておく、関数の呼び出しを最適化しておくなどが重要。

◯AIの学習を念頭に置いたログ設計
ゲーム分析のためのログ以外にも、AI専用のログ設計が必要になってくる。

◯最新技術に追従する体制作り
アップデートの速い最新技術を常に受け取り、課題の理論的理解やチューニング知見を貯めていく必要がある。

◯現場との密なコミュニケーション
奥村氏は「個人的にはこれが一番大切」だと言う。課題を適切に定義・企画提案するためのサービス理解は必須であるため、運営開発との相互協力は不可欠。一緒にゴールを考え、期待値を常に共有する必要があるのだ。

■さいごに

「難易度の高いチャレンジングな課題に対しても、一定の成果が出ている。今後はより実現に向けた検証を続けていく」と奥村氏。ゲーム開発・運用におけるAIの活用は今後も加速していき、それらは年々複雑化してプロジェクトの難易度も高くなっている。同氏は「業界全体でAI技術の実用化を加速させるためにも、会社の枠を超え、産学協同も合わせて、こうしてみなさんと知見発信や交流を続けていきたいです」という想いを語って締め括った。

■『逆転オセロニア』

公式サイト

App Store

Google Play