ディープラーニング対応のカメラ「AWS DeepLens」で手話を音声変換するプロジェクトが発表


Amazonは、世界初のディープラーニングに対応した開発者向けビデオカメラ「AWS DeepLens」において、手話を音声に変換するプロジェクトを発表した。

同プロジェクトはASLensと呼ばれるものだ。手話から音声への変換は「AWS DeepLens」を使用、アメリカ手話 (ASL) にサインインしている人のビデオをキャプチャする。次に、各フレームに対してディープラーニングモデル (Amazon SageMaker で構築) を実行していくという過程になる。

ASL アルファベットの文字が認識されると、AWS DeepLens はその文字の音声を再生していく。 (Amazon Polly を使用して生成される MP3 ファイルを使用)。ASLens は AWS DeepLens でローカルに実行されるため、インターネット接続は不要で、帯域幅の問題がなくなり、速度が向上するという。

なお、開発のきっかけはChris Coombs氏によるもので、AWS DeepLens Challenge ハッカソンのために作ったプロジェクトとなる。現在同プロジェクトによって表現できる内容は、ASL アルファベットに限定されている、今後は動きと表現を含む言葉を特定できるよう、ASLens に関する研究を続けていくという。

■関連サイト

AWS コミュニティプロジェクト