f:id:niba1122:20190610103602p:plain

こんにちは、開発部の茨木（@niba1122）です。主に新規事業系の開発に携わっています。6/4〜6/7にかけて、ビジネスリーダー・開発者向けのAIカンファレンスであるAmazon re:MARSに参加してきました。本記事では、筆者が実際に参加して面白かったセッションやワークショップに関して、開発者寄りの視点で書きます。

Opening Remarks & Keynotes
ワークショップ
- W03 - Build Intelligent Applications Quickly with AWS AI
- W05 - Finding Martians with AWS RoboMaker and the JPL Open Source Rover
印象に残ったセッション
- A05 - Understanding Customer Intent and Personalizing Shopping Experiences at Scale
- A07 - Speech Emotion Detection
  - Multimodal Speech Emotion Recognition
  - Adversarial Autoencoder for Acoustic-Only Emotion Recognition
Tech Showcase
- DeepRacer
- Smart Home / Smart Mirror
最後に
参考文献

Opening Remarks & Keynotes

Opening Remarks

MARSはMachine learning、Automation、Robotics、Spaceの頭文字です。

MARS

今急速に発展しているこれらの分野に本気で取り組み、プラットフォームを構築していくというAmazon社の強い意思を感じました。MARSは3日間のKeynoteの軸になっており、開催期間を通じて各分野への取り組みや未来が紹介されました。初日はまずロボットに関する話でした。

ロボット

Boston Dynamicsのロボットの実演や、工場での荷物を運搬する2足歩行ロボットの紹介がありました。2足歩行ロボットはジャンプや宙返りなどもこなしており、進化に衝撃を受けました。初日の最後にはアベンジャーズでおなじみのRobert Downey Jr.氏が登場し、会場は大きく盛り上がりました。

Robert Downey Jr.

Keynote（day2）

2日目はJeff Wilke氏によるリコメンドの話から始まりました。色々な試行錯誤をした結果、過去20年分の購買履歴を学習して1週間後を予測するという比較的シンプルなモデルになったというのは意外でした（そもそも20年分の購買履歴を持っているあたりさすがAmazon社だなぁと思います）。

リコメンド

リコメンドの話の後は、Amazon Goや需要予測に関する発表がありました。

Keynote（day3）

3日目は、Amazon社のCTOであるWerner Vogels氏の発表から始まりました。機械学習のプラットフォームに力を入れていること、もうデータサイエンティストでなくても機械学習が使えることを強調していました。次は、Machine Learningで有名なAndrew Ng氏の発表でした。「スプリントは1日で回せ」「データは小さい方がよい」というのは意外で印象的でした。この後数名登壇し、最後に登場したのが誰もが知るAmazon社のCEO、Jeff Bezos氏です。登壇はJenny Freshwater氏との対談形式で行われました。「リスクを取らなければならない。リスクがないならそれは誰かがすでにもうやっている」「今後変化しないであろうものに注目しなさい」というメッセージが印象的でした。

Jeff Bezos

ワークショップ

1日目は、Opening Remarksの前にハンズオン形式のワークショップが開催されました。午前と午後に別れており、それぞれ参加しました。

W03 - Build Intelligent Applications Quickly with AWS AI

このワークショップでは、Amazon社が提供するAIサービスと連携したアプリケーションを開発しました。題材のアプリケーションが3つもあり、すべてを終わらせることはできませんでした。しかし、音声認識や感情認識といった高度な技術を使ったアプリケーションをほんの数時間で開発できてしまうのが衝撃でした。

ソーシャルメディアダッシュボード

ツイートに含まれるもの（人、日付など）や感情を解析し、ダッシュボードボードに可視化するアプリケーションを開発しました。以下のAIサービスを活用しました。

Amazon Comprehend: もの（エンティティ）の抽出や感情分析を行う
Amazon Translate: ツイートの翻訳を行う

ダッシュボード

今までデータサイエンスが必要だった高度な解析も簡単にできました。また、ダッシュボードはQuickSightを用いましたが、GUIの操作のみなのでとても楽でした。

AIを活用したお問い合わせセンター

ユーザーからのお問い合わせをAIが補助するアプリケーションを開発しました。ユーザーとの通話はAmazon Connectで行い、音声の翻訳や感情認識は以下のAIサービスで行いました。

Amazon Transcribe
Amazon Comprehend
Amazon Translate

問い合わせ画面

Amazon Personalizeによる動画リコメンドエンジン

このアプリケーションは開発を完了できませんでした。しかし、Jupyter Notebookのセットアップで、SageMakerの便利さを痛感しました。実際に触れることはできませんでしたが、リコメンドはAmazon Personalizeでできるようです。

W05 - Finding Martians with AWS RoboMaker and the JPL Open Source Rover

このワークショップでは、火星人を検知するロボットアプリケーションをRobot Operating System（ROS）とAWS RoboMakerで開発しました。ロボットアプリケーションの開発とAWSサービスとの連携がすべてCloud9上で完結してしまうのが印象的でした。

Cloud9

ビルドに成功するとシミュレータ上に探査機が表示されます。これもブラウザ上です。

Rover

こちらは、探査機からの映像で、ちょうど火星人を発見したところです。

Alien

火星人を検知すると、スマートフォンに通知が来ます。

物体や火星人を検知した回数はダッシュボードで確認できます。

検知回数

印象に残ったセッション

A05 - Understanding Customer Intent and Personalizing Shopping Experiences at Scale

Amazon社には複数の事業領域にまたがる1億以上の商品があります。さらに、ユーザーも1億人以上おり、それぞれ好みやニーズが異なります。そのためユーザーはパーソナライズされたリコメンドを好みます。そのなかで、ユーザーが商品を探すのを手助けするだけでなく、ユーザーが本当に欲しいものを提供するのがリコメンドの目的です。リコメンドには以下の難しさがあります。

Scale: 数億のユーザーや商品
Latency: 数ミリ秒でリコメンドを返す必要がある
Dimensionality: 多様な商品カテゴリがあり、それぞれ性質が異なる
Localization: 文化や言語はもちろんのこと物流の考慮も必要
Subjectivity: ユーザー毎の主観があり、リコメンドの受け取り方もそれぞれ異なる
Evaluation: リコメンドが成功かどうかは究極的にはユーザーの満足度に依り、過去のデータにもバイアスが掛かっている

類似商品のリコメンド

類似商品のリコメンドには2つのアプローチがあります。

Behavior Similarity: ある商品を買ったユーザーが次に何を買ったかに基づく類似性
Contextual Similarity: 商品情報に基づく類似性

Behavior Similarityの方がスケールしますが、行動データがない初期にリコメンドできない欠点があります。

購買意思によるリコメンド

類似商品のリコメンドだけでユーザーは満足するのでしょうか。Amazon社は購買意思によるリコメンドも行っています。購買意思は以下のような方法で取得できます。

検索
クリック
ウィッシュリストへの追加
購入

しかし、購買意思はそう簡単に理解できません。購買意思は、ユーザー間だけでなくユーザー内でも大きく変わります。

購買意思を知る方法として店舗に着目する方法があります。店舗での

検索
閲覧
購入

によってもユーザーの購買意思を理解できます。

リピートのためのリコメンド

アメリカでは60％以上の購入が消費財です。蓄積された購入データを基に、商品がリピートされるのか、いつリピートされるのかを判断しています。

A07 - Speech Emotion Detection

Amazon社ではユーザー体験を改善するために感情認識を行っています。感情認識ではまず感情を定義する方法があります。感情の定義をする時にまず思いつくのは感情を怒り・恐れ・幸せ・驚きなどのようにカテゴリ分けすること（Categorical）でしょう。しかし、このカテゴリ分類には正解がなく、正しく選ぶのが難しいです。感情を定義するとき、成分毎に分解してそれぞれの成分量で表す方法があります（Dimensional）。

Dimensionalな感情定義

上の定義で感情を表現すると以下のようになります。

Dimensionalな感情

実際に感情認識を行うにあたり、2つの研究があります。

Multimodal and Multi-view Models for Emotion Recognition（ICASSP 2019）
Improving Emotion Classification through Variational Inference of Latent Variables（ACL 2019）

これらの論文を基にした方法が紹介されていました。

Multimodal Speech Emotion Recognition

音声を解析したテキストと生音声を併用して感情を認識する方法です。

Multimodal Speech Emotion Recognition

Adversarial Autoencoder for Acoustic-Only Emotion Recognition

生音声のみをAdversarial Autoencoderで処理して感情を認識する方法です。

Adversarial Autoencoder for Acoustic-Only Emotion Recognition

Tech Showcase

DeepRacer

強化学習ができる1/18スケールのレーシングカーです。写真の車は初めレーンに沿って走れないのですが、正しいレーンを繰り返し学ぶことで段々正しく走れるようになっていました。

Deep Racer

Smart Home / Smart Mirror

RoombaとAlexaが連携した住宅のサンプルです。

Smart Home

住宅の中にスマートミラーもおいてありました。

Smart Mirror

最後に

Amazon社のプラットフォーマーとしての力を痛感した4日間でした。今や機械学習やディープラーニングといった技術は誰でも使えるものになりつつあります。また、すべての発表においてWhyが明確に示されているのがとても印象的でした。課題あっての技術ということを再認識した次第です。 ZOZOテクノロジーズでは、ファッション領域において技術の力で課題解決をしたいエンジニアを絶賛募集中です。興味ある方はぜひご応募ください！

www.wantedly.com