最先端ディープランニング活用事例大集合! - Deep Learningオールスターズ2017 -
ファッションアイテム検索における深層学習の活用
続いての登壇者は、VASILYの中村さんです。
中村拓磨(なかむら・たくま)/株式会社VASILY開発部 データサイエンティスト。1988年生まれ。早稲田大学大学院修了。アクセンチュアでの勤務を経て、2016年に中途でVASILYへ入社。最近吸った葉巻は「ロメオYジュリエッタ」。
VASILYが運営する、日本最大級のファッションサイト「IQON」は、月間200万人以上の方に利用され、累計アイテム数は2000万点超え。世界で唯一iOS、Androidの両方でベストアプリを受賞しています。
この「IQON」の「アイテム検索」において、ユーザーは商品を説明するテキストだけではイメージがしづらく、商品画像が大きな役割を果たします。そして、この商品画像を認識することが非常に重要だと中村さんは説明します。
それはアイテムの類似度を評価するために画像は欠かせない情報だからです。この類似度の評価に画像認識を利用するメリットとして中村さんは次の3点を挙げます。
- テキストに比べて情報量が多く、アイテムの共通点や差分が把握できる
- 画像を見るだけで利用シーンやコーディネートが想像できるなど、アイテムの画像はコンテキストを含んでいる
- 流行によってどんどん更新されるファッション用語の辞書やオントロジーが必要ない
このように画像認識技術は複雑な情報を抽出可能であるため、ファッションに高い親和性を持ちます。
「IQON」で使用している画像は「商品画像」と「スナップ画像」の2種類。「商品画像」はデザインがわかりやすい一方、着用イメージがわきにくく、「スナップ画像」はその反対の特徴を持っています。つまり、画像人認識においても扱う画像に応じて、アプローチを変える必要があるのです。
そこで「IQON」の画像認識にはディープラーニングを導入しました。中村さんは主に次のような点がディープラーニングを使うメリットだと紹介しました。
- 様々なドメインの画像を同じアーキテクチャで扱えることで、アプリケーション全体をシンプルに保てる
- ファッション特有の複雑なコンテキストの抽出を低コストで自動化できる
- カテゴリや属性の条件付きモデルの定義など「Side-information」の利用が簡単にできる
- ファッションアイテムは日々増え続けるので、モデルの学習時に必要となるデータが十分存在する
具体的にその活用事例は次の4パターンがあります。
Item2Item
「商品画像」から「商品画像」を検索。類似商品の比較が可能です。「Auto-Encoder」で抽出した特徴に対して、近傍探索を実行します。Snap2Item
モデルが着ている「スナップ画像」から「商品画像」を検索。「SSD」を使い、隠れた部分があるアイテムの領域まで検出し、抽出した特徴量から類似度を学習します。Item2Snap
「Snap2Item」の逆引きを実装し、「商品画像」から「スナップ画像」を検索します。感覚的なアイテム検索
商品画像に属性を付加して、目的のアイテムを検索。例えば、黒いワンピースの画像から属性ベクトルを変更することで、それと類似したタイプの赤いワンピースを検索可能にします。
最後に、今後は継続して深層学習を活用した行動なアプリケーションやサービスの開発に取り組み、「まだ成功例の少ない『ボトム+トップス』以外の組み合わせによる3点以上のコーディネートの自動生成」「感覚的なアイテム検索の高度化」などを実現していきたいと中村さんは展望を語りました。
3Dデータへの深層学習の適用
続いての登壇はカブクの足立さんです。
足立昌彦(あだち・まさひこ)/株式会社カブクCTO。和歌山県出身。人工知能やJavaVMの研究に従事した後、Android アプリ「Simeji」を開発し売却。2014年にカブクを創業し、CTOに就任。好きな星は「死兆星」。
デジタル製造技術スタートアップとして、現在カブクが取り組んでいるのが「モノづくりのサービス化」。「3Dプリンターを利用して、ユーザーが車の外装をカスタマイズできるサービス」や「ゲームのアバターを3Dプリントしてお届けするサービス」など、「特注品マーケット」と呼ばれるマーケットで事業を展開しています。
特注品マーケットは6.7兆円の市場規模がありますが、工法・素材・仕上げ・用途のすべてが例外であり、人が持つノウハウによって成り立つ労働集約的ビジネスであることが大きな課題です。そこで、カブクでは機械学習を使うことでその「例外」を類型化していき、資本集約型ビジネスへの展開を目指しています。
今回、足立さんが紹介するのは3Dを認識するディープラーニングモデル「VoxNet」。これは、サイズが限定されたx-y-z空間上に3Dデータを写像(=ボクセル化)し、その3D情報を「3D CNN」に入力して学習させる方法です。「計算コスト、メモリの使用コストが少ない」「コードが公開されている」などが採用の理由となりました。
その結果は、3D空間にボクセライズし、コングレーションをかけると認識率70%程度。そこから「TensorFlow」でモデル化し、「VoxNet」の学習済みモデルを利用して、学習の効率化を図っていきました。
「失敗と課題はたくさんあった」と足立さん。いいところまでいったカリキュラムラーニングは最終的に採用せず、転移学習を使用。これは「学習時間が少なくて済む」「良い初期値を与えているため精度が高くなる」などのメリットがあるためです。そして、ハイパーパラメータのチューニング途中で時間切れ。
パレートの法則にあるように、このような20%の例外の課題に対する対策に、全時間の80%を占めるような状態ですが、これからもこの課題の徹底的な効率化を足立さんは目指していきます。
さらなる詳細はこちらのブログをご参照ください。
Chainerで知るDeep Learning進化の歴史
最後の登壇はレトリバの舛岡さんです。
舛岡英人(ますおか・ひでと)/株式会社レトリバ エンジニア。2012年に株式会社Preferred Infrastructureへ入社し、レトリバへの事業譲渡により2016年11月より現職。「Chainer」communityイベントリード。TECH PLAYの「Deep Learning部」の管理者でもある。
舛岡さんは「Chainer」の歴史を振り返りながら、ディープラーニングの進化を説明します。
「Chainer」は2015年4月に開発が始まったディープラーニングフレームワーク。その登場前はまだ「Caffe」「theano」「DL4J」「torch」くらいしかフレームワークもなく、またできることもまだ少なかったため一部の人しか使っていませんでした。
「Chainer 1.0.0」は2015年6月に公開され、その特徴は「CUDAやmulti-GPUも動くこと」「アーキテクチャがわかりやすいこと」「直感的に書けること」3つ。
その後、ディープラーニング全体の話では、2015年11月にGoogleから「TensorFlow」が発表されます。舛岡さんは「TensorFlow」の登場におどろいたと言いますが、ディープラーニングを導入するハードルを劇的に低くしたとも感じています。
この頃にはディープラーニングでできることも広まっており、例えばトヨタの「ぶつからないように学習する車」「画像をゴッホ風の絵に変換するプログラム」などが「Chainer」を使って公開されています。
ここ1年は論文の参照実装が増え、「GitHub」で公開される量も増えてきました。画像認識や言語処理の学会などでもディープラーニングベースで考えられるようになってきています。
しかし、できることが増えた分、より複雑なネットワークが必要になっているのが新たな課題です。ネットワークの多層化は、画像認識の競技会である「ILSVRC」では、1位の最大層数が2014年の22層から2015年には152層と大幅に層が増えていることからも読み取ることができます。
2017年7月現在、「Keras」など新たなフレームワークも多く出ており、その機能も多角化しています。「ディープラーニングもコモディティ化し、何をするにもディープラーニングと機械学習のライブラリを両方使う時代になってきた」と舛岡さんは見解を話します。
もちろん、「Chainer」も進化しています。主な機能面の進化は次の通り。
- 従来よりメモリ消費量が33%減少
- 「PyCharm」などのIDEフレンドリー
- メインレポジトリーを「Chainer/Chainer」に移動
- リリースサイクルを3ヶ月に1回へと大幅バージョンアップ
- 「Cupy(NumpyのようにかけてCUDA実行できるライブラリ)」の分離
また、用途に合ったライブラリも増え、次のような追加パッケージも登場しています。
ChainerMN
「Chainer」による学習を、分散処理によって高速化するための追加パッケージ。「MPI」と@NCCL」を使用した分散深層学習。ChainerRL
「Chainer」で最新の深層強化学習アルゴリズムを共通のインターフェースで使えるようにしたパッケージ。「OpenAI Gym」でも使用されている。ChainerCV
「Chainer」で画像認識を簡単に扱えるようにしたパッケージ。「CUB」、「Pascal VOC」のようなデータセットに対応。
「Chainer」のユーザーにも様々な層があるため、それらの層が持つ問題を解決できるようにしていきたいと舛岡さんは感じています。そして、最後に「今後はディープラーニングだけでなく、画像認識や音声認識、自然言語処理、強化合宿などの切り口でそれぞれの課題にあったコミュニティ活動の展開も広げていきたい」と展望を語りました。
懇親会!
以上、3時間弱におよんだ年に一度の「ディープラーニングオールスターズ」の講演は終了です。イベントを締めくくるのは懇親会。舛岡さんの乾杯でスタート!
参加者の皆さんは、登壇者の方々とも積極的にお話しされていました。
次回の「Deep Learningオールスターズ」の開催も是非楽しみにお待ち下さい!