テクノロジードリブンでビジネスインパクトを生み出す!(後編) ─ LINE、リクルート、メルカリの取組事例を紹介!

イベント
テクノロジードリブンでビジネスインパクトを生み出す!(後編) ─ LINE、リクルート、メルカリの取組事例を紹介!

2018年12月16日、仙台市主催のイベント「テクノロジードリブンでビジネスインパクトを生み出す!-最前線でチャレンジをするチームの取組事例を大公開-」が開催された。同勉強会は仙台市が推進する「SENDAI X-TECH Innovation Project」の一つだ。

同プロジェクトは、仙台市をフィールドに、IoTやAI、VR/AR、5Gなどの先端技術とさまざまな産業との掛け合わせ(X-TECH)による新事業の創出やそれをリードする先端IT人材の育成・交流により、テクノロジーの力でイノベーションを生み出し、都市の体験をアップデートしていくことを目指している。

本レポートでは、当日のイベント後半に行われた内容を紹介する。

LINEのサービスを支えるデータプラットフォームとは

後半の先陣を切って登壇したのは、LINEのNeil Tuさん。Tuさんは、台湾出身。2012年までは台湾の半導体メーカーで画像処理システムの開発に従事した後、楽天に転職。レコメンデーションシステムの構築を担当してきた。

2016年にLINEに入社し、現在はデータアーキテクト、データエンジニアとして、データを集積して加工して分析するためのデータプラットフォームの構築、運用に従事している。セッションタイトルは「Efficient And Invincible Big Data Platform」。


▲LINE株式会社 Data Labs Neil Tuさん

Tuさんは、まずは所属しているData Labs(以下、データラボ)という部署を紹介した。データラボはLINEの各部署が取得しているデータを集め、その分析や加工をするための専門部署。数学的なモデリングをする人材やディープラーニング、機械学習、データアナリシス、ビッグデータなどの技術の専門家が集まっている。

データラボでは、全社員が個人アカウントを利用してデータにアクセスし、分析するための仕組みとしてデータプラットフォームを構築した。現在2052個のテーブルがあり、データ量は28ペタバイト以上。活用しているユーザー数は645以上。プラットフォームは、IBM CognosとTableau以外はすべてオープンソースを利用して構築されている。

データインフラストラクチャは次のような形で構成している。イベントログはプラットフォームに入っており、Kafka経由でElasticsearchに送り、Kibanaで提供。ユーザーがElasticsearchに直接、クエリを投げることもできる。Kafka経由でデータをHadoopに置いておくこともできる。

LINE Payの決済情報などのトランザクションデータは、毎日、サービス側のDBから取得している。DBはMySQL、OracleなどのRDBと他のストレージの2種類ある。RDBMSは、Sqoopでデータをコピーし、Hadoopに送り、他のストレージの場合はHadoop Map Reduceエンジンを利用して同じくデータをコピーしてHadoopに送り蓄積する。

ApacheのKNOXを利用してユーザーはデータをダウンロードし、アップロードすることができるようにしている。またHadoopのクライアントを自らのサーバに入れておけば、Hadoop Map ReduceやApache Tezを回すことができる。

さらにPrestoをHadoopとつなげて、BIツールにクエリを投げられるようにもしている。Prestoを採用したのは、Hiveよりも処理が早いからだ。RDBMSやストレージからのデータ取得はETLを利用。ETLは15分単位、ウィークリーで1000個以上のETLバッチを処理している。

KafkaはElasticsearch以外に、2ツールで利用している。Elasticsearchはリアルタイム性に強いが、我々のデータはHiveの形でHDFS(Hadoop Distributed File System)上に溜めている。例えばライブ配信時のオーディエンス数などの数字は、Flinkを利用して処理している。複雑な処理は不要で、単純にリアルタイムのデータを早くKafkaから取得したい場合は、Apache NiFiを使っている。UIがきれいなこと、セキュリティが担保されること、ローカルバックアップができることが採用した理由である。

また、エコシステムも開発。そのための仕組みが以下である。

yanagishima:クエリのインターフェースで、ユーザーが簡単にクエリを投げることができ、結果を読み込むことができる。

LINE Analytics:リアルタイムのレコーディングツール。どのニュースに一番人気があるかなど、ページビュー、全部このツールで表示できる。

OASIS:Apache Zeppelinを参考に自分たちで開発したデータ分析と可視化、重要なレポーティングが1つにまとまったノートブックツール。欲しい結果をチャートで表示したり、書いたソースコードも定量化できたりする。バッチの形で動かすこともできる。

Aquarium:データapplogツール。2000個以上テーブルがあるので、欲しいデータがどのテーブルがどこにあるかがわかるよう、テーブル構造の中にカラム情報も載せている。

データプラットフォームは全社で使えるようになっているため、各ユーザーの権限をきちんと管理できるセキュリティの仕組みも構築している。ユーザーは、Office Authenticationという認証システムを通ってクライアントサーバにアクセス。そこからはプライベートのセキュリティの領域に入る。LDAP認証、Apache Rangerという権限登録システムを通ることで、データを読み込むことができるようになっている。

レジストレーションの仕組みは、次の通り。自分のPCから用意しているWebUIページでサインアップ。すると裏側の仕組みであるアクティブディレクトリから自分の個人の情報を取得することで、データにアクセスできるようになる。他のプロジェクトのデータを見たい場合はワークフロー経由で申請することで、読むことができるようになっている。

データラボの目標はもっとデータを利用しやすく提供し、そのデータを活用してもっとサービスを生み出すこと。LINEが掲げるミッション「Closing the distance」に近づけるよう、全力で取り組んでいく。

スタディサプリのデータ分析基盤と活用事例

続いて登壇したのは、リクルートマーケティングパートナーズ データイノベーション推進部の山邉哲生さん。2015年にリクルートマーケティングパートナーズに入社。データエンジニアとして、スタディサプリのデータ分析基盤を構築。

現在は多角的なデータ活用を実現すべくデータイノベーション推進部をけん引している。山邉さんのセッションタイトルは「スタディサプリのデータ分析基盤とその活用事例」。


▲株式会社リクルートマーケティングパートナーズ データイノベーション推進部 山邉 哲生さん

リクルートマーケティングパートナーズが展開しているスタディサプリは、オンライン動画をベースとした学習サービス。元々は英ロンドンで2010年に創業したQuipperが開発。Quipperが2015年にリクルートマーケティングパートナーズの仲間入りをしたことで、現在、リクルートのサービスとして提供されている。

有料会員は74万人(2017年度。国内外累計)。国内導入高校数は2353校。日本の高校は約5000校あるため、約半分が導入していることになる。インドネシア、フィリピン、メキシコでも展開している。

月額980円のベーシックコースのほか、コーチが付き、悩みを相談できるスタディサプリ合格特訓コース、リアルタイムで授業を視聴、質問もできるスタディサプリLIVEなどもある。また学生向けだけではなく、学校の先生向けにスタディサプリ for TEACHERSというサービスもある。「世界の果てまで最高の学びを届ける」というミッションを掲げて、サービス提供を行っている。

スタディサプリが生まれたのは2016年2月25日。それまでは受験サプリや勉強サプリ、英語サプリなど独立したサービスとして知られていたが、ブランドを統合して、完全内製に移行した。そのときにデータ基盤を構築。会員数や日々の利用状況のレポーティングなどをするようになった。さらにBI環境整備し、データ活用を推進。近年は研究開発、新機能開発にも取り組んでいる。現在人数は15人。データエンジニアだけでなく、事業伴走をしながら日々のKPI向上のための分析を行うデータサイエンティスト人材も在籍している。

データ分析基盤は以下の図の技術で構成されている。現在のレコード数10億超でテーブル数は450程度。1日のジョブ数Prestがおおよそ80、Hiveは10程度となっている。データ分析基盤はプロダクト、マーケティング、経営企画など、サービス関係者全般が活用している。

スタディサプリのクライアントは高校や小中学校。サプリを導入したことで学習にどのように寄与しているかという情報を提供するだけではなく、活用度が向上するようコンサルテーションも行っている。そのため、活用状況のレポートも出すだけではなく、可視化して改善していけるような指標を設計している。

また講義動画が中心のサービスであるため、それぞれの動画がどのように見られているのかはサービス改善において重要な分析軸となる。例えば短い分数の動画は視聴率が高くなるが、分数が伸びてきたり、チャプター数が増えてくると学習を完了できないユーザーも増えてくる。どういう風に動画を作れば、使ってもらえるかということを分析したりもしている。

また、実験的な取り組みもしている。その一例として株式会社ジンズが提供するJINS MEMEを活用して、学習時の集中度合いを計測することを行った。また大阪府立大学の黄瀬浩一教授と共に、アイトラッキングを使った研究も行っている。

サプリの選択問題を解いてもらい、その目線を追跡することで、ちゃんと理解して正解しているのか、当てずっぽうなのかをシステムが推定。正誤に関わらずもう1度復習した方が良い問題を抽出し、個々の生徒それぞれにカスタマイズされた復習問題集を生成することもできるという。

現在、データ分析基盤はKPIや学習状況モニタリング・レポーティング、プロダクト改善、マーケティング施策連携、研究開発、データ機能開発などに活用されている。

データ分析基盤を浸透させるには

なぜ、データ分析基盤がこのように多くの業務で活用されるようになったのか。その第一の理由はデータ集約・整備に基づく守りの活用からスタートしたことだ。イメージのしやすいレポーティング・モニタリング業務から他部署業務を支援。分析基盤にデータを集約することで、利用する必然性が生じ、活用が推進されていった。

第二に、攻めの活用は十分に信頼貯金が貯まってから取り組んだこと。売上や事業KPIに直結する新規機能などは、開発コストも不確実性も高い。守りの活用を十分進めてから行う方が得策と考えた。

小さなデータ組織でも運用ができたのは、マネージドサービスを組み合わせて必要最低限の構成からスタートしたからである。運用コストを下げて、より本質的な要件に応じたデータ加工や障害時の再集計処理の設計に注力するようにした。 また非エンジニアでも使いやすい技術を採用したことも成功した要因の1つ。SQLでデータ抽出・加工処理を実装し、またワークフローの定義はYAMLで行うことができる。

一方で、課題もあった。その1つが、民主化の裏で溜まり続けるデータ的負債である。データを開放して各部署で仕組み作りができる方が柔軟性は高いが、想定外のデータ利用による不正確なレポートなど、運用担保・継承できない属人化されたシステムが生まれている。

そこで現在、データガバナンスを効かせつつ自由度を提供する仕組みを探っている。データマートを作成することで管理コストを下げつつ分析効率を向上、属人化・サイロ化を防ぐための大局的なデータフロー設計が必要だと考えている。

第二の問題は、利用者の増加によるリソース競合と性能劣化。非効率なクエリが増加してしまい、業務や障害対応に支障をきたすこともでてきた。そのための原因調査や改修対応にエンジニアチームのリソースが割かれ、開発力が削がれてしまっている。

そのため、重いクエリの即時発見やクリニングがしやすい仕組みを整える必要性がある。除却やチューニングの判断ができるように、クエリメトリクスやBIの利用状況などは可視化できるようにしておくことが重要だと考えている。

今進めているのが技術的負債を解消するためのデータ分析基盤のリニューアル。Google社のBigQuery導入による性能向上と海外支社データの統合、およびデータフローやデータマート、アクセスコントロールの再設計などを行っている。旧基盤は一人で作ったこともあり、新しい担い手に引き継ぐ意味も込めて、リニューアルを始めている。

そして次のステップとしては、攻めの活用として研究開発成果をプロダクトに搭載していきたいと考えている。それが講義動画レコメンドと講義動画検索の機能。レコメンドは東京大学の松尾研究室と一緒に研究を進めている。個々の学習状況に応じたレコメンデーションを通して学習パスの個別最適化を実現したい。

そのベースとなるテクノロジーがディープラーニング。Deep Knowledge Tracingという手法を使って、 サプリ上での学習行動ログを機械学習にかける。その結果得られたモデルを使い、任意の状態でのユーザーの学習、理解度を推定。それをベースに次にやるべきこととして講義の復習や先取りをレコメンドするという仕組みだ。

またこのような仕組みを作ることで、単元間の関係性がわかるのもいいところだと考えている。知識の概念はネットワーク構造を持っており、それをもとに多次元的なレコメンデーションができると考えている。もう一つの講義動画検索は、わからないことをすぐ学べる学習体験の提供が目的である。

現在、自分でも理解していないことを検索して、実際に説明されている講義動画にたどり着くのは難しい。そこで黒板の手書き文字を認識し、先生の話していることを音声認識でテキスト化して、シーンの情報として蓄積する。このようにして、わからないことを検索すると最も関連する講義動画が検出され、クリックすると、その動画の何分何秒にその概念について話しているかわかるというような検索機能を提供したいと考えている。

このような仕組みを作るためには、開発体制作りも欠かせない。どういう人材をチーミングしていくのか、キャリアフォローしていくのかがこれからのチャレンジとなる。

データ分析基盤はKPIモニタリングやプロダクト開発に役立つだけではない。人事や経理、カスタマーサポートなどの領域におけるデータ活用の可能性も大きいと考えている。

AIを活用し「簡単出品」と「安全な売買」を実現

後編、最後に登壇したのはメルカリ AI Engineeringの木村俊也さん。2007年よりミクシィで研究開発に従事。機械学習の知見を活かして、レコメンデーションエンジンやグラフマイニングエンジン開発を担当する。

その後、サービス部の部長などを経て、2017年にメルカリにジョイン。研究開発組織R4Dを立ち上げ、AIを中心とした幅広い研究領域のリサーチを担当している。セッションタイトルは「メルカリのAIを活用した『簡単出品』と『安全な売買』」。


▲株式会社メルカリ AI Engineering 木村 俊也さん

メルカリは、個人がスマホで簡単に売り買いを楽しめるフリマアプリ。サービスは順調に成長しており、現在1299万人の利用者(MAU)がいる。(FY2019.6 3Q時点)サービスの特徴は使いやすさ。写真を撮って簡単な説明を入力すれば、3分以内に出品が完了するところだ。そしてほぼ24時間以内に売れることが多く、スピーディーに売買ができるところが利用者に受けている。

メルカリには商品画像のほか、商品情報、商品名、商品説明、状態、カテゴリ名、ブランド名、サイズなどの売り手の情報のほか、購買情報、検索ログ、タップ商品、Likes、コメントなどの買い手の情報など、10億を超えたデータセットが存在する。

AIや機械学習をするには、非常に恵まれた環境である。大規模なデータセット、AI、機械学習を活用する目的は、簡単出品と安全な売買を実現するためである。

簡単出品は大きく分けると「AI出品(商品画像を認識して入力をサジェストする)」「AI商品サイズ推定(配送時の重さの概算を推定。US版のみ)」「価格推定(売れやすい価格を表示)」の3つで構成されている。

まずはAI出品。というもの。例えばAppleワイヤレスキーボードであれば、それを撮影して登録しただけで、商品名や説明、カテゴリ、ブランドが付与される。電子機器だけではない。衣服やカバン、財布などでもできるようになっている。なぜこれが実現できたかというと、メルカリには大量の出品情報があるからだ。

特徴抽出のエンジンとして活用しているのが、Googleが作った「Inception-v3」。5000万枚の特徴量をプールした学習モデルを作成している。出品されると特徴点を抽出し、学習モデルの中から類似商品を検索し、類似商品の中から代表的なタイトルやブランドを推定していくという仕組みだ。 AI出品のアーキテクチャは図の通り。Google CloudとAWSを使っている。2つに分けているのは、歴史的にAWSのストレージに画像を溜めていたからだ。

マスターデータが存在する本やCDはもっと簡単に出品できる。それがAI出品V2。商品の説明は自動で補完されるので、写真を撮って商品状態を選んで、出品ボタンを押せば出品が完了する。そのため、商品マスターデータを大量に作ることに取り組んでいる。AI商品サイズ推定をUS版で提供しているのは、配送の際に、重さの記載が必要になるからだ。

AI活用のもう一つの目的が安全な売買の担保である。メルカリでは出品が大量にあるため、人手で違反の出品を検知するのは不可能である。そこでAIを活用し、規約違反出品検知(武器や薬物などの規約違反商品をAIで検知)、年齢確認商品検知(アルコールなど未成年に売れない商品を検知)、お問い合わせ自動分類(お客さまのお問い合わせを自動的に分類)を行っている。

規約違反対応など自動化する仕組みを推進しているが、その狙いはコスト削減のためではない。スピーディーでスケーラブルなサービス実現のためである。今後、サービスの規模が十倍になったとしても、カスタマーサポートの人を10倍雇うことは現実的に難しい。だからこそ、今の人員プラスαで回るようなスケーラブルな仕組みを作っておく必要がある。

AIの開発は次の様な流れとなる。データ収集するデータエンジニア、モデル作成や予測するデータサイエンティスト、API作成やデプロイするバックエンドエンジニア、フロント開発するフロントエンドエンジニアというようにさまざまなスキルセットの人材が必要になる。

これまでの発表でもあったように、AIを活用する上で、データプラットフォームは欠かせない。メルカリではGoogleのBig Queryというマネージドサービスを活用している。いつでも好きな時にデータが使えるよう、データの整備を行っている。

また、機械学習のプラットフォームも作っている。ここでは機械学習のインフラリソースコントラロール、データの流れを制御したり(パイプライン)、作ったモデルのAPIを自動でリリースするなどの仕組みも開発している。

メルカリでは今後、AIモデル作成の自動化をはじめ、エッジ側でのAI、数10億枚以上の類似画像検索の開発に取り組んでいく。

【パネルディスカッション】データの取得、蓄積部分で工夫していることとは?

3人のセッション後は、前半と同じく及川卓也さんをモデレータに、「データ活用」をテーマとしたパネルディスカッションが行われた。

及川:今回、データ活用についてなかなか聞けない突っ込んだ話が聞けました。パネルディスカッションでは特にデータの取得・蓄積部分にフォーカスして話を聞きたいと思います。まずはデータの取得部分で工夫している点、苦労しているについて教えてください。

山邉:弊社は動画サービスなので、オンラインのログについては、どこの地点から再生したり、どこをスキップしたのかなど、動画プレイヤーの操作状況をかなり細かく取得しています。スタディサプリの学習効果を正しく評価するためにも、学校での学習などオフラインのデータも協力を仰ぎながら分析していくことが重要だと考えています。

もう一つは、オンラインの行動データでは測定しづらい、考える過程を把握したいですね。これまでJINS MEMEを使った集中力の判定や、アイトラッカーによる目線追跡を用いた問題解答プロセスの可視化などの取り組みを行ってきましたが、これがWebカメラなどの汎用的な仕組みを使って特殊なセンサーデバイスなしにわかるようになると、ブレークスルーが起きるのではないかと思っています。

Tu:LINEの場合、サービス側でデータを収集していますが、データのフォーマットが統一されていません。フォーマットがバラバラの状態になっているのが最大の問題。今はデータラボのエンジニア側が集計をしているので、問題はありませんが、今後、新しい方向性として情報基盤を幅広く提供し、サービス側でログを集計、情報を回していきたいと考えています。ユーザーが自分の権限を持っている範囲でやりたい放題、データ活用をさせたいですね。

木村:データプラットフォームができていないことが課題だと思っています。組織が大きくなるとログの確実性が落ちていきます。データプラットフォームではルール付けし、問題を起こさないようにしたい。今、セキュリティ部分と、データ整理のための仕組みを作り始めています。

今後取得したいデータとしては、どこを見て人は購入を決めるのかという情報です。JINSMEMSやスマートフォンなどを使って、どこを見て服を買うのかがわかると、もっと価値のある情報を提供できるのではと思っています。

及川:これからデータ活用したいと思っている企業の方に、アドバイスがあれば教えてください。

木村:まず大事なのは何をやりたいのか、目的をはっきりさせること。メルカリのゴールはスマホで簡単に出品できること。そしてさらに出品を楽にするためAI出品を作りました。そういったゴールがあるから、プロダクトのどのようなデータを保存して、どのように活用したらいいかが明確になる。まず課題感を整理することから始めてほしいと思います。

及川:教師データの作り方について、おすすめの工夫ポイントなどありますか?

木村:メルカリでは現在、内部では色推定ができるようになっている。その教師データをつくるために、大量の色情報を付加しなければならない。そこで利用したのがクラウドソーシング。1つの商品に対して3人が色付けを行っています。

3人で行ったのは、色の感覚は人によって違うため。全員バラバラだったらその判定は使わず、2人以上合致していたら使うということにしました。海外には安いクラウドソーシングサービスが増えている。それほどお金はかからなかったように思います。

及川:なるほど、クラウドソーシングサービスを活用するのは1つの手ですね。次に蓄積側について。溜めたデータはどのくらいまで取っておくべきなのか。その期間について教えてください。

Tu:LINEは2011年にサービスをリリースしてからのログはずっと残してあります。しかし分析に活用するのは、直近3年分のデータ。古いデータはアーカイブして、他のプラットフォームに保存しています。

及川:価値のある直近モノについては使えるようにして、古いデータはアーカイブする、もしくは捨てても大丈夫ということですね。

木村:メルカリの場合、画像が命なので、ROIがどこまであうかは今後重要な論点になってくると考えています。今は全部、溜めていますが、今後はROIについても検討しないといけなければならないのではないかと。

及川:AIの民主化についてはデータ分析や機械学習のマネージドサービスを使う、もしくは自分たちでモデルを作るなど、いくつかの選択肢があります。民主化の究極はフルマネージドでできることですが、その選択肢をどう考えるかについてはいかがでしょう。

木村:社内に専門家がいないとフルマネージドを使うしかない。1人でもいると、自分たちで作る方が自由度は高いので、良いモノができる可能性がありますが、実際にはフルマネージドでも専門家がいないと難しいのが現状だと思います。

山邉:活用する社員のスキルセットが大きく影響しますね。ROIとして見合うかどうか。やりたいことに対してカスタマイズできる方がいいものの、フルマネージドの方が、コスト的にもアドバンテージがあるケースが多いのも確か。ただし本当にやりたいことをやるのなら、自分で作っていくしかないと思っています。

木村:DataRobotはなかなかおもしろいなと感じています。

山邉:リクルートでは、分析の試行にかかるコストを下げるためにDataRobotを導入しています。データサイエンティストの分析力にレバレッジをかけるツールとして、様々な案件で活用を始めています。

及川:LINEではどうですか?

Tu:サービス側が自分で試したい、開発したいという場合は、OASIS経由でソースコードを書いて分析することは問題ありません。もし本当にサービス側にエンジニアがいて、サーバシステム的に自ら自分のものを構築することができるのであれば、私たちはできる限り、データを提供することに注力しています。

及川:最後にデータ活用という立場から、来場者へのアドバイスをお願いします。

山邉:データ活用は対プロダクトだけではなく、組織の活性化や働き方改革などにも非常に有効に働くはずです。例えばデータ組織がカバーする領域として人事などいろんなドメインにも広げていくと、この先いろいろ可能性があると思います。

Tu:運用する、対応するに対してはいろいろ苦労をしているところがあります。「Keep up efforts」「Never give up」が大事ですね。

木村:データ活用、データ保存するというのは想定以上にコストがかかります。だがそれ以上に価値があると思っている企業が世界のテックカンパニーにはたくさんあり、活用してビジネスを大きくしています。コストがかかってもやらざるを得ないのが現状。頑張ってデータ活用にチャレンジしてほしいと思います。

及川:皆さんのお話が参考になれば幸いです。長時間ありがとうございました。

懇親会では登壇者と積極的に交流

セッション後は、懇親会が開催された。今回の参加者のほとんどが仙台をはじめとする地元のエンジニア。首都圏で開催されるイベントの場合、セッションだけで帰る人もいるが、同イベントでは参加者のほとんどが懇親会に参加し、登壇者との交流を図っていた。

SENDAI X-TECH Innovation Project」では、今後もさまざまなイベントを展開していくという。仙台エンジニアのみなさん。ぜひ、次の機会に参加してみてはいかがだろうか。


前編はこちら!

テクノロジードリブンでビジネスインパクトを生み出す!(前編) ─ Facebook、楽天、サイバーエージェントの取組事例を紹介!

関連するイベント

おすすめのコラム

テクノロジードリブンでビジネスインパクトを生み出す!(前編) ─ Facebook、楽天、サイバーエージェントの取組事例を紹介!

イベント

2018年12月16日、仙台市主催のイベント「テクノロジードリブンでビジネスインパクトを生み出す!-最前線でチャレンジ...

テクノロジードリブンでビジネスインパクトを生み出す!(前編) ─ Facebook、楽天、サイバーエージェントの取組事例を紹介!

データ分析をする業種でお仕事をする人を改めて解説してみる。あなたはどれ?

トレンド

どうも、totokoです。 ビッグデータ分析がメジャーなお仕事として認知されるようになりました。 そうなると当然...

データ分析をする業種でお仕事をする人を改めて解説してみる。あなたはどれ?