ヤマハ発動機・リクルートのエンジニアが語る『データマネジメントの勘所』──活用されるデータ分析基盤と意思決定が加速するデータ文化とは
アーカイブ動画
『データマネジメントの勘所』を通じて、データマネジメントに知見
株式会社primeNumber
プロダクト開発本部 プロダクトマネージャー 鳩 洋子氏
「あらゆるデータを、ビジネスの力に変える」というビジョンを掲げ、『データマネジメントの勘所』シリーズを主催しているのは、データテクノロジーカンパニーのprimeNumberだ。
primeNumberは当初、データ基盤の整備・運用の自動化支援を行うSaaSプロダクト、「TROCCO®」のみを提供していたが、現在では蓄積されたデータを活用するためのデータカタログ「COMETA®」や「TROCCO ACTION®」といったプロダクトやサービスもリリースしている。
データに関する幅広いプロダクトを揃えたことで、データの利活用に関するサービスを、一気通貫でサポートするソリューションサービスも手がけるprimeNumber。現在、利用企業や団体はスタートアップから大企業まで多岐にわたり、1000社を超える支援を行っている。
今回のファシリテーターを務めたTROCCO®のプロダクトマネージャーである鳩洋子氏は、『データマネジメントの勘所』シリーズを開催している理由を次のように述べ、ゲストにバトンを渡した。
「データマネジメントツールは世の中にあふれていますが、どのように活用すればよいのか、どんな組織や体制を構築する必要があるのか、まだまだ知見が少ないと感じています。また、最適解はなく、企業や状況、技術の進歩により、日々変わりゆくものだとも思っています。
そこで我々は単にツールや技術スタックを提供するだけでなく、現場エンジニアの試行錯誤や苦労を共有し合う場を設けることで、今後のデータマネジメントの知見共有・価値向上に貢献したいと考えています」(鳩氏)
ヤマハ発動機の「現場駆動のデータ活用」──データの民主化を支える分析基盤
ヤマハ発動機株式会社
デジタル戦略部 渡邊 駿介氏
最初のセッションに登壇したのは、ヤマハ発動機の渡邊駿介氏だ。デジタル戦略部に所属する渡邊氏は、データサイエンティスト兼エンジニアとして、製造・マーケティング系のデータサイエンス案件を担当し、データ分析の民主化を推進する役割も担う。
ヤマハ発動機は、1955年に日本楽器製造(現、ヤマハ)から二輪車部門を分離・独立するかたちで創業した。二輪車の売上はグローバルでトップクラスを誇るほか、マリン、産業用ロボットなどの幅広い製品を手がけ、世界200以上の地域で販売。海外の売上比率も9割を超える。
ヤマハ発動機では、大きく3つの領域でデータ活用を推進している。業務をつなげる「スマートオペレーション」、製品とつながる「コネクテッド」、お客様とつながる「デジタルマーケティング」だ。
一方でグローバルで広くビジネスを展開しているため、日本のデジタル戦略部が、グローバルすべてのデータ推進を担うことは難しいという課題もある。
「そこでヤマハ発動機では、企画からCXまでグローバルの各拠点で行っています」(渡邊氏)
デジタル戦略部では、世界各地のヤマハ発動機の社員誰もがデータ活用をできるデータの民主化を目指している。
つまり、デジタル戦略部門はその実現を目指すために、データ分析の手法や分析ツールのレクチャー、そのほか各種環境整備などを行うCoE(Center of Excellence)組織との立ち位置であるのだ。
「誰もがデータを活用しやすいためのデータ分析基盤が重要であり、デジタル戦略部では同分析基盤の整備も行っています」(渡邊氏)
渡邊氏は実際のデータ分析基盤の概略図を以下のスライドで示した。左側が3つのデータ収拾領域であり、そこから上がってきたデータが、データストアに貯められる。そして右側がどんな部門のどの社員もが簡便にデータを扱えるように、可視化や分析などを行っているデータ分析サイトだ。
続いて、以下の構成図の右上、データ加工分析領域で活用しているツール、「KNIME」の活用事例について、詳しく解説していった。
KNIMEはオープンソースで開発されているノーコードのデータ分析ツールだ。誰でも手軽にデータ分析を行えるツールで、ヤマハ発動機では利用を推奨してきた。実際、各拠点のローカルPCへのインストール数は1000台を超え、「データ分析の民主化を支える土台のとなるツールです」と、渡邊氏は強調する。
一方で、ローカル端末では処理できないデータ量の分析をしたいときは処理が複雑になり、ローカル端末では動作が不安定となる。加工したデータを共有し、分析結果を蓄積するデータベースがないという課題が上がってきている。
そこで渡邊氏は、Google Cloudのサービスである「Google Compute Engine(GCE)」の利用を検討した。GCEはクラウド上に仮想マシンやインスタンスを作成でき、インターネット経由で、リモートPCからそのインスタンスにアクセスできるからだ。しかし、試験運用をしていく中で、いくつかの課題が上がってきた。
1つ目は、利用者側に関する課題である。仕組みの理解など利用するまでの難易度が高いことだ。そして2つ目は、運用サイドの問題だ。ライブラリーの追加やOSのバージョンアップなどの対応を、運用サイドで担う必要が生じるのだ。
「一つひとつのインスタンスに私たちが対応することは、とてもじゃないけど無理ですから、大人数で運用を続けていくことは難しいと感じました」(渡邊氏)
そこで渡邊氏は、別の方法を再び検討する。それが「Cloud Workstations」だ。クラウド内にリモートで利用できる開発環境を提供するのは先のGCEと同じだが、Cloud Workstationsはコンテナを利用したマネージドサービスのため、大規模に展開する際の工数は大幅に減った。
具体的には、ブラウザ経由での接続のため、ローカルPCにSKTなどをインストールしたり、設定を行ったりする手間が不要となった。また、運用サイドの一人ひとりがユーザーの環境設定や変更に向き合う必要もなくなったからだ。
ところが今度は課題というよりも、より活用したいというニーズが上がってくる。ユーザーが作成したワークフローを定期的に実行したいという要望だ。そこで、今回もGoogleが提供するサーバーレスサービス「Cloud Run」を活用することで対応した。
構成や流れは以下スライドのとおりだ。この仕組みを構築したことで、利用者は使い慣れた処理をPythonなどに書き換えることなく、そのままデプロイするだけでバッチ処理が行えるようになった。渡邊氏は改めて成果を述べた。
「運用に進むまでの実装時間がすごく速くなり、業務自動化の処理を施したワークフローも即時運用できるようになり、利用者側の負担が大分減りました」(渡邊氏)
もう一つ、KNIMEには動的なWebアプリケーションを内部で簡単に作成できる機能がある。同機能を使い、渡邊氏は先のようにユーザーが独自に作成したワークフローをWebアプリとして使えるように、かつ、複数人でも共有して使えるようにした。
その結果、使い慣れた内部環境やツールで開発したワークフローを、そのままWebツールとして使用したり運用したりすることが可能となり、実装スピードが速まった。
そして今回のケースでは、同機能を内部分析の環境で使えるように実装した。渡邊氏は改めて、全体のフロー図も紹介した。
例えば、下段はCloud Workstationsを利用したワークフローであり、定期実行した場合は右側の領域に作られたワークフロー置き場に配置することで、Cloud Runが定期実行してくれる流れであることが分かる。
最後に渡邊氏は、同分析基盤を利用した活用事例を示すとともに、次のように語り、セッションを締めた。
「展開してからまだ1年ほどの分析基盤のため、まだまだ事例は少ないのですが、アップデートしながら普及を進めることで、事例を増やしていきたいと考えています」(渡邊氏)
リクルートのデータマネジメント組織に求められてきたコト
株式会社リクルート
プロダクト統括本部 プロダクト開発統括室 データ推進室
SaaS領域データソリューションユニット SaaSデータソリューション部
SaaSデータマネジメントグループ グループマネジャー 林田 祐輝氏
続いて登壇したのは、リクルートの林田祐輝氏だ。林田氏はインターネットを活用した学習サービス「スタディサプリ」のデータ分析やデータマネジメントを経験。その後、まなび領域全体のデータ活用、データマネジメント両グループのマネージャーなどのキャリアを重ねてきた。
林田氏は、まず最初に国内外でさまざまな事業を手がけるリクルートにおいて、どれほどの規模のデータ活用が行われているのかについて触れた。さらに、Google BigQueryの年間クエリ実行数は約1800万、約4000人ものユーザーがクエリを実行しているというデータを紹介した。
さまざまな事業を展開していると述べたが、大きくは2つの領域に分かれる。スタディサプリなどの「販促ビジネス」、リクナビなどの「人材マッチングビジネス」だ。
どちらも人とサービスや企業をつなげるという点で共通しており、いずれは展開しているサービスを有機的につなげ、生活やビジネスのあらゆるシーンでリクルートのサービスが貢献するエコシステムを目指している。
林田氏が所属するデータ推進室では、営業組織、プロダクト組織から上がってくるデータの利活用に関する要望や課題を聞き、検討しながら両組織に対してデータを使ったソリューションや環境の提供を行っている。
データ推進室は各組織を横断するかたちで位置しており、林田氏が所属するデータマネジメント部はその中心である。
「それぞれの組織で扱うデータ、事業課題が異なるため、データマネジメント部門も分けています。それが各データマネジメント部(DMG)です」(林田氏)
またリクルートでは、DMGが担当組織にデータを提供していくことを、「データ利活用のサプライチェーンと捉えている」と林田氏は語る。
実際にサプライチェーンのフロー図を示し、データの流れを説明した。具体的には下から上に上がっていく流れであり、トップは意思決定者やデータの利用者となる。
データウェアハウスへのデータの取り込みなどは他の部門が担当しており、DMGの役割は、以下スライドの赤枠で囲まれた領域になる。
具体的には、データウェアハウスに貯まったデータをどのように加工し、届けていくかであり、データマート、データカタログ、データポータルといった領域を整備し、最終的にBIやレポート、SQLを通して、データを意思決定者やデータ利用者に提供する。
このようにリクルートのデータマネジメント組織では、「データマネジメントや分析に必要な環境づくりがミッションである」と、林田氏は語る。また、データ利活用促進に向けた仕組みの導入・装着なども同じくミッションであり、同テーマについて詳しく解説していった。
まずはデータ文化の醸成について、次のように述べた。
「データ分析環境はただ使える状態にするだけではなく、継続的に正しく使えている状態を目指すことが非常に大事だと思っています。正しく使えていないと、意思決定が不安になり、信頼がおけないとデータの利用が止まってしまうからです」(林田氏)
実際、リクルートでは経営陣も含めてデータのニーズが高く、自らSQLを実行する役員もいるという。また、リクルートのデータ活用の特徴として、事業ドメインごとにデータ活用のステージが異なるという点も示した。
データ活用のステージとは「使える」「守る」「広げる」の3つだ。「使える」はそのまま、事業ニーズを満たすためにデータ環境を提供するフェーズだ。ここでは意思決定を止めないためにデリバリーが重視されるが、一方で信頼性の低いデータが横行するなどの課題も生じやすい。「実際、我々も課題を抱えていたことがありました」と、林田氏は振り返った。
そこで、次のステージ「守る」である。データの品質を担保するなど、ガバナンスの強化に努め、データマネジメント、Analytics Readyな環境の整備を行うことだ。
そしてガバナンスが強化された環境が整ったら、今度は「広げる」だ。クオリティとスピードを両立することである。誰でも容易に利用可能な環境を作っていくことを目指す。まさに林田氏が掲げたミッション「データ利活用促進に向けた仕組みの導入・装着」である。
ただ、同ミッションを推進する上では、「大きく3つの課題がある」と、林田氏は語る。「利用できる状態を作る」「利用の不明点、負担を取り除く」「効率的な管理(属人化した運用をしない)」だ。林田氏は、具体的にどのように対応し、課題解決に臨んでいるか、合わせて紹介した。
「利用できる状態を作る」では、適切なアクセスコントロールやチュートリアル教育を行う。申請業務では各種ツールの申請を標準化するのはもちろん、リクルートでは他の事業部への異動が活発であることから、異動先でもデータがこれまで同様に使えるように、アカウントの権限管理や申請の標準化も行っている。
また、チュートリアル教育で実施する勉強会では、組織によりデータに関する知識や技術レベルが異なることから、参加者それぞれに適した学習内容になるように意識して工夫している。
具体的には、SQLのみを教える勉強会がある組織、模擬分析まで一貫してサポートする勉強会を行っている組織もある、といった具合だ。
続いては「利用の不明点、負担を取り除く」だ。データポータルやデータカタログを通じて情報を提供するとともに、個別の問い合わせにも対応している。さらに問い合わせ内容で得た情報を元に、定期的に対応方法などをアップデートしている。
そして3つ目は、「効率的な管理(属人化した運用をしない)」だ。それは、メタデータの活用やSQLの保存である。SQLの保存においては、担当者が異動したり、退職したりした場合でも、クエリはしっかりと組織に残しておくための取り組みだ。実際、担当者がいなくなったクエリの要望もあるという。
なお、データの利活用は組織により異なる。そのため、これまで紹介してきたようなDMGの取り組みも差分が出てくる。そこでDMGでは情報や事例を部門全体で横展開することで、ナレッジの共有も行っている。
林田氏は、改めてリクルートのDMGの取り組みをまとめた上記スライドを示すとともに、次のように述べ、セッションを締めた。
「リクルートの事業成長をデータ活用で支えるという根幹は変わりません。利用するツール、データ基盤、データ活用のフェーズなどはどんどん変化しており、我々に求められるミッションも、同じく変わっていきます。ただこのような環境だからこそ、楽しく刺激的な毎日になっているのだと思っています」(林田氏)
【Q&A】参加者からの質問に登壇者が回答
セッション後は、イベント参加者からの質問に登壇者が回答した。抜粋して紹介する。
Q.KNIMEの普及にあたり、工夫したことは?
渡邊:自然には普及しないので、二つの工夫をしました。一つ目は、最初から興味を持ってくれたユーザーと成功事例を作り、それを広めていったことです。もう一つは、KNIMEの講座をいきなり開くのではなく、もっと前段階で開く。データサイエンス入門といった初歩の講座を開くなどして、段階的にデータ分析の有効性を伝えていきました。
Q.同じノーコードのデータ分析ツールであるLooker Studioではなく、KNIMEを選んだ理由とは?
渡邊:可視化という観点からすると、Looker StudioやPower BIといったツールの方が使いやすいと思いますし、シンプルなBIを作る際には、私たちもこれらのツールを推奨しています。一方で、Looker Studioでは文字入力の保存ができないなど、複雑なシステムを作ることができません。そのような理由から、KNIMEを選びました。
Q.AWSではなくGoogle Cloudを選んだ理由は?
佐々木(ヤマハ発動機):BigQueryであれば、利用状況においてスケールしていくので、スモールスタートした際に、コストが抑えられると考えたからです。また、フルマネージドサービスであったため、我々の負担が抑えられることもポイントでした。
Q.データの民主化により得られた成果とは?
新庄(ヤマハ発動機):製造現場では不良率の改善や地球環境への配慮から、エンジンの燃費を高めたりもしています。また、お客様が興奮するシーンは何によって興奮するのかを調べたりなどの研究をしている人もいますね。
Q.データの民主化の本当の意味とは何か。一部のユーザーのために高度なツールを入れた方が、メリットが大きいのではないか?
林田:全社員がデータ活用できるようになれば意味はあるかと思いますが、コストメリットなど考えると、ご指摘のとおりだと思います。データを利用している方の解像度を高めることが、参考になると考えています。
柚山(サイバーエージェント):全社員がBIツールを使えるのは、現実的ではありません。一方で、データを活用することで、意思決定やプロジェクトの進行が速くなるなどのメリットがあるので、取り組むべき内容であり、そのような文化を根付かせることも大事だと考えています。LLMの活発化など、データを触る難易度が下がっていたりすることにも期待しています。
Q.どのようなスキルを持つ人がデータ分析を担当しているのか。また、スキルアップのための研修や育成はどのように行っているのか
新庄:当社では、手上げ制度で担当者を決めています。研修についても同様で、約1万2000人いる社員の内、約2400人が受講しています。当初は入門編と称してオンラインで座学を行っていましたが、今はしていません。自分の業務に直結せず使えないという意見が聞かれたからです。
そこで現在は、例えば製造で実際に使っている生データを使うことで、身に付きやすい研修を意識しています。また、研修終了後には現場でも実施しています。これらの結果、データサイエンス協会のリテラシーレベルにおいて、見習いレベルに該当する社員が400人ほど生まれています。
林田:SQLを打っているだけでは、課題解決に繋がらないと感じたため、分析まで行えるスキルが身に付く研修を実施しています。私たちも実際に現場の課題や仮説を挙げて、データ推進室のメンバーが壁打ちを行う、3カ月ほど伴走するなど、リッチなプログラムを用意しています。
柚山:エンジニアリング未経験の人も多いので、まずは2カ月ほど実案件も含めた研修を実施します。その後は、OJTとなります。SQLやBIについては、データの奥にあるドメイン知識に興味がある人、 ExcelのPivotやVlookup機能を使って集計したデータを元に、社内・社外問わず提案経験がある人の習得スピードが早いと感じています。
Q.キーパーソンの巻き込みについてはどうしているのか
林田:非常に重要だと考えています。実際、データを一番使う組織のマネージャーに協力してもらっています。具体的には、データを活用することで、どのような効果が出るのか、取り組む目的意識を持ってもらうようにしています。