アーカイブ動画
「データマネジメントの勘所」を通じて、データマネジメントの価値向上に寄与
株式会社primeNumber
プロダクト開発本部 プロダクトマネージャー 鳩 洋子氏
『データマネジメントの勘所』の第6弾となる今回のテーマは、「データ可視化」である。本イベントは、各種データマネジメントの支援を手がける、primeNumberが主催している。
primeNumberでは、データの統合を主にサポートするクラウドETL「TROCCO」を筆頭に、データを可視化・分析・活用するプロセスでは、データカタログサービスの「COMETA」や、データ活用支援サービスの「TROCCO ACTION」も提供。データ利活用のプロセスを一気通貫でサポートする。
業界や業種はもちろん、大企業からスタートアップも問わず、TROCCOは本記事発表時点で2000を超える企業や団体で利用されている。
一方で、当日のファシリテーターも務めたTROCCOのプロダクトマネージャーである鳩洋子氏は、単にツールを提供するだけでは不十分であると語る。
「実際にツールをどのように有効活用するのか、組織づくりはどうすればよいのかなど、課題は多いと考えています」(鳩氏)
このように述べると共に、なぜ本イベントを開催し続けているのか、その理由も合わせて語った。
「データマネジメントに最適解はなく、企業や状況、技術の進歩により、日々変わりゆくものだと思っています。企業が実際に、どうデータマネジメントに向き合っているのか。技術スタックだけではなく、現場の試行錯誤や苦労、今後の展望といったリアルな話をお聞きし共有し合うことで、これからのデータマネジメントの知見共有、価値向上につなげていきたいと考えています」(鳩氏)
意思決定のスループットを向上!日経が挑戦する「逆算のデータ可視化」
株式会社日本経済新聞社
プラットフォーム推進室 データインテリジェンスグループ
部長 佐野 玄氏
株式会社日本経済新聞社
プラットフォーム推進室 データインテリジェンスグループ
データテクノロジスト 萩原 匡侑氏
最初に登壇したのは、日本経済新聞社(以下、日経)の佐野玄氏と萩原匡侑氏だ。デジタルマーケティングSaaSのプリセールスや、ソリューションアーキテクトといったポジションでキャリアを重ねてきた佐野氏。2020年に日経に入社し、現在はデータ部門のマネージャーを務める。
萩原氏はECサイトの運営やデータ分析、マーケティングなど幅広い業務に携わった後、2022年に日経に入社。現在は内製データ基盤「Atlas」の、データエンジニアリングやELT開発などを担当している。
佐野氏はまず、データ可視化のビジネス要件として「レイテンシー」「スループット」と2つの指標を挙げた。レイテンシーは何らかの事象が発生してからデータ化され、分析・可視化可能になるまでの時差を指す。
スループットはその先、分析・可視化されたデータの解釈から打ち手の実行までを含めた所要時間ならびに、時間あたりに実行できる打ち手の数である。佐野氏は、「スループットが高まることは速く変化を察知し、鮮度の高い情報を元により多くの意思決定、施策ができる状態だということです」と、説明した。
日経はメディアを包括する「News&Insights」など、4つの事業ドメインから構成されている。2人が所属するプラットフォーム推進室 データインテリジェンスグループは、これら4つの事業ドメインや、それぞれのサービスなどで使っている各種IDや生じるデータなどを、事業部横断の共通データ基盤で管理や推進する役割を担う。
日経IDを採用するサービスの数は4つの事業ドメイン全体で90を超え、登録会員数は1000万人以上。毎日1億6000万行を超えるログがデータ基盤に集まり、主なデータウェアハウスのテーブル数は2000を超える。
大きいのは発生するデータのボリュームだけではない。90を超える日経ID採用サービスに関連する多種多様なデータ利用者の存在も、日経ならではと言えるだろう。
広告やマーケティングで利用するメンバーの他、読者に読まれる記事を作成するために利用する、編集(記者をはじめとする執筆・編集部門)のメンバーなども「データ消費者」である。
端的に述べれば、大きなデータの発生源ならびに、多種多様なデータ利用者がいる状態であり、「巨大なデータは重力を持つようになります」と、佐野氏は表現する。
以下のスライドが示すように、より大きなデータの元に小さなデータが吸い寄せられるように、さらに集まってくる状態であるという。
「いくつもの独立したデータウェアハウスを管理するよりも、 1つの環境に相乗りする方がインフラもオペレーションもコスト効率が高くなります。そしてこのよう状態では、冒頭で述べたデータのレイテンシーも短くなります」(佐野氏)
多種多様な部門やサービスから大量に発生したデータを統合しているのが、内製開発のデータ基盤「Atlas」である。
記者や編集者がタイムリーなデータを欲しがるなど、「利用者により機能要件と性能要件は異なりますが、この要件を満たしながら素早くインサイトを届けることが我々に求められていることでもあります」と、佐野氏は語る。
一方で「実現は簡単ではない」と指摘し、先述したデータの多様性、ステークホルダー、セキュリティなどの課題に取り組んでいると続けた。
課題解決に向けては、万能型の単一システムを採用するのではなく、それぞれのユーザーにベストなツールや環境を提供する、Bespokeのアプローチを取っている。
具体的には、それぞれの利用者のレベルや要件に合わせたツールを用意しており、「ツールを絞ると、学習コストがかかるためです」と、理由も説明した。
実際にそれぞれのユーザー層が利用しているツールも紹介された。技術に詳しいデータサイエンティストやデータアナリストは、Google ColabやRedashを活用している。
対して、記者や編集者は、簡単に操作が行えるダッシュボード「DataSquad」を利用といった具合だ。ちなみにDataSquadは、日経が内製開発したツールである。
Bespokeなアプローチは可視化ツールだけではない。データベースでも同じだ。「1つのデータベースでリアルタイム性、データ量、柔軟性をすべて兼ね備えることは技術的に難しく、できたとしてもお金で解決する形になってしまうからです」。
こちらも、3つのデータベースを使い分けている理由と合わせて語られた。
このようにデータを使いやすい環境を整備する一方、研修プログラムやSlackのチャンネルを活用し、データに触れる機会の創出などを通じて、データスキルの高い人材育成も行っている。
ここからは、萩原氏にバトンタッチされ、データ可視化ツールは、どのように使い分けられているのか、Redash、Tableau、DataSquadを例に詳しく紹介された。
まずは、Redashについて説明された。最も長く社内で利用されてきた可視化ツールの一つであり、現在の利用者は600名以上となる。
利用者の入れ替わりも多いため、運用コストが増大しないように、AWS環境にセルフホストするなどの手を加えている。
SQLの知識が少なくても、Redashは利用したいといったユーザーに対して、プログラムの他チュートリアル教材を使った講座や、気軽に質問できるSlackのチャンネルなども用意している。
Tableauは、高いデザイン性や表現力が特徴で、経営幹部などが主に利用している。また、ライセンス費用の抑制を考慮し、利用目的と実際のオペレーション内容を吟味した上で、適切なロールを必要な分だけ用意して提供する形で運用していることが多い。
DataSquadは前述通り、分単位の速報性の高いデータを可視化することで、アップした記事がどれだけ評価されているのか、トップページに掲載する記事の判断材料としての役割も担う。
日経ではDataSquad以外にも、内製開発しているダッシュボードが複数あり、「ニーズに合わせて適材適所なツールを運用し、現場で利用していただいているのが現状です」と、Bespokeなアプローチを徹底していることを、萩原氏も繰り返した。
続いては、実際の現場での利用シーンや、その際にデータマネジメントをどのように工夫しているかについて紹介された。まずは、集客目的でGoogleやYahoo!の広告サービスなどを利用して、キャンペーンを実施するケースだ。
広告サービス主から得た行動記録データ(トラッキングコード)を、利用目的によってBigQueryとRedash、ElastichsearchとKibanaといった具合に、蓄積ならびに可視化を分けることで、ニーズに応じた可視化やスピード感を実現している。
日経では、1日に数百から1000件を超える新規記事の公開や、既存記事の更新がある。つまり、頻繁にデータが更新される状況であり、当然ユーザーには更新後の分析を行いたいというニーズがある。
一方で、集計の都度、データをJOINしていては計算コストと待ち時間がかかることは明白だ。そこで、Enrichment処理を挟むことで、あらかじめ拡張処理(Pre-JOIN)したデータを持つことで、高価なコンピューティングリソースやユーザーの待ち時間の負担軽減を、相対的に安価なストレージコストに投資することで解決している。
同処理を挟むことで「行動ログのデータのテーブル単体で分析が可能になるケースもあります」と、萩原氏は取り組みの成果を語った。
MarketoやSalesforceなどの外部ツール由来のデータを取り込み、複数のデータを統合したり、並べて確認したいニーズもある。このようなケースの場合、Airflowを活用し、データ連携を実装している。
合わせて、開発や運用コストの低減を目的に、2024年からTROCCOを導入。「プリセットで利用できるコネクタが豊富にあるなど、ゼロベースでの開発が避けられることが大きい」と、萩原氏は導入理由と利点を述べた。
既存のサードパーティツールを外部調達するのか、あるいは新たに内製開発するのかについても言及した。判断基準となるパラメータはいくつかある。
だが、内製開発した方がメリットもあるという判断が大きく、具体的にはこれまで何度も出てきた「スピード」を挙げた。一方で、スピードは満たしていてもコスト面から内製開発するケースもあるという。
最後は再び佐野氏が登壇し、どんなアクション(判断)のために、どのような意思決定をするのか。その意思決定に必要な情報などについて語った。
その情報を最速で分析・可視化するには、どのようなツールや組織体制を整備すればよいか、「理想状態から逆算して考えることが大事だと考えています」と述べ、以下の3つのポイントを挙げ、セッションを締めた。
1. 目的に応じたDBとBIを整備する
2. ツールだけではなく、ヒト面も同時に育成する
3. データが扱えるようになるまでのタイムラグを最小にする
価値を出すデータ可視化のために。ビジネス側とエンジニア側の垣根のないデータドリブン文化作り
アソビュー株式会社
技術戦略部データ基盤チーム 霧生 隼稀氏
続いて登壇したのは、アソビューの霧生隼稀氏だ。バックエンドエンジニアとしてキャリアをスタートさせた霧生氏は、2019年にSREエンジニアとしてアソビューにジョイン。その後、データ基盤チームを立ち上げ、現在はチームリーダーとしてデータ分析基盤の構築などを担当する。
「生きるに、遊びを。」というミッションを掲げるアソビューでは、日本最大級の遊び予約サイト「アソビュー!」を運営する。さらに、ふるさと納税関連のサービスや、パートナーの業務支援を行うDXソリューションなども提供している。
会員数は1000万人を超え、契約施設数は1万以上、データ基盤の規模は分析利用テーブル数が約100といった規模を誇る。
アソビューが本格的にデータ基盤の構築に取り組むようになったのは、新型コロナウイルスの影響が落ち着いた2022年からだ。霧生氏がリーダーを務める専任チームも立ち上げ、現在もアーキテクチャの見直しなどを行っている。
霧生氏は、データ基盤を構築する上で大事にしていた2つのキーワード「事業価値」「構築スピード」を挙げ、それぞれ詳しく紹介していった。
まずは、事業価値について、「意識しないと、データ基盤を構築することが目的となってしまいがちだからです」と、霧生氏は語る。
単にデータを収集したり、分析したりしているだけとなり、日々の業務におけるインパクトはもちろん、事業価値を生み出すことが難しいのは言うまでもない。
構築スピードは速いことが望ましい。そこでアソビューでは、GA4(Google Analytics 4)のデータなど、既にあるデータを活用できるBigQueryを採用することとした。
TROCCOを採用したのも、日本企業向けの豊富なコネクタやサポートが充実していたからだ。
データ基盤のアーキテクチャも紹介された。Google Analyticsなどから上がったデータがTROCCOにより統合され、BigQueryのデータレイクならびにデータマートを通過し、Tableauで可視化されるという流れだ。
現在では多いときに1日約600ビューの分析が行われ、アクティブユーザーは週間で100人以上。「データ基盤として着実に成長していると感じています」と、霧生氏は成果と手応えを述べた。
ここからは改めて、冒頭で紹介したデータ基盤を構築する上で重視した2つのキーワードを推進してきた取り組みを深堀りした。
まずは、構築スピードについて、データ基盤がない状態でもスプレッドシートのデータなどは「企業はどこかで必ずデータを見ているはずです」と、霧生氏は指摘する。
そのような先人が作ってきた、見てきたデータを“秘伝のタレ”と称し、この秘伝のタレを構築するデータ基盤でも見られるようにすることが第一歩だと、述べた。
専任チームを作ることも重要だという。というのも、既に秘伝のタレとしてデータは見ていて、それなりに活用はできているため、兼務など片手間でデータ基盤の構築を行うと、次第に優先度が下がってくるからだ。
「実際、アソビューでも2022年に専任チームをつくり、データ基盤の構築にお金と工数もかけるという意思決定を明確にしてから、データ基盤の構築が本格化しました」(霧生氏)
3つ目は「開発はできるだけしない」である。BigQueryやTROCCOといった既存のツールや環境をうまく活用し、構築にかかるコストよりも構築したデータ基盤が生み出す価値が上回る状況を早い段階から実現することが重要だからだと、理由も合わせて述べた。
事業価値については、「経営陣を巻き込む」「分析者と一緒に要件定義を行う」というポイントを挙げた。前者においては意思決定のスピードが高まるのはもちろん、本質的に見たいデータやプロダクトの進むべき方向を確認することができるからだと述べた。
一方、「分析者」と一緒に要件定義を行う工程では、データエンジニアと分析者がプロジェクトを組み、定例ミーティングなどを実施し、その中で要件の洗い出しなどを行っている。
このように環境を整備し、場を設けることで、両者で異なる言葉の理解や指標をすり合わせたり、特定の相談に対応できたりするからだ。そして、次のように語った。
「データエンジニアがビジネス課題を理解した上で、分析者と要件を決めることが、結果としてデータ活用でビジネスをグロースさせるという、共通目標の実現ならびに事業価値の創出につながると考えています」(霧生氏)
続いては、可視化ツールについて紹介された。先述した通り、Tableauを利用しているが、「多機能であり、ビジュアルが美しい」など、採用理由を改めて述べた。
またアソビューでは、Tableauが行っている認定プログラム「DATA Saber」への取り組みも注力しており、霧生氏も含め8名が認定を受け、現在4名が挑戦中だという。
さらには、DATA Saberに関わるメンバーが社内でコミュニティを形成し、活動内容や知見の共有も行っている。
社内コミュニティでは、エンジニア・活用側両方の主要メンバーが集まることで、新たな施策の提案などを行い、データ基盤の成長はもちろん、さらなる事業価値が生まれていることも紹介された。
そしてこのような環境や取り組みは、「Tableauが提唱しているデータに関わる人材でPDCAを回すことである」と、霧生氏は補足した。
霧生氏はデータ基盤の構築ならびにデータの可視化により、事業価値を生んだ事例を挙げた後、次のように今後の展望を述べてセッションを締めた。
「利用者が増えてきたので、アーキテクチャはもちろん、DATA Saberの増加も含め、組織や文化面での見直しを考えています。また、ダッシュボードの増加に伴う課題も生じてきたので、こちらもデータエンジニアと分析者両方で協力しながら、見直しを推進していきます」(霧生氏)
TROCCOを利用したデータ可視化の実現方法
株式会社primeNumber
プロダクト開発本部 プロダクト企画室
プロダクトマーケティングマネージャー 鈴木 大介氏
続いて、主催社であるprimeNumberから、鈴木大介氏が登壇。鈴木氏は、顧客向けのデータ基盤構築から、データ活用支援、さらには運用改善プロジェクトを担当したあと、プロダクトマーケティングマネージャーを務めている。
鈴木氏は、TROCCOを活用すればデータ基盤の構築や運用はスムーズに行えるが、「作成したダッシュボードが使われない」といった問題が起こり得ると指摘。どのように解決すればよいかを解説した。
まずはデータ基盤構築も含め、なぜデータを可視化したいのか、目的を整理することが大切だと鈴木氏は述べた。TROCCOなどのツールを使ってデータを可視化するのは、何らかの目的を実現するための手段でしかないからだ。
目的の整理においては「誰が・いつ・どこで・何を見て」といったコンテキストから、アウトプット(行動)、アウトカム(成果)といった一連の流れを、予め設計しておくことが重要だ。
行動においては「頻度」「抽象度」といった観点を意識する。可視化のニーズが一度だけなのか、それとも定期的に観測するのか。後者であれば、ダッシュボードが必要だと判断することになる。
実際にダッシュボードを作成するとなったときの進め方は、以下スライドで示したように、既存サービスのネイティブ機能を利用することをはじめ、3つの方法がある。
それぞれのメリット・デメリットも解説された。TROCCOは一番右側の方法に属し、可視化するデータの土台となるデータ基盤の構築/運用で活用する。
鈴木氏は実際にデータの取得から可視化まで、一連のプロセスにおけるTROCCOが寄与する役割も紹介した。
さらには実際にGoogleやYahoo!の広告サービスから、SnowflakeとLooker Studioを使ってデータを可視化し、広告効果を最適化したいケースについても解説を行った。
このようなシーンでTROCCOをどのように活用できるのか、TROCCOのダッシュボードやワークフロー画面を示しながら、続けて説明。GUIベースで簡単にデータの転送から加工、可視化までの流れが構築できることを解説した。
ダッシュボードの良し悪しや利用状況などについて語り合う
それぞれの登壇セッションが終わった後は、改めてデータ基盤ならびに可視化について、鳩氏がファシリテーターを務め、クロストークが行われた。
●よく使われる、逆にあまり使われないダッシュボードそれぞれの特徴
佐野:誰が何のために使うかなど、目的が明確であり、かつ、管理が行き届いているダッシュボードがよく使われていると思います。
逆にレポートの延長線上で、思いつきでゴテゴテに盛られたようなダッシュボードは、何を見たらよいかも分からないため、次第に管理も行き届かず、いつの間にか使われないようになっていますよね。
霧生:私も目的が大事だと思います。例えばレポート目的なのか、それともデータ取得から何かを探索したいのか。それぞれで目的、可視化したい内容やユーザー数も異なるからです。
鳩:ダッシュボードは数多くありますよね。分けるTipsなどはありますか?
霧生:DATA Saberではまさにそのような内容も勉強します。また、BIツールが出している公式ドキュメントでも、ベストプラクティスなども配布しているので、確認するのも手でしょう。さらに最近気になったのは、デジタル庁が出したガイドライン(※)です。ぜひ、参考にしていただければ、と思います。
※ガイドライン(デジタル庁):ダッシュボードデザインの実践ガイドブックとチャート・コンポーネントライブラリ(ベータ版)
佐野:私たちもガイドラインを見て、いいなと思いました。注目もされていましたよね。
●ダッシュボードの利用状況、どうやって把握しているのか?
霧生:Tableauはアクセスログのような機能が標準装備されているので、その機能を利用しています。一方でモニタリングは非常に重要だと思っているので、今後は項目を増やしていきたいと考えています。
鳩:人数なのか、頻度なのか、など。重きを置いている項目についても聞かせてください。
霧生:どちらも大事だと考えています。特に利用者が多いダッシュボードは、全社的に必要だということだからです。ただ、どちらを優先するかという観点はあると思います。
萩原:日経には複数のBI・可視化ツールがあり、管理のレベルがかなり違うと感じています。例えば、Data Squadであれば全てのページのアクセス状況や、各機能の活用状況が蓄積される仕組みが備わっています。
そして、そのようなデータを分析しData Squadをより良くするにはどうしたらよいのか。判断材料ならびに、プロダクトマネジメントの文脈でも活用しています。
一方で、Redashなどではそこまで細かく追っておらず、そのことが課題にもなっています。それぞれ自由に使ってもらう状況ではありますが、長期間利用していないユーザーに関しては定期的に棚卸しを行い、アカウントを整理する。そのような工夫は行っています。
●改善プロセスとして取り組んでいる工夫
佐野:Redashのように弊社ないで多くの人が利用している既製品のツールは可視化機能が固定されていて工夫の余地がなく、そもそも極論してしまうとバーチャートで十分だと考えています。
対して内製開発しているツールでは、アナリストがプロダクトマネージャーのような位置付けで、どういう見せ方をしたらよいのかをゼロベースで考えています。
ドラフトを作成するなど、部門の枠にとらわれずエンジニアリングに近いところまで踏み込みますし、実際に開発サイドのエンジニアとの議論も毎週のミーティングで重ねています。
霧生:まだあまりできていない、というのが正直なところです。ただUXなど、インタラクティブ要素の向上においては、ダッシュボードを作成した分析者が取り組んでいます。
使われなくなったものを改善するのではなく、ゼロベースで棚卸しするべきかなど、プロダクトマネジメント手法なども活用し、改善を検討している段階です。