データサイエンティストが抑えておくべき「データエンジニアリング」 ──データ利活用のプロセス・基盤構築のポイント・事例紹介

イベント 公開日:
ブックマーク
データサイエンティストが抑えておくべき「データエンジニアリング」 ──データ利活用のプロセス・基盤構築のポイント・事例紹介
データの利活用をビジネスに反映する動きが加速している。一方で、構築したデータ基盤が適しておらず、望む成果が得られていないケースも少なくない。企業の課題にマッチしたデータ基盤はどのように構築すればよいのか。流通や製造、金融など、幅広い業界で50社以上のデータ利活用プロジェクトに携わってきたJSOLの角野雄治氏に語ってもらった。

アーカイブ動画

様々な業界のDXを推進。上流から開発、運用・保守まで担う

角野様
株式会社JSOL 法人ビジネスイノベーション事業本部
CRM&ビジネスアナリティクス第二部 第三課長 角野 雄治氏

今回登壇した角野氏は、2002年にJSOLの前身である日本総合研究所に入社。SEとして流通、小売、製造、金融といった様々な業界のシステムやサイトの構築に携わってきた。これはJSOL自体の特徴にも重なるが、担当領域も上流から開発、運用・保守と幅広く、顧客案件だけでなく社内のシステム開発にも従事している。

近年ではクラウドベースのデータプラットフォームである、Snowflakeを活用したデータ基盤の構築に多く携わっており、担当案件の約8割にもおよぶ。2022年6月にラスベガスで開催された、Snowflakeのフォーラムにも参加。データ利活用基盤の提案や導入リーダーとして活躍している。

1-1

データ利活用の課題、データ基盤に求められる3つ要件とは

企業や社会の成長性において、データの利活用が必要不可欠なことは認識されてきたが、実際にはなかなか成功していないのが現状だ。角野氏はデータの利活用が進んでいない状況を「データ利活用基盤がそもそも整備されていない」「整備されているがうまくいっていない」ケースに分け、その理由を以下のように挙げている。

1-2

これらの課題を解決するために、データ利活用基盤に求められる要件があると角野氏。顧客によって要件は変わってくるが、「スモールスタート」「拡張性」「接続性」の3点は共通していると語る。

「まずはスモールスタート。初期費用を抑えて始めることが大事です。そして、そこからいかに拡張していけるか。これらを本来の目的である分析にしっかりと時間をかけることがポイント。そのためにクラウドサービスの利用は不可欠だと考えています」(角野氏)

また、社内外の様々なシステムやサービスとの接続性も重要な要件。当然、セキュリティに配慮する必要がある。

1-3

「貯める」「加工する」など重要な6つのプロセス

一例として、角野氏が考えるデータ利活用基盤の基本構成も紹介された。

「重要なのは、顧客の要件に合わせて、最適なソリューションを選ぶこと。言い方を変えると優れているソリューションであっても、お客様や課題によっては価値を生まないことがあります」(角野氏)

現時点でやりたいことが明確でなくても、「将来何をしたいのか」「データをどのようなシーンで活かしたいと考えているのか」など、先のことを考えた上で設計する意識も重要だと語った。

2-1

角野氏は、基盤構築において以下6つのプロセスを意識することが重要であるとし、それぞれ詳しく解説を行った。

・重要な6つのプロセス

  1. 集める
  2. 貯める
  3. 加工する
  4. 見える化する
  5. 分析~活用
  6. 定着

ポイント1:まずは、「集めて貯める」ことが大事

まずはスモールスタートの思考で、とにかくデータを集めることが重要だ。その上でPoV(Proof of Value)を進めていき、可能性のある箇所を拡張していく。

だが、やみくもにデータを集めればよいわけではない。何を分析したいのか、方針に沿ったデータを集めることも重要であり、必要ないデータは集めても意味がない。

角野氏は「集める」「貯める」フェーズにおいて、意識すべきキーワードも紹介した。 例えば、データは未加工の生データで集めること。以前は、ETL(Extract/抽出、Transform/変換、Load/書き出し)、つまり加工(変換)してから貯める方法が主流だったが、現在では加工は後で行うELTが一般的なのだという。

また、扱うデータは多岐にわたるため、集める工程をそれぞれ開発していくとコストがかかる。汎用・ツール化しておくこともポイントだ。

2-2

ポイント2:利用目的や役割分担を明確にした上で、加工する

「加工」フェーズは時間も手間もかかるプロセスではあるが、「最も重要だ」と角野氏は強調する。ポイントは「利用目的、役割分担を明確にする」ことだと角野氏は言う。

利用目的がわかれば、後工程のBI・分析ツールも絞られていくため、見合ったデータに加工すればいいというロジックである。役割分担も同様に「線引きすること」が重要だ。

「DWH(データウェアハウス)内で加工するのか。あるいは後工程、データを使用する人が加工を担うのか。使う側ですべて加工することが理想です」(角野氏)

過度な汎用化や加工はその後の手間が発生するため、柔軟性を持たせることも重要だ。フォーマットや名称の統一、アクセス制限やマスキングといったセキュアな業務も、フロー、DWH内で設定していくことがポイントだという。

2-3

ポイント3:見える化・分析フェーズはPDCAを繰り返す

見える化・分析フェーズは、データサイエンティストが行う業務であり、ビジネスで活用を行った後、しっかりと分析結果を評価し、基盤にフィードバックする。

分析においては幅広く浅く行うよりも、ターゲットを絞り、深く、しっかりと分析することが必要だ。フィードバックの結果、データの種類を増やしたり、分析方法を変えるなどの改善を行う。これら一連のPDCAサイクルを回すことが重要となる。

2-4

ポイント4:強い意志と的確なサポートで定着させる

最後のフェーズである定着について、JSOLでは特にサポート業務に注力しているという。

「最終的に判断するのは人ですから、利用する人をSE、DS(データサイエンティスト)が協力して、サポートすることが重要であり、場合によっては組織の体制や意識改革も必要です」(角野氏)

レポート作成の相談や支援、繰り返しになるが企業文化の醸成などにも関わる。同サービスは「データコンシェルジュサービス」との名称にもなっている。

2-5

Snowflakeを活用したグローバルで展開する製薬会社の事例

続いては、なぜ角野氏がSnowflakeをすすめているのか、実際のプロジェクトをもとに紹介された。

顧客はグローバルに展開する製薬会社。これまでDWHはSQL Serverを使っていたが、「基幹システムの刷新に伴いDWHも刷新したい。刷新するのであれば、クラウドサービスに移行したい」という要望があった。

さらに、「現行のBIツールは引き続き使いたい。まずは国内の一部のDWHを構築した上で随時展開し、いずれはグローバルにも展開できる基盤にしていきたい」との要望もあったという。

Snowflakeの特徴は大きく以下の3つ。まさにデータ利活用基盤で重要な要件と重なる。

  • 完全従量課金(スモールスタート)
  • マルチクラスタによる高速処理(拡張性・柔軟性)
  • データシェアリング(接続性)


3-1

利用料金は使用しているストレージの量、コンピュータの稼働時間で決まり、秒単位となっている。データ処理においては、ストレージと処理領域(コンピュート)が完全に分離しており、それぞれのタスクにより最適なウェアハウス(CPUに該当)を割り当てることができる。

また、処理時間が多いタスクにはスペックの高いウェアハウス、負荷の低いタスクには見合ったウェアハウスといった調整が可能だ。ストレージは無制限のため、拡張時の手間も発生しない。

「特に強みだと考えているのが、データシェアリングです。社外、マーケットプレイスのデータを自社に取り込み、分析に使うことができます。他のSnowflakeとやり取りすることで、気象や人流といった情報を簡便かつセキュアに利用することができます」(角野氏)

角野氏は、これまでSnowflakeを使って実感した利点を機能・運用両面で細かく紹介した。 例えば機能面では、「自由にウエアハウスを作成し、サイズ変更が容易」「システム停止なしでサイズ変更が可能」。運用面では、「使った分だけ払えばよい課金体系」「ストレージは無制限に拡張されるので運用不要」などである。

一方で、従量課金においては「使い過ぎることがない」と説明しながらも、導入時ではどれほどかかるかの予測が難しいため、年間予算から割り当てることが難しい点があることも補足した。

さらに、Snowflakeを活用して構築した事例のシステムや工程表も紹介された。一般的には1カ月もあれば、とりあえずスタート状態となるスピード感で構築できるという。

3-2

最後に角野氏は、データ利活用を成功させるためのポイントをまとめとして紹介した。今後の展望を次のように語り、セッションを締めた。

「ベンダーが単独でデータを利活用し、システム基盤を構築するだけでは、顧客のニーズに応えることは難しい。様々なベンダーや外部のパートナーと協力、コラボレーションすることで、新たなインサイトを獲得していきたいと考えています。個人的な活動としては、Snowflakeのようなより良いデータ利活用基盤の活用や構築が推進していこうと思います」(角野氏)

3-3

【Q&A】参加者からの質問に答えるセッション

セッションの後は、視聴者からの質問に答えるQ&Aセッションも設けられた。専門的な内容も含め、多くの質問があがり盛り上がった。その一部を紹介する。

Q.必要ないデータはどのように規定しているのか

将来的に使う可能性も考えると難しいと言えますが、まずは使うデータからピックアップして、貯めていく考えで進めています。

Q.社外データの活用状況、具体的なデータ例について

POSなどの購買データ、医療分野であれば薬局や病院のデータ、電気、人流などのデータが利活用できると考えています。

Q.角野さんが考えるデータドリブンな組織とは

顧客規模や実現したいことにより、いくつかあると考えています。例えば、DX推進部隊を部門ごとに設けて、率先していく方法。各事業部にデータの利活用を推進するキーマンを任命し、その人物が引っ張っていく。さらには、横串連携で他部署ともつながっていく。後者の方が、浸透も含めて進めやすいでしょう。

Q.BIの使い分けについて

私たちから、特定のツールをすすめることはありません。インメモリの仕組み、ライセンスの課金体系、一部の人が深く分析するのか、全社的に広く配るのかなど。コストと機能のバランスを検討した上で複数提示し、お客様に判断してもらっています。

Q.利用の定着で実際に行ったポイントや施策

今回紹介したデータコンシェルジュサービスでは、コールセンターを立ち上げ、そこでデータの理活用に関する問い合わせに応えています。また、利用者によりスキルやデータに対する動きが異なるため、定期的な教育やワークショップなども実施し、ユーザーにより多く触れてもらうことを意識しています。

Q.ELTはどのようなツールを使っているか

DataSpider、Talendを使うことがほとんどです。ただ、S3までデータを持ってくるまでに留めていて、そこからの先の取り込みはSnowpipeや、COPY INTOといったコマンドを使うことも多いです。

Q.誰でもデータ分析ができるようになると、分析結果が飛び交うなどの問題が生じる。どのように整理していけばよいか

レポートを作る権限を皆に与えた結果、同じようなレポートがあふれるといった経験を私たちもしています。データの民主化が謳われていますが、各部門の推進者が整理するなど、運用や共有ルールを決めていくことが必要だと思います。

Q.S3に一度データを貯めておく理由とは

内部ストレージに入れることはできますが、Snowflakeの構成として、外部ストレージを置くことがベースになっているからです。メリット(理由)としては、現状としてS3にデータを置いているのであれば、そこからSnowflakeに引き込め、POCにすぐに移行できます。

Q.トランザクションアプリのデータもSnowflakeで扱った方がよいか

Snowflakeでは、トランザクションデータも扱える世界の実現を目指していて、Unistoreという機能があります。一箇所にデータを集めることができるからこそ単なるDWHではなく、プラットフォームと呼ばれているのだと思っています。

Q.データシェアリング機能のデメリットや問題点について

私たちがSnowflakeを扱い始めて2年経ちますが、問題は起きていないように感じます。日本でデータシェアリングはまだこれからですが、利用者が増えるほどメリットは拡大していくと考えています。

株式会社JSOL
https://www.jsol.co.jp/
株式会社JSOLの採用情報
https://career-jsol-recruit.com/

テクノロジーと共に成長しよう、
活躍しよう。

TECH PLAYに登録すると、
スキルアップやキャリアアップのための
情報がもっと簡単に見つけられます。

面白そうなイベントを見つけたら
積極的に参加してみましょう。
ログインはこちら

タグからイベントをさがす