データ活用の強い味方「Databricks」で実現するデータ基盤構築、現場での活用ポイントや事例を解説

イベント 公開日:
ブックマーク
データ活用の強い味方「Databricks」で実現するデータ基盤構築、現場での活用ポイントや事例を解説
ビッグデータを扱うクラウド型分析プラットフォームとして、昨今注目を集める「Databricks」。Databricks活用のポイントや活用事例、ベストプラクティスについて、データブリックス・ジャパンのシニアソリューションアーキテクトである弥生隆明氏が解説。Databricksを顧客のDX化支援ソリューションとして提案するSky株式会社社員とのQ&Aセッションと合わせてレポートする。

アーカイブ動画

Databricksレイクハウスプラットフォームとは

データブリックス・ジャパン株式会社 弥生 隆明氏
データブリックス・ジャパン株式会社
Databricksシニアソリューションアーキテクト 弥生 隆明氏

弥生隆明氏は筑波大学大学院修了後、国内のエンタープライズ、ものづくり系企業でシステム開発や自然言語処理の研究開発に従事。海外赴任中にビッグデータソリューションの開発に携わり、外資系コンサルティングファームでデータ分析プロジェクトを経て、データブリックス・ジャパンにジョインした。

現在は、Databricksシニアソリューションアーキテクトとして、製薬・小売・製造業といった顧客企業を中心に、Databricks導入によるデータ活用やコスト削減といった支援業務を推進している。

データブリックスは、Apache SparkなどOSSの開発者たち複数名が2013年に創業したスタートアップであり、データレイクとデータウェアハウスを重ねた「レイクハウスカンパニー」を標榜しているのが特徴である。

Databricksを導入する企業数は1万社を超え、従業員数はグローバルで5000名以上、日本リージョンでは現在約1500名と、企業規模・サービスともに急成長中のデータ/AIのリードカンパニーだ。

データ活用の強い味方「Databricks」で実現するデータ基盤構築、現場での活用ポイントや事例を解説 スライド1

弥生氏は、デジタルトランスフォーメーション(以下、DX)の取り組みが思うように進まない企業を多く見てきたと語る。そこには「組織」「システム」「人」と大きく3つの領域でそれぞれ課題があり、Databricksが提供するデータレイクハウスの仕組み、サービスを活用すれば解決に導くことができると力強く話し、Databricksの機能について解説を行った。

データレイクハウスは、データレイク、データウェアハウスを重ねた言葉であるとともに、機能においてもそれぞれのメリットを取り込んだシステムである。データレイクはデータの種類、サイズ問わず何でも格納できるというメリットがある反面、視点を変えると雑多なデータが大量に蓄積されているため、必要なデータを瞬時に検索することが難しい。

このようなデメリットを、データウェアハウス(以下、DWH)と重ねることで解消している。その結果、ペタバイトオーダーのデータも一瞬で検索可能であり、実際、顧客の一つであるApple社は、不正アクセス検知をクイックに行う業務に、データレイクハウスを使っていると、弥生氏は語った。

データレイクでありながらも、DWHの機能であるBIダッシュボードの構築や、AI機械学習への取り組みなども行える。当然、データレイクが蓄積する非構造化データに加え、通常DWHが扱うテーブルデータなどの構造化データ、どちらも同じように扱える。

さらにはバッチデータだけでなく、エッジデバイスから飛んでくるリアルタイムストリーミングデータなども扱うことが可能だ。

データ活用の強い味方「Databricks」で実現するデータ基盤構築、現場での活用ポイントや事例を解説 スライド2

続いて弥生氏は、Databricksの簡単な構造と特徴を紹介した。クラウドに特化しているサービスであり、大手3社のクラウドサービスに対応している。創業者がOSSの開発者ということもあり、オープンソースの気風を好む会社・サービスである一方で、セキュリティ、マネジメント、ガバナンスといった点もしっかりと担保する構成となっている。

一般的なデータプラットフォームサービスを活用したデータ活用基盤では、ELT(抽出、書き込み、変換)といったデータ処理や、クレンジングを担うデータエンジニアがデータのフォーマットの領域によって変わっていくのが一般的だ。

対してDatabricksでは、あくまで扱うデータは一つだけである。各種データ関連のエンジニアやメンバーが、すべて共通のデータを扱う。特徴の一つでもある「シンプル」に対し、弥生氏は次のように語る。

「Single Source of Truth。信頼できる唯一の情報源ということになります」(弥生氏)

シンプルという特徴において、UIはGUIであり、Jupyter Notebookに近い。そのため「同サービスを使ったことがある人であれば、よりすぐに使えるようになります」と、弥生氏は補足した。

データ活用の強い味方「Databricks」で実現するデータ基盤構築、現場での活用ポイントや事例を解説 スライド3

特徴の二つ目は、「オープン」である。OSSであるためソースコードは基本、すべてGitHubで公開している。問題や課題が発生すると有志がクイックに解決してくれる、OSSならではのコミュニティもある。

APIも公開しているため、様々な関連ツールとの連携や統合といったエコシステムの構築においても、既存・従来のデータ資産ならびにツールを活用、流用することができる。

データ活用の強い味方「Databricks」で実現するデータ基盤構築、現場での活用ポイントや事例を解説 スライド4

最後の特徴は「コラボレーティブ」である。ソフトウェア開発においては、チーム間のやり取りをスムーズにさせる各種機能やツールが揃っている。そのデータ活用版と考えればよいだろう。

例えば、AIプロジェクトにおいて、メンバーの1人であるデータサイエンティストがノートブックでロジックを組んだとする。Databricksでは、モデル・ダッシュボード・データセットといった各種要素はすべてマルチユーザーでの共有を前提としているため、開発メンバーであれば誰でも共有でき、開発がスムーズに進むというわけだ。

データ利活用に携わる様々なポジションの人に価値ある機能を提供

データパイプラインの開発やETL処理、BIダッシュボードの作成なども、多様な職種における多くの取り組みにおいて、1つのデータを使ってDatabricks上ですべて実行できるようになっている。なお、ワークロードとはいわゆるジョブ、取り組みを意味する。

データ活用の強い味方「Databricks」で実現するデータ基盤構築、現場での活用ポイントや事例を解説 スライド5

データガバナンスにおいては、Unity Catalogという機能が担保する。この Unity Catalogによって、Databricksはアクセスするすべてのデータやファイルがどこにあるのか、利用者に提供することができる。

データ活用の強い味方「Databricks」で実現するデータ基盤構築、現場での活用ポイントや事例を解説 スライド6

他企業とのデータ共有などにおいても、Databricksであれば自ら開発したデータ共有のためのプロトコル「Delta Sharing」が価値を示す。Delta Sharingを利用しているプラットフォームであれば、異なっていてもデータの共有ができるからだ。

「例えばPower BIやTableauといったBIツール、さらにはPythonのPandasなどからも、直接生データにアクセスすることができます。アクセスする際にも、しっかりとセキュリティを担保しているのも特徴です」(弥生氏)

弥生氏はそれぞれの職種の各種取組みにおいて、Databricksがどのように活用されているのか。実際のGUI、ダッシュボードと合わせて紹介した。

弥生氏は、機械学習での利用については創業当初から意識しているそうで、Databricksの考え・姿勢を次のように語っている。

「単にモデルを作って終わりではなく、ビジネスプロセスに実装し、ビジネスへの価値、インパクトを出すところまでサポートしなければいけない。これが我々の考えであり、哲学でもあります」(弥生氏)

データ活用の強い味方「Databricks」で実現するデータ基盤構築、現場での活用ポイントや事例を解説 スライド7

このような哲学に基づき、いわゆるMLOpsの流れを実現するための各種機能を提供している。例えば、モデルのバージョンやステータス管理だ。指定してパラメータがどういったものだったのか、そのパラメータでの精度はどうだったのかなども、自動でレコードされている。「再現性に力を入れています」と、弥生氏は強調した。

ガートナー氏が数年前に提唱した、シチズンデータサイエンティスト。いわゆるビジネスサイド寄りのメンバーでも、機械学習モデルが作れるようなAutoML機能を各種有するなど、まさにデータに関わる様々なポジションの人たちに向けて、有益に機能を提供していることを訴えた。

なお、AutoML機能で作成したモデルであっても、Databricksでは裏側でロジック、コードがPythonのノートブックで作成されるようになっているため、それらのソースを使って、モデルをカスタマイズするような利用も可能だ。

データエンジニアリングでは、複雑になりがちなデータパイプラインの作成をシンプル、かつスピーディーに行う「Delta Live Tables(DLT)」という機能を備える。同機能を簡単に説明すれば、複雑になる理由でもあるデータパイプライン同士の依存関係を、DLTが解消してくれる。

以下スライドのようにグラフ構造も自動で生成されるため、リアルタイムの実行状況が視覚的に確認できるなど、運用における管理機能も有する。

BIダッシュボードも当然備えている。ベースとなっているのはRedashであり、数年前にDatabricksが同社を買収。現在はDatabricks SQLとして提供している。

データ活用の強い味方「Databricks」で実現するデータ基盤構築、現場での活用ポイントや事例を解説 スライド8

弥生氏はDatabricksの特徴や機能を紹介した後、改めてDX推進における企業の課題に対して、Databricksを利用することでどのように解決できるのかを、それぞれの領域で解説した。

まずは組織である。コラボレーション機能があることで、これまでは許可を取っていたような取り組みがスムーズ、かつスピーディーに進めることが可能になる。Databricksの料金体系は計算資源の利用に準ずるため、導入しても利用しなければ費用は0円。スモールスタートには嬉しい機能だ。

システムでは、大規模言語モデルの生成に必須なGPUを採用。Databricksであればダッシュボード上のインスタンスのタイプを選ぶだけで、GPUの実行環境がすぐに立ち上がる。各種クラウドサービスの利便性に近いと言えるだろう。

最後は人である。Databricksは様々な機能を有しているため、次のような効果があると、弥生氏はまとめた。

「データを扱う各職種の生産性が向上することで、結果として従業員エンゲージメントが向上します。Databricksを導入したことで、離職率が低下しているといった効果例をクライアントから聞くこともあります」(弥生氏)

さらに国内のクライアントからは、エンジニアの多くが大規模言語モデルなどの最新技術を活用できる環境で働きたいと考えており、「同環境を備えるDatabricksを使える環境の有無が、エンジニアの働く基準になっているケースもある」と、続けた。

データ活用の強い味方「Databricks」で実現するデータ基盤構築、現場での活用ポイントや事例を解説 スライド9

弥生氏は実際の導入事例も紹介した。田辺三菱製薬では、従来のオンプレ環境では扱いが難しかった1テラバイトを超えるビッグデータを処理できるようになった。加えて、これまで弥生氏が述べてきたような各種機能により、コラボレーションならびにメンバー間のコミュニケーションも活発になった。

弥生氏は、次のようにDatabricks導入の成果を述べている。

「生産性の向上・コミュニケーションが円滑になったことで、新規のテーマに次々取り組んでいくといった、プラスのサイクルが出てきていると感じています」(弥生氏)

データ活用の強い味方「Databricks」で実現するデータ基盤構築、現場での活用ポイントや事例を解説 スライド10

データの民主化を実現したシンプルかつ統合的なプラットフォームを実現

続いては、他のクラウドサービスとの違いについてが語られた。クラウド事業者が提供するサービスでは、データの加工やモデル作成といったジョブを行う際は、各種サービスを組み合わせて行う必要があるため、どうしても複雑になりがちだ。

データ活用の強い味方「Databricks」で実現するデータ基盤構築、現場での活用ポイントや事例を解説 スライド11

DWHなど、特定機能に特化しているサービスも同様だ。対してDatabricksは生データが一つだけである。インターフェースもノートブックやダッシュボードだけなので、非常にシンプルだ。

データ活用の強い味方「Databricks」で実現するデータ基盤構築、現場での活用ポイントや事例を解説 スライド12

その結果、ビジネスサイドの人でも簡便にデータを扱える、いわゆるデータの民主化を実現している。実際の導入事例も紹介された。

データ活用の強い味方「Databricks」で実現するデータ基盤構築、現場での活用ポイントや事例を解説 スライド13

Unity Catalogを使うことで、環境構築ならびに運用が容易になる。ワークスペースを分割すると目的性は高まるが、ユーザー管理などが大変であったり、データもサイロ化しがちだが、これらの課題が解消されるからだ。

3階層でデータを整理、管理することができるため、開発フェーズやビジネス要件などによって分けることができる。このような管理も行える。

Databricksでは生データをブロンズ、クレンジングされたデータをシルバー、BIなどで使える状態のデータをゴールドと整理する「メダリオンアーキテクチャ」という概念もある。

データ活用の強い味方「Databricks」で実現するデータ基盤構築、現場での活用ポイントや事例を解説 スライド14

データモデリングについても言及した。繰り返しになるが、DWHとしての機能も有しているため、スタースキーマやData Vaultといった、データモデリングを行う際に必要な、各種機能も提供している。

先述したとおりオープンなエコシステムであるため、数多くの関連ツールと連携する。その中からリバースETLの一つであるHightouchにおける活用、これらの関連製品との連携をスムーズにするPartner Connect機能。さらにはマーケットプレイスのオープンデータにアクセス、活用できるMarketplaceといった機能も有していることも付け加え、弥生氏はセッションを終えた。

データ活用の強い味方「Databricks」で実現するデータ基盤構築、現場での活用ポイントや事例を解説 スライド15

Sky株式会社社員が現場で感じている悩み・Databricksの活用課題に弥生氏が回答

続いては、Sky株式会社のクライアント・システム開発事業部 ビジネスソリューショングループのメンバーも参加してQ&Aセッションが行われた。Sky株式会社では最近特にAIなどデータを分析、利活用するプロジェクトが多く、Databricksの活用も多いという。実際にメンバーが現場で感じる悩みや、Databricksをさらに活用するヒントなどを質問し、弥生氏が回答した。

Q.クラウドサービスによる機能の違い、導入割合、今後の展開について聞かせてください

国内ではAWSとAzureがほぼ同じ導入率で、その後にGCPが続いている印象です。AWSは国内で最も利用されているクラウドサービスであり、Azureが追い上げている背景が理由だと思います。

Azure Databricksはマイクロソフトが提供しているファーストパーティーサービスでもあります。クラウドによる機能の違いは基本ありませんが、AWSに続いてAzure、最後にGCPという追加時期の違いはあります。

今後の展開ですが、現状3つのクラウドサービスにフォーカスしていく方向性のみで、他に展開する計画は未定です。

Q.今後さらに注力する領域、他のサービスと差別化していきたい領域は?

クラウドサービス業界は競争が激しいため、我々が統合プラットフォームという特徴を打ち出し評価を得るようになると、他社も同じように統合を意識したサービスに進んでいる状況です。我々としては大規模言語モデル、AIの取り組みに対するアシスタント機能に注力している状況です。

Q.Dollyなど大規模言語モデルでのユースケースは?

Dollyに限らず、大規模言語モデルにおけるユースケースは多数あります。ただQAボットや文献要約など。いわゆる世の中で紹介されているような、大規模言語モデルのユースケースと変わりません。

一方で、自社のアプリに大規模言語モデルを活用し、チャットボットを開発したいとの取り組みを支援するような機能を有していたりします。モデルに対するベストなAPIを作ることができる「モデルサービング」です。

同機能によりプロンプトエンジニアリングを行うなどして、希望する挙動を行うアプリを作るようなユースケースがあります。またセキュリティという観点からも、Databricksの機能を使うケースがあるなど、お客様の状況によって様々なユースケースがあります。

Q.ユーザーが既存クラウドからDatabricksに移行した決め手は?

コストやオープン性に加え、大規模言語モデルでの活用などです。DWHとしての機能以外のユースケースや拡張性、将来性を評価して切り替えるケースが一番多いと感じています。

個人的な意見になりますが、DWH同士の機能の差はそれほどないので、比較してもあまり意味がないと思います。また現在は、DWHだけで企業の課題を解決できる状況でもないとも考えています。

Q.Databricksの一部機能を既存プラットフォームに追加するケースはあるか?

もちろんあります。例えば、データベースの中のスキーマレベルでの移行です。クエリのフェデレーション機能もサポートし始めたため、データソースはそのままにしておき、Databricksからアクセスしデータ分析を進める。その中からコストメリットが出そうなデータソースを徐々に移行していく。このようなアプローチが取れるようになってきています。

DWHの中でETL処理を行っているケースも少なくありません。しかし、そのような処理ではコストがかなりかかるため、ETL処理は専門のツールにオフロードすべきだと提案しています。実際、オフロードしたことでコストメリットを感じたお客様が、データ移行を徐々に進めるケースもあります。

Q.一般的なデータプラットフォームでは、複製され断面が異なるデータが多くある。アプローチの解決方法を知りたい

Databricksであればデータのバージョンを管理する機能があるため、任意のタイミングで特定断面のデータを簡単に呼び出すことができるため、毎回手動で断面データを作る手間は発生しません。

Q.データリソースを枯渇させないための工夫は?

無限に流れ込んでくるデータをそのまま処理していては、メモリがオーバーフローしてしまうため、グルーピング処理などの工夫をしています。具体的には、Apache Sparkのストリーミング処理が背後で動いており、その中にウォーターマークという機能があります。

ウォーターマークは何分前以上のデータは処理しないと設定できる機能があり、古いデータを破棄することで、メモリの圧迫を防いでいます。

Q.エコシステムとの連携におけるベストプラクティスは?

TableauやPower BIなど、BIツール関連が顕著で、そのまま利用していただけるケースが多いです。BIツール以外ではAirflowが多かったのですが、現在ではDatabricksが進化し、一部の高度な機能を除き、Airflowでできることはほぼ網羅している状況です。ETLまわりの連携も多いです。

【Q&A】参加者からの質問に登壇者が回答

イベントを聴講した参加者からも質問が寄せられた。いくつか紹介する。

Q.他のデータレイクハウスと比べてDatabricksが優れている点は?

データレイクハウスだと思われているプラットフォームが、実際にはDWHであるということが少なくありません。一方で、DWHとして比較した場合には、それほど違いはないと考えています。比べるとしたら、コストパフォーマンスということになるでしょう。ただ、ワークロードにより、得意不得意があり、実際に検討をされる際にはPoCの実施などを行うケースもあります。

ただ、DWHの置き換えという観点でDatabricksを検討いただくのは、正直もったいないと考えています。統合的であること、他のエコシステムとの連携など、それ以外の豊富な機能も含め評価していただくのが適切だと思うからです。

Q.データレイク、DWH、データマートからの移行サポートについて

どれもサポートしていて、一番容易なのはデータレイクになります。例えば、Amazon S3で保管していたデータであればDatabricksに容易につなぐことができるため、移行作業というほどのレベルではなく、すぐに使い始めることができます。DWHにおいても自動で移行するツールも含め、各種移行サービスを提供・サポートしています。

Sky株式会社
https://www.skygroup.jp/
Sky株式会社の採用情報
https://www.skygroup.jp/recruit/

グループにあなたのことを伝えて、面談の申し込みをしましょう。

Sky株式会社

テクノロジーと共に成長しよう、
活躍しよう。

TECH PLAYに登録すると、
スキルアップやキャリアアップのための
情報がもっと簡単に見つけられます。

面白そうなイベントを見つけたら
積極的に参加してみましょう。
ログインはこちら

タグからイベントをさがす