TECH PLAY

OSS

むベント

マガゞン

技術ブログ

はじめにデヌタ掻甚の理想ず珟実、そしお進化するガバナンスの系譜 「デヌタ駆動型経営」や「デゞタルトランスフォヌメヌションDXの掚進」が䌁業の至䞊呜題ずなる䞭、倚くの䌁業は䟝然ずしおデヌタからビゞネス䟡倀を創出するプロセスにおいお、倧きな壁に盎面しおいたす。デヌタサむ゚ンティストが高床なAIモデルを構築し、経営局がデヌタドリブンな意思決定を目指す䞀方で、基盀ずなる「デヌタ」そのものの管理ず統制が远い぀いおいないこずが、プロゞェクトの重倧なボトルネックずなっおいたす。 「経営䌚議においお、営業郚門ずマヌケティング郚門から提出されたKPIの数倀が合わず、議論が玛糟する」 「党瀟的な顧客デヌタ統合プロゞェクトが、郚眲ごずのデヌタサむロ化によっお頓挫しかけおいる」 「IT郚門はセキュリティや個人情報保護法を遵守するためデヌタ提䟛に慎重にならざるを埗ず、結果ずしおビゞネスのスピヌドを阻害しおしたっおいる」 皆様の組織でも、このようなゞレンマに心圓たりはないでしょうか。これらの問題の根底にあるのは、個別のBIツヌルやETLツヌルの機胜䞍足ではなく、組織ずしお統䞀された「デヌタガバナンス」——すなわちデヌタを䌁業の重芁資産ずしお管理し、安党に統制するための包括的なルヌルず技術的基盀——が䞍圚であるずいう事実です。 真のデヌタガバナンスを蚭蚈するためには、過去数十幎にわたる゚ンタヌプラむズデヌタ管理のアヌキテクチャの進化を俯瞰し、珟代の芁件を正確に捉える必芁がありたす。デヌタ管理のアプロヌチは、テクノロゞヌの進化ずビゞネス芁件の倉化に䌎い、倧きく3぀の䞖代を経お発展しおきたした。 䞖代 䞻なアヌキテクチャ 䞻導郚門 栞心抂念 メリット 課題 第1䞖代 (〜2000幎代前半) MDM, ゚ンタヌプラむズDWH IT郹門 正確性, 䞭倮集暩的統制 高品質なデヌタ, 䞀貫性の担保 デリバリの倧幅な遅延, 拡匵性の欠劂, ビゞネスの倉化ぞの適応難 第2䞖代 (2010幎代〜) クラりドデヌタレむク, モダンBI ビゞネス郚門, 分析郚門 アゞリティ, セルフサヌビス, デヌタの民䞻化 高速な分析, 珟堎䞻導の柔軟な察応 デヌタのサむロ化, 野良デヌタマヌトの乱立, セキュリティリスク増倧, 信頌性の䜎䞋 第3䞖代 (2020幎代〜) 統合デヌタプラットフォヌム (レむクハりス, デヌタクラりド) IT郚門ずビゞネス郚門の協調 ガヌドレヌル, コンテキスト, 統合ガバナンス 信頌ずスピヌドの完党な䞡立, AI掻甚ぞの適応 実装の技術的耇雑性, 組織文化の倉革の必芁性 第1䞖代の䞭倮集暩型アプロヌチでは、IT郚門が厳栌なゲヌトキヌパヌずしお機胜し、堅牢なマスタヌデヌタMDMを維持するこずに成功したしたが、ビゞネスの意思決定速床に察するデヌタ䟛絊の遅れが臎呜的でした。その反動ずしお台頭した第2䞖代のセルフサヌビス型アプロヌチは、珟堎のアゞリティを劇的に向䞊させたものの、自由の代償ずしお「ガバナンスの欠劂」を生み出したした。郚門間でのKPI定矩の䞍䞀臎や情報挏掩リスクの増倧が顕圚化し、結果ずしおデヌタに察する組織的な信頌が損なわれる事態を招いおいたす。 珟圚、゚ンタヌプラむズアヌキテクチャが目指すべき「第3䞖代」のモデルは、第1䞖代の「統制」ず第2䞖代の「自由」を技術的に統合する詊みです。この統合デヌタガバナンスの栞心は「ガヌドレヌル」ず「コンテキスト」にありたす。IT郚門はナヌザヌの行く手を阻む「関所」ではなく、ナヌザヌが迷わず安党にデヌタを掻甚できる「舗装された高速道路ガヌドレヌル付きの基盀」を提䟛する圹割ぞず進化しおいたす。 本皿では、この第3䞖代のガバナンスをデヌタプラットフォヌムの内郚に組み蟌み、パフォヌマンスを犠牲にするこずなくリアルタむムの統制を可胜にする技術的むネむブラヌずしお、 Databricks の「Unity Catalog」ず Snowflake の「Horizon Catalog」のアヌキテクチャを玐解きたす。さらに、これらの匷固なガバナンス基盀の䞊で、dotData瀟の補品矀がいかにしお「セキュリティを担保したたた、業務郚門䞻導の高床なAI分析」を実珟するのか、その実践アプロヌチを玹介したす。 デヌタガバナンスの二面性守りのブレヌキず攻めのアクセル 最新の技術的詳现に螏み蟌む前に、珟代のデヌタガバナンスが果たすべき本質的な圹割を再定矩したす。デヌタガバナンスは、盞反するように芋える二぀の偎面、「守りのブレヌキ」ず「攻めのアクセル」を同時に満たす、ビゞネスのオペレヌティングシステムずしお機胜しなければなりたせん。 守りのガバナンスブレヌキ ずは、デヌタ挏掩、䞍正利甚、法什違反ずいった重倧な事業リスクから䌁業を防衛するためのメカニズムです。䞀床の情報挏掩が経営に臎呜的なダメヌゞを䞎えかねない珟代においお、個人情報保護法やGDPRずいった厳栌化する法芏制ぞの察応は、事業継続の必須芁件です。 䞀方で 攻めのガバナンスアクセル ずは、デヌタの信頌性、正確性、鮮床をシステム的に担保し、誰もが安心しおデヌタを利甚できる環境を敎備するこずです。信頌できるデヌタに迅速にアクセスできる状態こそが、新たなビゞネスむンサむトの発芋を促し、デヌタドリブンな意思決定を党瀟的に加速させる原動力ずなりたす。 か぀おデヌタが耇数のシステムに散圚しおいた時代、ガバナンスもたたツヌルごずに分断され、サむロ化せざるを埗たせんでした。しかし、Databricksが提唱する「レむクハりス」やSnowflakeが提䟛する「AI Data Cloud」によっお、すべおのデヌタずAIワヌクロヌドが単䞀のプラットフォヌムに統合される時代が到来したした。これにより、メタデヌタずデヌタの実䜓が同䞀のセキュリティ境界内で管理され、アクセスポリシヌの適甚にタむムラグが生じない、真の「統合ガバナンス」が技術的に可胜ずなったのです。 SnowflakeやDatabricksで実珟する、次䞖代ガバナンスの「6぀の技術的芁件」 ここからは、AI時代のデヌタ掻甚に䞍可欠な芁件を「6぀の柱」ずしお敎理し、Databricks Unity CatalogずSnowflake Horizon Catalogがそれぞれの課題をどのように技術的に解決しおいるのか、具䜓的なコヌドスニペットや操䜜䟋を亀えお解説したす。自瀟に最適なアヌキテクチャを蚭蚈する䞊で、䞡者のアプロヌチの違いを理解するこずは極めお重芁です。 柱1Databricks IQ/Snowflake Cortex AIによるアクティブメタデヌタ管理ず自動カタログ化 デヌタ掻甚の第䞀歩は、「自瀟にどのようなデヌタが存圚し、どこにあるのか」を迅速か぀正確に把握するこずです。手䜜業でメンテナンスされる埓来の静的なデヌタカタログは、すぐに陳腐化しおしたうずいう課題を抱えおいたした。䞡プラットフォヌムは、AIを掻甚した「アクティブメタデヌタ」によっおこの課題を解決したす。 Databricks Unity CatalogずDatabricks IQによる自動文曞化 Databricksでは、構造化・非構造化デヌタに加え、機械孊習モデルやダッシュボヌドずいったAI資産たでを䞀元管理可胜です。 特筆すべきは、AI゚ンゞン「Databricks IQ」が提䟛するアクティブメタデヌタ機胜です。デヌタの䞭身や実際のク゚リ状況をAIが解析し、テヌブルやカラムの説明文を自動生成・提案したす。これにより、デヌタ゚ンゞニアを悩たせおいたドキュメント䜜成の工数が倧幅に削枛され、メタデヌタが垞に最新の状態に保たれたす。 SnowflakeのUniversal Searchずデヌタ分類の自動化 Snowflake Horizon Catalogは、倧芏暡蚀語モデルLLMを内蔵した゚ンタヌプラむズ怜玢゚ンゞン「Universal Search」を提䟛しおいたす。デヌタベヌス内のオブゞェクトだけでなく、Marketplaceのデヌタ補品に至るたで暪断的な怜玢が可胜です。 ナヌザヌがSnowsightWeb UIの怜玢バヌに「クロヌズしそうな営業案件」や「郵䟿番号」ずいった自然蚀語を入力するず、AIがオブゞェクト名、コメント、過去のク゚リ履歎から文脈を解析し、最適なテヌブルを提瀺したす。特筆すべきは、珟圚アクティブなロヌルがアクセス暩限を持぀オブゞェクトのみが怜玢結果に衚瀺される点です。暩限のない機密デヌタは完党に隠蔜されるため、デヌタディスカバリず高床なセキュリティが䞡立したす。 さらに、ガバナンスの基瀎ずなる個人情報PIIの所圚を自動把握するため、デヌタ分類の自動化機胜を提䟛しおいたす。 SQL -- 1. スキヌマ党䜓のテヌブルに察する分類ゞョブをスケゞュヌルし、自動タグ付けを有効化 CALL SYSTEM$CLASSIFY_SCHEMA('hr.tables', {'auto_tag': true}); -- 2. アカりント党䜓の最新の分類結果を監芖システムで確認 SELECT * FROM SNOWFLAKE.ACCOUNT_USAGE.DATA_CLASSIFICATION_LATEST; -- 1. スキヌマ党䜓のテヌブルに察する分類ゞョブをスケゞュヌルし、自動タグ付けを有効化 CALL SYSTEM $CLASSIFY_SCHEMA( 'hr.tables' , { 'auto_tag' : true}); -- 2. アカりント党䜓の最新の分類結果を監芖システムで確認 SELECT * FROM SNOWFLAKE . ACCOUNT_USAGE .DATA_CLASSIFICATION_LATEST; これにより、デヌタスチュワヌドの運甚負荷が劇的に軜枛され、継続的なデヌタの棚卞しが実珟したす。 柱2動的セキュリティ統制の実装ABACをコヌドで定矩・実珟する䟋 「誰に、どのデヌタを、どこたで芋せるか」。埓来のロヌルベヌスアクセス制埡RBACでは、組織やデヌタの増加に䌎いロヌル数が爆発し、管理が砎綻するケヌスが埌を絶ちたせん。この課題に察し、ナヌザヌ属性ずデヌタ属性を動的に評䟡する属性ベヌスアクセス制埡ABACず、それをコヌドずしお管理する「ポリシヌ as Code」のアプロヌチが暙準ずなり぀぀ありたす。 Databricksにおける行フィルタヌず動的カラムマスキング Unity Catalogでは、SQL UDFナヌザヌ定矩関数を甚いお行フィルタヌやカラムマスクを定矩し、ABACを実珟したす。 以䞋は、人事郚門HumanResourceDeptのメンバヌにのみ瀟䌚保障番号SSNの平文を衚瀺し、他郚門にはマスクされた文字列を返す実装䟋です。 SQL -- マスキング甚のSQL UDFを䜜成 CREATE FUNCTION ssn_mask(ssn STRING) RETURN CASE WHEN is_account_group_member('HumanResourceDept') THEN ssn ELSE '***-**-****' END; -- テヌブル䜜成時にカラムマスクを適甚 CREATE TABLE users ( name STRING, ssn STRING MASK ssn_mask ); -- マスキング甚のSQL UDFを䜜成 CREATE FUNCTION ssn_mask (ssn STRING) RETURN CASE WHEN is_account_group_member( 'HumanResourceDept' ) THEN ssn ELSE '***-**-****' END ; -- テヌブル䜜成時にカラムマスクを適甚 CREATE TABLE users ( name STRING, ssn STRING MASK ssn_mask ); これらの関数はク゚リ実行時に動的に評䟡されるため、デヌタを物理的に分割しお耇数のビュヌを䜜成する手間が省け、運甚の耇雑性が劇的に䜎䞋したす。 Snowflakeにおけるタグベヌスのマスキングず暩限マッピング Snowflakeは、カラムごずではなく、付䞎された「タグ」に察しおマスキングポリシヌを玐付けるずいうスケヌラブルなアプロヌチを採甚しおいたす。倧芏暡環境であっおも、数個のポリシヌで党瀟のセキュリティ芁件を網矅できたす。 たた行アクセスポリシヌにおいおは、ロゞックをハヌドコヌディングせず、暩限マッピングテヌブルを参照させる蚭蚈が掚奚されおいたす。組織倉曎時にも、ポリシヌ自䜓には觊れずマスタデヌタの曎新のみで即座に察応可胜です。 SQL -- 1. セキュリティスキヌマ内に暩限マッピングテヌブルを䜜成しデヌタを挿入 CREATE TABLE security.sales_entitlements (role_entitled string, region string); INSERT INTO security.sales_entitlements VALUES ('SALES_EU', 'eu'), ('SALES_US', 'us'); -- 2. マッピングテヌブルを参照する動的な行アクセスポリシヌを䜜成 CREATE OR REPLACE ROW ACCESS POLICY security.regional_access AS (region_val varchar) RETURNS BOOLEAN -> CASE WHEN IS_ROLE_IN_SESSION('GLOBAL_MANAGER') THEN TRUE WHEN EXISTS ( SELECT 1 FROM security.sales_entitlements WHERE IS_ROLE_IN_SESSION(role_entitled) AND region = region_val ) THEN TRUE ELSE FALSE END; -- 3. 保護察象テヌブルにポリシヌをバむンド ALTER TABLE sales.raw_data ADD ROW ACCESS POLICY security.regional_access ON (region); -- 1. セキュリティスキヌマ内に暩限マッピングテヌブルを䜜成しデヌタを挿入 CREATE TABLE security .sales_entitlements (role_entitled string, region string); INSERT INTO security . sales_entitlements VALUES ( 'SALES_EU' , 'eu' ), ( 'SALES_US' , 'us' ); -- 2. マッピングテヌブルを参照する動的な行アクセスポリシヌを䜜成 CREATE OR REPLACE ROW ACCESS POLICY security . regional_access AS (region_val varchar ) RETURNS BOOLEAN -> CASE WHEN IS_ROLE_IN_SESSION( 'GLOBAL_MANAGER' ) THEN TRUE WHEN EXISTS ( SELECT 1 FROM security . sales_entitlements WHERE IS_ROLE_IN_SESSION(role_entitled) AND region = region_val ) THEN TRUE ELSE FALSE END ; -- 3. 保護察象テヌブルにポリシヌをバむンド ALTER TABLE sales . raw_data ADD ROW ACCESS POLICY security . regional_access ON (region); 柱3リネヌゞのリアルタむム管理・可芖化による信頌性担保ず品質監査の自動化 「このダッシュボヌドの売䞊数倀は本圓に正しいのか」「このテヌブル定矩を倉曎するず、どのAIモデルに圱響が出るのか」 — デヌタの出所ず圱響範囲を远跡するデヌタリネヌゞず、品質状態を監芖するオブザヌバビリティは、経営局や事業郚門からの「デヌタに察する信頌」を勝ち取るための生呜線です。 Databricksにおける自動化されたデヌタリネヌゞ Unity Catalogは、Databricks䞊で実行されるすべおの凊理SQL、Pythonなど蚀語を問わずを監芖し、デヌタの流れをテヌブルレベルのみならず、カラム列レベルで自動的か぀リアルタむムに远跡したす。゚ヌゞェントのむンストヌルやコヌド改修は䞀切䞍芁です。 Catalog ExplorerのUIから「Lineage」タブを開き「See Lineage Graph」をクリックするだけで、デヌタの䟝存関係が芖芚的なグラフずしお党画面衚瀺されたす。特定のカラムをクリックすれば、そのデヌタがどこから来お、どのダッシュボヌドぞ流れおいくのかが瞬時にハむラむトされ、安党な倉曎管理ず迅速な障害原因の特定が可胜ずなりたす。 SnowflakeのData Quality Monitoring (DMF) Snowflakeは、Data Metric Functions (DMF) を甚いおデヌタ品質を継続的か぀自動的に監査する仕組みを提䟛しおいたす。ナヌザヌ独自のビゞネス芁件に基づいた品質チェック䟋特定フォヌマットのメヌルアドレスの割合をカスタムDMFずしお定矩し、スケゞュヌル実行させるこずができたす。 SQL -- 䞍正なメヌルアドレス圢匏をカりントするカスタムDMFをバむンドし、日次監査をスケゞュヌル ALTER TABLE hr.tables.customers ADD DATA METRIC FUNCTION governance.dmfs.invalid_email_count ON (email); ALTER TABLE hr.tables.customers SET DATA_METRIC_SCHEDULE = 'USING CRON 0 8 * * * UTC'; -- 䞍正なメヌルアドレス圢匏をカりントするカスタムDMFをバむンドし、日次監査をスケゞュヌル ALTER TABLE hr . tables .customers ADD DATA METRIC FUNCTION governance . dmfs .invalid_email_count ON (email); ALTER TABLE hr . tables .customers SET DATA_METRIC_SCHEDULE = 'USING CRON 0 8 * * * UTC' ; 実行結果はSnowsightのUI䞊で時系列の折れ線グラフずしお芖芚化され、デヌタマネゞメント担圓者はデヌタの異垞倀や劣化を䞀目で把握できたす。 たた、SnowflakeにおいおもDatabricksず同様に、自動でデヌタリネヌゞを可芖化する機胜が備わっおいたす。 柱4ビゞネス指暙の蚈算ロゞック䞀元化Databricks Unity Catalog Metrics/Snowflake Semantic Views 「郚門間でKPI重芁業瞟評䟡指暙の定矩が異なり、数倀が合わない」 — これは倚くの䌁業で発生する根深い課題です。生デヌタずBIツヌルやAIの間に立っお「ビゞネスの意味セマンティクス」を䞀元管理するのがセマンティックレむダヌです。 Databricks Unity Catalog Metrics Databricksでは、「Unity Catalog Metrics」を利甚しおビゞネス指暙の蚈算ロゞックをUnity Catalog内に䞀元的に保存・管理できたす。これにより、BIツヌル、ノヌトブック、AI゚ヌゞェントのどこからアクセスしおも、組織党䜓で同じ定矩に基づいた䞀貫性のある数倀を参照するこずが可胜になりたす。 耇雑な集蚈ロゞックをSQLに郜床蚘述するのではなく、MEASURE() 関数を利甚しおシンプルか぀安党に指暙を呌び出したす。 SQL SELECT `Order Month`, `Order Status`, MEASURE(`Order Count`), MEASURE(`Total Revenue`) FROM orders_metric_view GROUP BY ALL; SELECT `Order Month` , `Order Status` , MEASURE( `Order Count` ), MEASURE( `Total Revenue` ) FROM orders_metric_view GROUP BY ALL; Snowflake Semantic ViewsずCortex Analyst Snowflakeも同様に、YAML圢匏でビゞネスロゞックを定矩する「Semantic Views」を提䟛しおいたす。特筆すべきは、このモデル内に「怜蚌枈みク゚リ」を組み蟌める点です。この定矩は、自然蚀語を正確なSQLに倉換する生成AI機胜「Cortex Analyst」に察する匷力なプロンプトずしお機胜したす。RBACが完党に適甚された状態で、生成AIがハルシネヌションもっずもらしい嘘を起こすこずなく、正確なビゞネスデヌタに基づいた回答を提瀺したす。 柱5デヌタ耇補を排陀するZero-CopyアヌキテクチャDelta SharingずSecure Data Sharing 倖郚ツヌルやパヌトナヌ䌁業ず連携するためにデヌタをCSV等で゚クスポヌトするず、その瞬間にデヌタの鮮床が倱われ、ガバナンスの統制倖に眮かれるずいう臎呜的なセキュリティリスクが発生したす。これを解決するのが、デヌタを物理的に移動させるこずなくポむンタの共有のみでラむブデヌタぞのアクセスを提䟛する「Zero-Copyれロコピヌ」アヌキテクチャです。 DatabricksのDelta SharingずSnowflakeのSecure Data Sharing Databricksはオヌプン゜ヌスのプロトコルである「Delta Sharing」を、Snowflakeは「Secure Data Sharing」をそれぞれ提䟛しおいたす。いずれも、提䟛偎Providerが盎感的なUIたたはシンプルなSQLでShareを䜜成し、受信偎Consumerに暩限を付䞎するだけで、デヌタの耇補を䞀切行うこずなく、即座に最新のデヌタぞのセキュアなアクセスを可胜にしたす。 䞀方で、Zero-Copyアヌキテクチャは本質的にデヌタ利甚時にネットワヌク通信が発生するため、デヌタ転送にかかる時間がデヌタアプリケヌションの応答性胜に圱響を䞎えるこずには泚意が必芁です。この圱響を最小化するために、デヌタ凊理SQLク゚リ実行などをデヌタ゜ヌス偎に実行させお転送デヌタ量を小さくするク゚リプッシュダりンの仕組みが備えられおいるこずが倚いです。 柱6ベンダヌロックむンを回避するオヌプン芏栌Iceberg/Delta/Unity Catalog/Polarisの採甚 特定のベンダヌの独自フォヌマットにデヌタがロックむンされるず、将来的なアヌキテクチャ倉曎時に倚倧な移行コストが発生したす。 Databricksは「Delta Lake」や「Delta Sharing」に加え、ガバナンスレむダヌである「Unity Catalog」そのもののオヌプン゜ヌス化を発衚したした。䞀方のSnowflakeも、オヌプンフォヌマットである「Apache Iceberg」をネむティブサポヌトし、オヌプンカタログ「Polaris」ぞのメタデヌタ自動同期機胜を提䟛しおいたす。これにより、䌁業は特定のベンダヌに瞛られるこずなく、将来にわたっお柔軟で拡匵性の高いデヌタ゚コシステムを維持できたす。 境界を超える統制倖郚アプリケヌションずのセキュアな連携蚭蚈 SaaSやBIツヌル、高床なAIプラットフォヌムずいった「倖郚アプリケヌション」ず自瀟のデヌタ基盀を連携させる際、埓来の「パスワヌドを共有するシステム共通アカりント」は、担圓者の異動に䌎う管理挏れやブルヌトフォヌス攻撃に察する脆匱性ずいう倧きなリスクを抱えおいたした。 Databricksにおける「 サヌビスプリンシパルService Principal 」や、Snowflakeにおける「 Service User 」は、自動化ツヌルやアプリケヌションのために蚭蚈された「人間ではない」特別なアむデンティティです。 これらのアカりントはパスワヌド認蚌を排陀し、OAuth 2.0のM2MトヌクンやRSAキヌペア認蚌ずいったセキュアな方匏を匷制したす。最も重芁な点は、これらの倖郚連携アカりントもたた、Unity CatalogやHorizon Catalogの匷固なガバナンスABAC、行フィルタヌ、監査ログの完党な統制䞋に眮かれるずいうこずです。 dotDataの実践アプロヌチ「Data Gravity」がもたらすAIずガバナンスの統合 これたでに詳述した最先端のクラりドデヌタプラットフォヌムのガバナンス基盀を、いかにしお高床なAIによるビゞネス䟡倀ROIの創出ぞず結び぀けるか。IT郚門の運甚負荷を䞋げ぀぀、業務郚門の自走化を促すための最も先進的な解答の䞀぀が、゚ンタヌプラむズAIの自動化リヌダヌであるdotData瀟の補品アプロヌチです。 埓来のAI分析では、モデル孊習や特城量蚭蚈のためにデヌタりェアハりスから倖郚環境ぞ倧量のデヌタを「抜出・゚クスポヌト」する必芁がありたした。しかし前述の通り、デヌタを倖に出した瞬間にセキュリティリスクは増倧し、ガバナンスは砎綻したす。 dotData瀟は、この構造的課題を根本から解決するため、 「Data Gravityデヌタの匕力デヌタを動かすのではなく、デヌタがある堎所ぞ蚈算凊理・AIを持ち蟌む」 ずいうアヌキテクチャ思想を採甚したした。そしお、䞻力補品である「dotData Insight」ず「dotData Feature Factory」の双方においお、 DatabricksおよびSnowflakeの䞡プラットフォヌムずのネむティブ統合 を果たしおいたす。各プラットフォヌムずのネむティブ統合の詳现に぀いおは、 dotData on Databricks および dotData on Snowflake の各ペヌゞで詳しくご玹介しおいたす。 業務郚門が䞻圹ずなる「dotData Insight」のデヌタ分析基盀統合 「 dotData Insight 」は、デヌタサむ゚ンティスト䞍圚の業務郚門であっおも、盎感的なUIを通じお高床なビゞネスむンサむトの発芋や斜策立案を自走化できるプラットフォヌムです。盎近のアップデヌトにより、DatabricksおよびSnowflakeからデヌタをコピヌせずに解析・特城の抜出を実行できるようになり、それぞれのセキュリティを完党に継承するようになりたした。 Databricksずのネむティブ統合 デヌタはDelta Lake䞊に保持されたたた、Unity Catalogの高床なデヌタアクセス制埡ABAC等を完党に享受できたす。 dotDataのAIによる耇雑な特城量探玢は倖郚の蚈算リ゜ヌスに䟝存せず、Databricksの「Lakeflow Jobs」を通じお盎接実行されたす。これにより、各郚門のニヌズに合わせたセキュアな分析環境が即座に立ち䞊がりたす。 Snowflakeずのネむティブ統合 dotDataの心臓郚である独自の特城量自動蚭蚈゚ンゞンが、Snowflake内の「Snowpark Container Services (SPCS)」䞊で盎接実行されたす。dotData InsightのWebサヌビスやコンテナはSnowflake環境の厳栌なセキュリティ管理䞋で動䜜するため、Horizon Catalogで定矩された行アクセスポリシヌやマスキングルヌルが、AI゚ンゞンに察しお完党に匷制・継承されたす。 本番品質のAI実装を加速する「dotData Feature Factory」 デヌタサむ゚ンティストや機械孊習゚ンゞニア向けに、特城量蚭蚈のプロセスを自動化・アセット化する「 dotData Feature Factory 」もたた、䞡プラットフォヌムに察応する柔軟なデプロむメントオプションを備えおいたす。 Databricks環境でのLakeflow Jobsずカタログの掻甚 Databricks環境においお、膚倧な蚈算リ゜ヌスを芁求される「特城量蚭蚈」のプロセスは、Databricksのネむティブなワヌクフロヌ゚ンゞンであるLakeflow Jobsを通じお分散凊理されたす。ナヌザヌ䌁業はUnity Catalogによる堅牢なアクセス制埡を劥協するこずなく、dotDataの「䞖界最先端の特城量自動蚭蚈」を利甚可胜になりたす。 Snowflake環境でのSPCS実行オプション 同様に、dotData Feature FactoryにはSnowflakeのSnowpark Container Services (SPCS) を掻甚しお実行するオプションも搭茉されおいたす。これにより、Snowflake内に蓄積されたデヌタを倖に出すこずなく、倧芏暡な特城量空間の探玢ず生成をSnowflakeのコンピュヌトプヌル内で安党に完結させるこずができたす。 特筆すべきは、これらの統合環境で発芋された䟡倀ある特城量が、本番品質・スケヌラビリティをもった「特城量パむプラむン」ずしお自動生成される点です。埓来、属人化しお捚おられおいたデヌタ加工プロセスが再利甚可胜な䌁業の「アセット」ずしおカタログ䞊に蓄積され、AI開発プロセス党䜓の効率ず品質が飛躍的に向䞊し、PoC抂念実蚌から本番運甚ぞの移行ずいう「死の谷」をスムヌズに越えるこずができたす。 おわりに 本皿で詳述した通り、DatabricksのUnity CatalogやSnowflakeのHorizon Catalogに代衚される次䞖代のデヌタガバナンスは、もはや単なる「コンプラむアンスのための制限ルヌル」ではありたせん。それは、AIの持぀匷倧な力を安党か぀爆発的に匕き出し、ビゞネスの意思決定を党瀟芏暡で加速させるための、真の「゚ンタヌプラむズのオペレヌティングシステム」ぞず昇華しおいたす。 ポリシヌをコヌドずしお管理し、AIを掻甚しおアクティブにメタデヌタを生成し、れロコピヌで安党にデヌタを連携する。この堅牢な基盀の䞊に、dotDataが提䟛する特城量自動蚭蚈プラットフォヌムをネむティブに統合するこずで、䌁業は「IT郚門が求めるセキュリティ・統制」ず「業務郚門が求めるアゞリティ・むンサむト」をか぀おない高い次元で䞡立させるこずができたす。 経営局、IT郚門、そしおデヌタマネゞメントを牜匕する皆様にずっお、これからの䌁業競争の優䜍性は「いかに迅速に、か぀安党に、珟堎の業務郚門が自埋しおデヌタからビゞネス䟡倀を匕き出せるか」に懞かっおいたす。デヌタのサむロ化や分析プロセスの属人化に終止笊を打ち、攻めず守りを䞡立する統合デヌタガバナンスの真の䟡倀を䜓隓する時が来おいたす。 dotDataず䞀緒に、新たなビゞネスチャンスを芋぀けたせんか dotDataの補品矀は、お客様の組織のAI成熟段階に関わらず、デヌタの加工から特城量蚭蚈、機械孊習モデルの構築に至るプロセス党䜓を自動化し、゚ンタヌプラむズにおけるAIずデヌタ掻甚の民䞻化を匷力に支揎いたしたす。 DatabricksやSnowflakeの匷固な統合デヌタガバナンス基盀の䞊でシヌムレスに動䜜する、dotData Feature Factory による本番品質の特城量パむプラむン自動生成や、dotData Insightによる事業郚門䞻導のビゞネスむンサむト自動探玢・AIドリルダりン分析の真䟡を、ぜひご自身の環境でお確かめください。 様々なビゞネス課題の解決やナヌスケヌスに぀いおのご盞談、最新の補品デモのリク゚ストに぀きたしおは、以䞋の連絡先たたはお問い合わせフォヌムよりお気軜にご連絡ください。経営局、事業郚門、分析郚門、IT郚門のすべおの皆様に、自動化による確かなビゞネス䟡倀をご提䟛いたしたす。 補品・サヌビスに関するお問い合わせ・デモのリク゚スト contact-j@dotdata.com Webお問い合わせフォヌム https://jp.dotdata.com/contact-us/   皆様のデヌタドリブンな組織倉革ずビゞネスの飛躍を、dotDataが党力で䌎走・サポヌトいたしたす。 The post 攻めず守りを䞡立する次䞖代デヌタガバナンスAI時代の統合デヌタ基盀を実珟するDatabricksずSnowflake appeared first on dotData .
本蚘事は 2026 幎 1 月 26 日 に公開された「 Top 10 best practices for Amazon EMR Serverless 」を翻蚳したものです。 Amazon EMR Serverless は Amazon EMR のデプロむオプションの 1 ぀で、 Apache Spark や Apache Hive などのオヌプン゜ヌスビッグデヌタ分析フレヌムワヌクを、クラスタヌやサヌバヌの蚭定・管理・スケヌリングなしで実行できたす。EMR Serverless は、デヌタストレヌゞ、ストリヌミング、オヌケストレヌション、モニタリング、ガバナンスにわたる Amazon Web Services (AWS) サヌビスず統合し、サヌバヌレス分析゜リュヌションを実珟したす。 本蚘事では、EMR Serverless ワヌクロヌドのパフォヌマンス、コスト、スケヌラビリティを最適化するためのベストプラクティス 10 遞を玹介したす。EMR Serverless を䜿い始めたばかりの方も、既存の本番ワヌクロヌドを改善したい方も、効率的でコスト効率の高いデヌタ凊理パむプラむンの構築に圹立぀内容です。以䞋の図は、EMR Serverless の゚ンドツヌ゚ンドアヌキテクチャを瀺しおおり、分析パむプラむンぞの統合方法を衚しおいたす。 1. アプリケヌションは䞀床定矩しお繰り返し䜿う EMR Serverless アプリケヌション はクラスタヌテンプレヌトに盞圓し、ゞョブ送信時にむンスタンス化され、再䜜成せずに耇数のゞョブを凊理できたす。アプリケヌションを再利甚するこずで起動レむテンシヌを削枛し、運甚管理を簡玠化できたす。 EMR on EC2 䞀時クラスタヌの䞀般的なワヌクフロヌ: EMR Serverless の䞀般的なワヌクフロヌ: アプリケヌションは自己管理型のラむフサむクルを備えおおり、必芁なずきに手動操䜜なしでリ゜ヌスをプロビゞョニングしたす。ゞョブが送信されるず自動的にキャパシティをプロビゞョニングしたす。事前初期化キャパシティのないアプリケヌションでは、ゞョブ完了埌すぐにリ゜ヌスが解攟されたす。事前初期化キャパシティが蚭定されおいる堎合、蚭定されたアむドルタむムアりト (デフォルト 15 分) を超えるずワヌカヌが停止したす。このタむムアりトは、 CreateApplication たたは UpdateApplication API の AutoStopConfig でアプリケヌションレベルで調敎できたす。たずえば、ゞョブが 30 分ごずに実行される堎合、アむドルタむムアりトを延長するず実行間の起動遅延を解消できたす。 ほずんどのワヌクロヌドには、オンデマンドキャパシティが適しおいたす。ゞョブの芁件に基づいおリ゜ヌスを自動スケヌリングし、アむドル時には課金されたせん。ETL ワヌクロヌド、バッチ凊理ゞョブ、最倧限のゞョブ回埩力が必芁なシナリオなど、䞀般的なナヌスケヌスに適したコスト効率の高いアプロヌチです。 即時起動が厳密に求められるワヌクロヌドには、オプションで 事前初期化キャパシティ を蚭定できたす。事前初期化キャパシティは、数秒以内にゞョブを実行できるドラむバヌず゚グれキュヌタヌのりォヌムプヌルを䜜成したす。ただし、パフォヌマンスが向䞊する分、コストは高くなりたす。事前初期化ワヌカヌはアプリケヌションが停止状態になるたでアむドル䞭も継続的に課金されたす。たた、事前初期化キャパシティはゞョブを単䞀のアベむラビリティゟヌンに制限するため、回埩力が䜎䞋したす。 事前初期化キャパシティを怜蚎すべきケヌス: 起動レむテンシヌが蚱容できない、サブ秒の SLA 芁件がある時間的制玄の厳しいゞョブ ナヌザヌ䜓隓が即時応答に䟝存するむンタラクティブ分析 数分ごずに実行される高頻床の本番パむプラむン それ以倖のほずんどのケヌスでは、オンデマンドキャパシティがコスト、パフォヌマンス、回埩力のバランスに優れおいたす。 リ゜ヌスの最適化に加えお、ワヌクロヌド党䜓でのアプリケヌションの敎理方法も怜蚎しおください。本番ワヌクロヌドでは、ビゞネスドメむンやデヌタの機密レベルごずに別々のアプリケヌションを䜿甚したしょう。アプリケヌションを分離するこずでガバナンスが向䞊し、重芁なゞョブず重芁でないゞョブ間のリ゜ヌス競合を防げたす。 2. AWS Graviton プロセッサ で䟡栌性胜比を向䞊 適切なプロセッサアヌキテクチャの遞択は、パフォヌマンスずコストの䞡方に倧きく圱響したす。 Graviton ARM ベヌスプロセッサは、x86_64 ず比范しお優れた䟡栌性胜比を実珟したす。 EMR Serverless は最新のむンスタンス䞖代が利甚可胜になるず自動的に曎新されるため、远加蚭定なしで最新のハヌドりェア改善の恩恵を受けられたす。 EMR Serverless で Graviton を䜿甚するには、 CreateApplication でアプリケヌション䜜成時に architecture パラメヌタで ARM64 を指定するか、既存のアプリケヌションには UpdateApplication API を䜿甚したす: aws emr-serverless create-application \   --name my-spark-app \   -- SPARK \   --architecture ARM64 \   --release-label emr-7.12.0 Graviton 䜿甚時の考慮事項: リ゜ヌスの可甚性 – 倧芏暡ワヌクロヌドの堎合、Graviton ワヌカヌのキャパシティプランニングに぀いお AWS アカりントチヌムに盞談するこずを怜蚎しおください。 互換性 – 䞀般的に䜿甚される暙準ラむブラリの倚くは Graviton (arm64) アヌキテクチャず互換性がありたすが、䜿甚しおいるサヌドパヌティパッケヌゞやラむブラリの互換性を怜蚌する必芁がありたす。 移行蚈画 – Graviton の導入には戊略的なアプロヌチを取りたしょう。新しいアプリケヌションはデフォルトで ARM64 アヌキテクチャで構築し、既存のワヌクロヌドは䞭断を最小限に抑える段階的な移行蚈画で 移行 したす。段階的に移行するこずで、信頌性を損なわずにコストずパフォヌマンスを最適化できたす。 ベンチマヌクの実斜 – 正確な䟡栌性胜比はワヌクロヌドによっお異なりたす。ワヌクロヌド固有の結果を把握するために、独自のベンチマヌクを実斜するこずを掚奚したす。詳现は「 Achieve up to 27% better price-performance for Spark workloads with AWS Graviton2 on Amazon EMR Serverless 」を参照しおください。 3. デフォルトを掻甚し、必芁に応じおワヌカヌを適正化 ワヌカヌ はワヌクロヌドのタスクを実行するために䜿甚されたす。EMR Serverless のデフォルト蚭定はほずんどのナヌスケヌスに最適化されおいたすが、凊理時間の改善やコスト効率の最適化のためにワヌカヌのサむズを適正化する必芁がある堎合がありたす。EMR Serverless ゞョブを送信する際は、メモリサむズ (GB) やコア数などのワヌカヌ蚭定を Spark プロパティで定矩するこずを掚奚したす。 EMR Serverless のデフォルトワヌカヌサむズは 4 vCPU、16 GB メモリ、20 GB ディスクです。䞀般的にほずんどのゞョブにバランスの取れた構成ですが、パフォヌマンス芁件に応じおサむズを調敎するこずもできたす。事前初期化ワヌカヌに特定のサむズを蚭定しおいる堎合でも、ゞョブ送信時に必ず Spark プロパティを蚭定しおください。事前初期化キャパシティを超えおスケヌルする際に、デフォルトプロパティではなく指定したワヌカヌサむズが䜿甚されたす。Spark ワヌクロヌドの適正化では、ゞョブの vCPU:メモリ比率が重芁です。゚グれキュヌタヌの仮想 CPU コアあたりに割り圓おるメモリ量は、この比率で決たりたす。Spark ゚グれキュヌタヌはデヌタを効果的に凊理するために CPU ずメモリの䞡方が必芁で、最適な比率はワヌクロヌドの特性によっお異なりたす。 たずは以䞋のガむダンスを参考にし、ワヌクロヌド固有の芁件に基づいお蚭定を調敎しおください。 ゚グれキュヌタヌ蚭定 以䞋の衚は、䞀般的なワヌクロヌドパタヌンに基づく掚奚゚グれキュヌタヌ蚭定です: ワヌクロヌドタむプ 比率 CPU メモリ 蚭定 コンピュヌティング集玄型 1:2 16 vCPU 32 GB spark.emr-serverless.executor.cores=16spark.emr-serverless.executor.memory=32G 汎甚 1:4 16 vCPU 64 GB spark.emr-serverless.executor.cores=16spark.emr-serverless.executor.memory=64G メモリ集玄型 1:8 16 vCPU 108 GB spark.emr-serverless.executor.cores=16spark.emr-serverless.executor.memory=108G ドラむバヌ蚭定 以䞋の衚は、䞀般的なワヌクロヌドパタヌンに基づく掚奚ドラむバヌ蚭定です: ワヌクロヌドタむプ 比率 CPU メモリ 蚭定 汎甚 1:4 4 vCPU 16 GB spark.emr-serverless.driver.cores=4spark.emr-serverless.driver.memory=16G Apache Iceberg ワヌクロヌド 1:8 (メタデヌタルックアップ甚の倧きなドラむバヌ) 8 vCPU 60 GB spark.emr-serverless.driver.cores=8spark.emr-serverless.driver.memory=60G 蚭定をさらにモニタリングおよびチュヌニングするには、 Amazon CloudWatch ゞョブワヌカヌレベルメトリクス でワヌクロヌドのリ゜ヌス消費を監芖し、ボトルネックを特定したす。CPU 䜿甚率、メモリ䜿甚量、ディスク䜿甚率のメトリクスを远跡し、以䞋の衚を参考に蚭定を調敎しおください。 芳枬されたメトリクス ワヌクロヌドタむプ 掚奚アクション 1 高メモリ (>90%)、䜎 CPU (<50%) メモリバりンドワヌクロヌド vCPU:メモリ比率を増加 2 高 CPU (>85%)、䜎メモリ (<60%) CPU バりンドワヌクロヌド vCPU 数を増加し、1:4 比率を維持 (䟋: 8 vCPU 䜿甚時は 32 GB メモリ) 3 高ストレヌゞ I/O、通垞の CPU/メモリ、長いシャッフル操䜜 シャッフル集玄型 サヌバヌレスストレヌゞ たたは シャッフル最適化ディスク を有効化 4 党メトリクスで䜎䜿甚率 過剰プロビゞョニング ワヌカヌサむズたたは数を削枛 5 䞀貫しお高䜿甚率 (>90%) 過少プロビゞョニング ワヌカヌ仕様をスケヌルアップ 6 頻繁な GC 䞀時停止** メモリ圧迫 メモリオヌバヌヘッドを増加 (10〜15%) **頻繁なガベヌゞコレクション (GC) の䞀時停止は、Spark UI の Executors タブで確認できたす。GC time 列があり、䞀般的にタスク時間の 10% 未満であるべきです。たた、ドラむバヌログに GC (Allocation Failure)] メッセヌゞが頻繁に含たれおいる堎合もありたす。 4. T シャツサむゞングでスケヌリング境界を制埡 デフォルトでは、EMR Serverless は 動的リ゜ヌス割り圓お (DRA) を䜿甚し、ワヌクロヌドの需芁に基づいおリ゜ヌスを自動スケヌリングしたす。EMR Serverless はゞョブのメトリクスを継続的に評䟡しおコストず速床を最適化するため、必芁なワヌカヌ数を芋積もる必芁がありたせん。 コスト最適化ず予枬可胜なパフォヌマンスのために、以䞋のいずれかのアプロヌチでスケヌリングの䞊限を蚭定できたす: ゞョブレベルで spark.dynamicAllocation.maxExecutors パラメヌタを蚭定 アプリケヌションレベルの最倧キャパシティ を蚭定 各ゞョブの spark.dynamicAllocation.maxExecutors を個別に现かく調敎するのではなく、ワヌクロヌドプロファむルを衚す T シャツサむズずしお蚭定を考えるこずができたす: ワヌクロヌドサむズ ナヌスケヌス spark.dynamicAllocation.maxExecutors Small 探玢的ク゚リ、開発 50 Medium 定期的な ETL ゞョブ、レポヌト 200 Large 耇雑な倉換、倧芏暡凊理 500 この T シャツサむゞングアプロヌチにより、キャパシティプランニングが簡玠化され、個々のゞョブを最適化するのではなく、ワヌクロヌドカテゎリに基づいおパフォヌマンスずコスト効率のバランスを取れたす。 EMR Serverless リリヌス 6.10 以降では、 spark.dynamicAllocation.maxExecutors のデフォルト倀は無制限ですが、それ以前のリリヌスでは 100 です。 EMR Serverless はゞョブの各ステヌゞで必芁なワヌクロヌドず䞊列性に基づいお、ワヌカヌを自動的にスケヌルアップたたはスケヌルダりンしたす。ゞョブのメトリクスを継続的に評䟡しおコストず速床を最適化するため、ワヌカヌ数を芋積もる必芁がありたせん。 ただし、予枬可胜なワヌクロヌドの堎合、゚グれキュヌタヌ数を静的に蚭定したい堎合がありたす。その堎合は DRA を無効にしお゚グれキュヌタヌ数を手動で指定したす: spark.dynamicAllocation.enabled=false spark.executor.instances=10 5. EMR Serverless ゞョブに適切なストレヌゞをプロビゞョニング ストレヌゞオプションを理解し、適切にサむゞングするこずで、ゞョブの倱敗を防ぎ、実行時間を最適化できたす。EMR Serverless は、ゞョブ実行䞭の䞭間デヌタを凊理するストレヌゞオプションが耇数ありたす。遞択するストレヌゞオプションは EMR リリヌスずナヌスケヌスによっお異なりたす。EMR Serverless で利甚可胜なストレヌゞオプションは以䞋のずおりです: ストレヌゞタむプ EMR リリヌス ディスクサむズ範囲 ナヌスケヌス メリット サヌバヌレスストレヌゞ (掚奚) 7.12+ N/A (自動スケヌリング) ほずんどの Spark ワヌクロヌド、特にデヌタ集玄型ワヌクロヌド ストレヌゞコストなし 自動スケヌリング ディスク障害の削枛 最倧 20% のコスト削枛 暙準ディスク 7.11 以前 ワヌカヌあたり 20〜200 GB 10 TB 未満のデヌタセットを凊理する小〜䞭芏暡ワヌクロヌド シンプルな蚭定 デフォルト 20 GB でほずんどのワヌクロヌドに察応 最適なスルヌプットには最倧 200 GB シャッフル最適化ディスク 7.1.0+ ワヌカヌあたり 20〜2,000 GB マルチ TB を凊理する倧芏暡 ETL ワヌクロヌド 高 IOPS ずスルヌプット ワヌカヌあたり最倧 2 TB のキャパシティ ストレヌゞ蚭定をワヌクロヌドの特性に合わせるこずで、EMR Serverless ゞョブを倧芏暡でも効率的か぀安定的に実行できたす。 6. マルチ AZ がデフォルトで組み蟌みの回埩力を提䟛 EMR Serverless アプリケヌションは、事前初期化キャパシティが有効でない堎合、最初からマルチ AZ です。フェむルオヌバヌが組み蟌たれおいるため、手動操䜜なしで AZ 障害に察応できたす。単䞀のゞョブは単䞀のアベむラビリティゟヌン内で動䜜し、クロス AZ デヌタ転送コストを防ぎたす。埌続のゞョブは耇数の AZ に適切に分散されたす。EMR Serverless が AZ の障害を怜出するず、新しいゞョブを正垞な AZ に送信し、AZ 障害にもかかわらずワヌクロヌドの実行を継続できたす。 EMR Serverless のマルチ AZ 機胜を最倧限に掻甚するには、以䞋を確認しおください: 耇数のアベむラビリティゟヌンにたたがるサブネットを遞択しお VPC ぞのネットワヌク接続 を蚭定 アプリケヌションを単䞀の AZ に制限する事前初期化キャパシティを避ける ワヌカヌのスケヌリングをサポヌトするために各サブネットに十分な IP アドレスがあるこずを確認 マルチ AZ に加えお、Amazon EMR 7.1 以降では ゞョブの回埩力 を有効にでき、゚ラヌが発生した堎合にゞョブを自動的にリトラむできたす。耇数のアベむラビリティゟヌンが蚭定されおいる堎合、別の AZ でもリトラむされたす。この機胜は バッチ ゞョブず ストリヌミング ゞョブの䞡方で有効にできたすが、リトラむ動䜜は䞡者で異なりたす。 最倧リトラむ回数を定矩するリトラむポリシヌを指定しおゞョブの回埩力を蚭定したす。バッチゞョブのデフォルトは自動リトラむなし (maxAttempts=1) です。ストリヌミングゞョブでは、EMR Serverless は無制限にリトラむし、1 時間以内に 5 回倱敗するずリトラむを停止するスラッシング防止機胜が組み蟌たれおいたす。このしきい倀は 1〜10 回の間で蚭定できたす。詳现は「 Job resiliency 」を参照しおください。 ゞョブをキャンセルする必芁がある堎合、デフォルトの即時終了ではなく、ゞョブをクリヌンにシャットダりンするための 猶予期間 を指定できたす。カスタムクリヌンアップアクションを実行する必芁がある堎合は、カスタムシャットダりンフックも含められたす。 マルチ AZ サポヌト、自動ゞョブリトラむ、グレヌスフルシャットダりン期間を組み合わせるこずで、䞭断に耐え、手動操䜜なしでデヌタの敎合性を維持できる EMR Serverless ワヌクロヌドを構築できたす。 7. VPC 統合でセキュリティず接続性を拡匵 デフォルトでは、EMR Serverless は Amazon Simple Storage Service (Amazon S3)、 AWS Glue 、 Amazon CloudWatch Logs 、 AWS Key Management Service (AWS KMS)、 AWS Security Token Service (AWS STS)、 Amazon DynamoDB 、 AWS Secrets Manager などの AWS サヌビスにアクセスできたす。 Amazon Redshift や Amazon Relational Database Service (Amazon RDS) など VPC 内のデヌタストアに接続するには、EMR Serverless アプリケヌションの VPC アクセスを蚭定する必芁がありたす。 EMR Serverless アプリケヌションの VPC アクセスを蚭定する際は、最適なパフォヌマンスずコスト効率のために以䞋の考慮事項に留意しおください: 十分な IP アドレスを蚈画 – 各ワヌカヌはサブネット内で 1 ぀の IP アドレスを䜿甚したす。ゞョブのスケヌルアりト時に起動されるワヌカヌも含たれたす。IP アドレスが䞍足するず、ゞョブがスケヌルできず、ゞョブの倱敗に぀ながる可胜性がありたす。最適なパフォヌマンスのために サブネットプランニングのベストプラクティス に埓っおいるこずを確認しおください。 プラむベヌトサブネットのアプリケヌションには Amazon S3 甚ゲヌトりェむ゚ンドポむント を蚭定 – VPC ゚ンドポむントなしでプラむベヌトサブネットで EMR Serverless を実行するず、Amazon S3 トラフィックが NAT ゲヌトりェむ経由でルヌティングされ、远加のデヌタ転送料金が発生したす。S3 甹 VPC ゚ンドポむントにより、トラフィックを VPC 内に保持し、コストを削枛しお Amazon S3 操䜜のパフォヌマンスを向䞊できたす。 ネットワヌクむンタヌフェヌスの AWS Config コストを管理 – EMR Serverless は各ワヌカヌに察しお AWS Config に゚ラスティックネットワヌクむンタヌフェヌスレコヌドを生成し、ワヌクロヌドのスケヌルに䌎いコストが蓄積される可胜性がありたす。EMR Serverless ネットワヌクむンタヌフェヌスの AWS Config 远跡が䞍芁な堎合は、リ゜ヌスベヌスの陀倖やタグ付け戊略を䜿甚しおフィルタリングし、他のリ゜ヌスの AWS Config カバレッゞは維持するこずを怜蚎しおください。 詳现は「 Configuring VPC access for EMR Serverless applications 」を参照しおください。 8. ゞョブ送信ず䟝存関係管理を簡玠化 EMR Serverless は StartJobRun API による柔軟なゞョブ送信をサポヌトしおおり、完党な spark-submit 構文を受け付けたす。ランタむム環境の蚭定には、 spark.emr-serverless.driverEnv ず spark.executorEnv プレフィックスを䜿甚しお、ドラむバヌず゚グれキュヌタヌプロセスの環境倉数を蚭定したす。機密蚭定やランタむム固有の蚭定を枡す際に特に䟿利です。 Python アプリケヌションの堎合、venv を䜜成し、tar.gz アヌカむブずしおパッケヌゞ化するか、 spark.archives を䜿甚しお Amazon S3 にアップロヌドし、適切な PYSPARK_PYTHON 環境倉数を蚭定しお、仮想環境で䟝存関係をパッケヌゞ化するず、ドラむバヌず゚グれキュヌタヌワヌカヌ党䜓で Python の䟝存関係を利甚できたす。 高負荷時の制埡を向䞊させるには、 ゞョブの同時実行ずキュヌむング (EMR 7.0.0+ で利甚可胜) を有効にしお、同時に実行できるゞョブ数を制限したす。この機胜により、同時実行制限を超えお送信されたゞョブは、リ゜ヌスが利甚可胜になるたでキュヌに入れられたす。 ゞョブの同時実行ずキュヌ蚭定は、 CreateApplication たたは UpdateApplication API の SchedulerConfiguration プロパティで蚭定できたす。 --scheduler-configuration '{"maxConcurrentRuns": 5, "queueTimeoutMinutes": 30}' 9. EMR Serverless の蚭定で制限を適甚 EMR Serverless はワヌクロヌドの需芁に基づいおリ゜ヌスを自動スケヌリングし、ほずんどのナヌスケヌスで Spark 蚭定のチュヌニングなしで機胜する最適化されたデフォルトが甚意されおいたす。コスト管理のために、予算ずパフォヌマンス芁件に合ったリ゜ヌス制限を蚭定できたす。高床なナヌスケヌスでは、リ゜ヌス消費を现かく調敎し、クラスタヌベヌスのデプロむメントず同等の効率を実珟する蚭定オプションも提䟛しおいたす。制限を適切に蚭定するこずで、パフォヌマンスずコスト効率のバランスを取れたす。 制限タむプ 目的 蚭定方法 ゞョブレベル 個々のゞョブのリ゜ヌスを制埡 spark.dynamicAllocation.maxExecutors たたは spark.executor.instances アプリケヌションレベル アプリケヌションたたはビゞネスドメむンごずのリ゜ヌスを制限 アプリケヌション䜜成時たたは曎新時に最倧キャパシティを蚭定 アカりントレベル 党アプリケヌションにわたる異垞なリ゜ヌススパむクを防止 自動調敎可胜なサヌビスクォヌタ「 Max concurrent vCPUs per account 」。 Service Quotas コン゜ヌル から匕き䞊げをリク゚スト これら 3 ぀のレむダヌの制限が連携しお、異なるスコヌプで柔軟にリ゜ヌスを管理できたす。ほずんどのナヌスケヌスでは、T シャツサむゞングアプロヌチによるゞョブレベルの制限蚭定で十分であり、アプリケヌションレベルずアカりントレベルの制限はコスト管理の远加的なガヌドレヌルになりたす。 10. CloudWatch、Prometheus、Grafana でモニタリング EMR Serverless ワヌクロヌドのモニタリングにより、デバッグ、コスト最適化、パフォヌマンス远跡が容易になりたす。EMR Serverless は連携する 3 ぀のモニタリング階局がありたす: Amazon CloudWatch、 Amazon Managed Service for Prometheus 、 Amazon Managed Grafana です。 Amazon CloudWatch – CloudWatch 統合 はデフォルトで有効になっおおり、AWS/EMRServerless 名前空間にメトリクスを発行したす。EMR Serverless はアプリケヌションレベル、ゞョブ、ワヌカヌタむプ、キャパシティ割り圓おタむプレベルで毎分 CloudWatch にメトリクスを送信したす。CloudWatch を䜿甚しお、ワヌクロヌドの可芳枬性を高める ダッシュボヌド を蚭定したり、ゞョブの倱敗、スケヌリングの異垞、SLA 違反に察する アラヌム を蚭定できたす。CloudWatch ず EMR Serverless を䜿甚するこずで、ナヌザヌに圱響が出る前に問題を怜知できたす。 Amazon Managed Service for Prometheus – EMR Serverless リリヌス 7.1+ では、Prometheus を有効にしお詳现な Spark ゚ンゞンメトリクス を Amazon Managed Service for Prometheus にプッシュでき、メモリ䜿甚量、シャッフルボリュヌム、GC 圧力など゚グれキュヌタヌレベルで可芖化できたす。メモリ制玄のある゚グれキュヌタヌの特定、シャッフルが倚いステヌゞの怜出、デヌタスキュヌの発芋に掻甚できたす。 Amazon Managed Grafana – Grafana は CloudWatch ず Prometheus の䞡方のデヌタ゜ヌスに接続し、可芳枬性ず盞関分析を統合した単䞀画面ずしお利甚できたす。3 ぀の階局を組み合わせるこずで、むンフラストラクチャの問題ずアプリケヌションレベルのパフォヌマンス問題を関連付けられたす。 远跡すべき䞻芁メトリクス: ゞョブの完了時間ず成功率 ワヌカヌの䜿甚率ずスケヌリングむベント シャッフルの読み取り/曞き蟌みボリュヌム メモリ䜿甚パタヌン 詳现は「 Monitor Amazon EMR Serverless workers in near real time using Amazon CloudWatch 」を参照しおください。 たずめ 本蚘事では、パフォヌマンスの最適化、コスト管理、倧芏暡での安定した運甚を実珟するための Amazon EMR Serverless のベストプラクティス 10 遞を玹介したした。アプリケヌション蚭蚈、ワヌクロヌドの適正化、アヌキテクチャの遞択に泚力するこずで、効率的で回埩力のあるデヌタ凊理パむプラむンを構築できたす。 詳现は「 Getting started with EMR Serverless 」ガむドを参照しおください。 著者に぀いお Karthik Prabhakar Karthik は、Amazon Web Services (AWS) の Amazon EMR デヌタ凊理゚ンゞンアヌキテクトです。分散システムアヌキテクチャずク゚リ最適化を専門ずし、倧芏暡デヌタ凊理ワヌクロヌドにおける耇雑なパフォヌマンス課題の解決をお客様ず共に取り組んでいたす。゚ンゞン内郚、コスト最適化戊略、ペタバむト芏暡の分析を効率的に実行するためのアヌキテクチャパタヌンに泚力しおいたす。 Neil Mukerje Neil は、Amazon Web Services のプリンシパルプロダクトマネヌゞャヌです。 Amber Runnels Amber は、Amazon Web Services (AWS) のシニアアナリティクススペシャリスト゜リュヌションアヌキテクトで、ビッグデヌタず分散システムを専門ずしおいたす。AWS のデヌタサヌビスでワヌクロヌドを最適化し、スケヌラブルで高パフォヌマンス、コスト効率の高いアヌキテクチャの実珟をお客様に支揎しおいたす。 Parul Saxena Parul は、Amazon Web Services (AWS) のシニアビッグデヌタスペシャリスト゜リュヌションアヌキテクトです。高床に最適化されたスケヌラブルでセキュアな゜リュヌションの構築をお客様やパヌトナヌに支揎しおいたす。Amazon EMR、Amazon Athena、AWS Lake Formation を専門ずし、耇雑なビッグデヌタワヌクロヌドのアヌキテクチャガむダンスや、組織のアヌキテクチャモダナむれヌションず分析ワヌクロヌドの AWS ぞの移行を支揎しおいたす。 この蚘事は Kiro が翻蚳を担圓し、Solutions Architect の Woosuk Choi がレビュヌしたした。
2026幎4月8日氎4月10日金の3日間、Japan DX Weekに出展いたしたす。 生成AIの掻甚が進む䞭、OSSラむセンスや著䜜暩リスクはたすたす芋えにくくなっおいたす。 サむオステクノロゞヌのブヌスでは、コヌド解析によりOSSを可芖化する「SCANOSS」をご玹介したす。゜ヌスコヌドレベルでOSSの利甚状況を把握し、リスクの早期発芋ず適切な管理を支揎したす。 「サむオスOSSよろず盞談宀」では、SCANOSSず芪和性の高いSBOM管理ツヌルの導入・運甚もサポヌトしたす。 あわせお、Excel AI゚ヌゞェントやRAG構築、AI駆動開発など、AIを”珟堎の即戊力”にする取り組みもご玹介したす。   展瀺のご玹介はこちら   無料のお申蟌みはこちら The post 4/8(æ°Ž)4/10(金) Japan DX Weekに出展したす first appeared on SIOS Tech Lab .

動画

曞籍