「Apache Spark」に関連する技術ブログ
企業やコミュニティが発信する「Apache Spark」に関連する技術ブログの一覧です。
全70件中 1 - 15件目
Associate Data Practitioner試験対策マニュアル
2024/11/12
ブックマーク
G-genの杉村です。Google Cloud(旧称 GCP)の認定資格である Associate Data Practitioner 資格の試験対策に有用な情報を記載します。 基本的な情報 Associate Data Practitioner とは 難易度 出題傾向 試験対策 ETL と ELT ETL と ELT の基本 オープンソースツールとフルマネージドサービス Cloud Data Fusion イベントドリブンアーキテクチャ データベースの選択 BigQuery BigQuery の基本 ELT と ETL 半構造化
Dataplex の データリネージ機能を BigQuery で試してみた
2024/11/01
ブックマーク
こんにちは、クラウドエース第三開発部の丸山です。 本記事では、Google Cloud で提供されている Dataplex の機能の一部である 「データリネージ」機能をご紹介します。 データリネージとは データリネージ (Data Lineage) とは、システム内のデータの移動を追跡するプロセスのことを指します。 データの送信元、データの送信先、データに適用される変換など、データのライフ
Amazon Redshift との Amazon DynamoDB ゼロ ETL 統合の始め方
2024/10/24
ブックマーク
Amazon DynamoDB と Amazon Redshift のゼロ ETL 統合の一般提供(GA)を発表できることをうれしく思います。これにより、DynamoDB 上の本番ワークロードへの影響をほとんどまたはまったく与えることなく、Amazon Redshift で DynamoDB データに対して高パフォーマンスな分析を実行できます。データが DynamoDB テーブルに書き込まれると、Amazon Redshift でシームレスに利用できるようになるため
Amazon Athena のパフォーマンスチューニング Tips トップ 10
2024/10/11
ブックマーク
2024 年 2 月に 更新された原文を日本語版として 9 月に反映しました: この記事は、コストベースの最適化とクエリ結果の再利用を含む Amazon Athena エンジンバージョン 3 の変更を反映するために確認および更新されました。 Amazon Athena は、オープンソースのフレームワークに基づいた対話型分析サービスで、標準の SQL を使って Amazon Simple Storage Service (Amazon S3) に格納された
週刊AWS – 2024/9/30週
2024/10/07
ブックマーク
みなさん、こんにちは。ソリューションアーキテクトの杉山です。今週も 週刊AWS をお届けします。 10 月 31 日 (木) 14:00-18:00 に、 AWS AI Day を開催します。物理的に来場する点に加えて、ライブ配信での視聴が事前登録できるようになりました。現地では、QuizKnock が審査員を行う AI ハッカソン決勝戦、展示ブース、スピーカーと会話ができる Ask a Speaker の場があるため、可
提供開始: Graviton4 を搭載したメモリで最適化された Amazon EC2 X8g インスタンス
2024/10/07
ブックマーク
Graviton 4 を搭載し、メモリを最適化した X8g インスタンスは、現在、最大 3 TiB の DDR5 メモリと最大 192 個の vCPU を備えた、10 の仮想サイズと 2 つのベアメタルサイズで利用できるようになりました。X8g インスタンスは、これまでで最もエネルギー効率が良く、これまでで同等の EC2 Graviton インスタンスの中で最高の料金パフォーマンスとスケールアップ機能を備えています
Azure Cosmos DB for MongoDBのデータベース移行: Azure DatabricksとAzure Data Factoryの比較
2024/09/30
ブックマーク
はじめに 背景 Azure Data Factory利用時の注意点 Azure DatabricksとAzure Data Factoryの比較 Azure Databricksの利用方法 Azure Databricksの作成 クラスターの作成 PySparkの記述方法 storesコレクション ordersコレクション merged_storesコレクション 終わりに はじめに 電通 総研XI本部AIトランスフォーメーションセンターの岩本です。この記事では、Azure Cosmos DB for MongoDBのデータベース移行手段として
rpy2を用いてPython上でRを使用した効果検証手法の簡単な実装
2024/09/20
ブックマーク
カケハシでデータサイエンティストをしている島吉です。 カケハシのデータサイエンティストは、AI在庫管理のエンジニアと連携したり、機械学習を使う業務が多いため、データ分析にはPythonを使用することが多いです。 しかし、統計的な手法のライブラリはRに多く存在しています。 たとえば、現在の業務では、効果検証に傾向スコアマッチングを使用しており、さま
AWS Weekly Roundup: Amazon DynamoDB、AWS AppSync、Storage Browser for Amazon S3 など (2024 年 9 月 9 日)
2024/09/11
ブックマーク
9月2日週、 最新の AWS ヒーロー が発表されました! AWS ヒーローは、インサイト、ベストプラクティス、革新的なソリューションを惜しみなく共有し、他のユーザーを支援する、素晴らしい技術エキスパートです。 AWS GenAI Loft は大盛況で、現在 サンフランシスコ と サンパウロ にて開催中です。また、今後数か月の間に ロンドン 、 パリ 、 ソウル で開催される予定です。
週刊AWS – 2024/9/2週
2024/09/09
ブックマーク
みなさん、こんにちは。ソリューションアーキテクトの根本です。 今週も 週刊AWS をお届けします。 関東は、秋めいた日も増えたように感じますが皆さんの地域はいかがでしょうか? この時期になるとre:Inventが楽しみな気持ちもありつつ、その前にもいくつかイベントが予定されています。 その一つが10月31日に開催されるAWS AI Dayです。本日からオンサイト参加の登録サ
週刊AWS – 2024/8/12週
2024/08/19
ブックマーク
みなさん、こんにちは。ソリューションアーキテクトの根本です。 今週も 週刊AWS をお届けします。 早速ですが、先日開催されたAWS Builders Online Seriesのセッションが登録なしでご覧いただけるようになりました。 https://resources.awscloud.com/aws-builders-online-series-japanese ご参加できなかった方もこれを機にぜひご活用いただけますと幸いです。 それでは、先週の主なアップデー
プロダクト開発にデータ職責として浸かってみて思ったこと
2024/08/14
ブックマーク
はじめに 背景 業務フロー 1. 分析の準備 KPIとログの設計 A/Bテストによる効果検証の準備 2. データの準備 エンジニアリング目線も加味しつつログ設計を最適化出来る データのニーズの変化に臨機応変に対応できる 3. データの分析 終わりに はじめに DELISH KITCHENでデータサイエンティストをやっている山西です。 今回は「データサイエンティストとしてプロダクト開発プ
BigQuery × Apache Iceberg で実現するデータレイクハウス構築
2024/08/02
ブックマーク
はじめに こんにちは、クラウドエース データソリューション部の松本です。 普段はデータ基盤や機械学習システムの構築を行なっており、Google Cloud 認定トレーナーとしてトレーニング提供もしています。 クラウドエース データソリューション部 について クラウドエースのITエンジニアリングを担う システム開発統括部 の中で、特にデータ基盤構築・分析基盤構築か
AWS Weekly Roundup: Llama 3.1、Mistral Large 2、AWS Step Functions、AWS 認定資格の更新など (2024 年 7 月 29 日)
2024/08/01
ブックマーク
Amazon Web Services (AWS) コミュニティメンバーの才能と情熱、特にテクノロジーコミュニティにおける多様性、公平性、インクルージョンを高めるための取り組みにはいつも驚かされます。 7月22日週、 Natalie が率いる AWS ユーザーグループウィメンベイエリア のミートアップで講演する機会がありました。このグループは、女性のエンパワーメントとつながりを促進し、クラ
DeltaLake Universal Formatを使ったクロスプラットフォーム分析
2024/07/30
ブックマーク
本記事では6月に開催された DATA+AI Summit 2024 でGeneral Availabilityが発表された Databricks のDeltaLake Universal Formatの機能を使ってクロスプラットフォームでの分析を実現する方法について紹介します。 DeltaLake Universal FormatはDeltaLakeに保存されたデータをApache Icebergなどの異なるフォーマットで読み出すことができるようにする機能です。本記事では実際にDatabricks上でDeltaLake Universal F