「Apache Spark」に関連する技術ブログ

全 155 件中 76 - 90 件目

2024年12月07日

この記事は株式会社LabBase テックカレンダー Advent Calendar 2024 7日目の記事です。ありがたいことに Advent Calendar の時期には AWS re:Invent があります。 AWS re:Invent で発表されたサービスを触れば記事が書けるのです。ありがたいですねぇ。正月は笑っている方が絶対いいですからね。今回は新しく発表された Amazon S3 Tables を触ります。 https://aws.amazon.com/jp/blogs/aws/new-

AWS, Apache Spark, SQL, Apache, Rust

LabBase

2024年12月02日

Testcontainersを利用したApache Kyuubiのユニットテスト環境構築

LINEヤフー Advent Calendar 2024の参加記事です。こんにちは。LINEヤフー株式会社ビジネスPF開発本部で LINE DMP の開発を担当している yamaguchi です...

Hadoop, Java, Nginx, Apache Spark, プログラミング, SQL, ネットワーク, テスト, データベース, Serverless

LINEヤフー Tech

2024年11月25日

週刊生成AI with AWS – 2024/11/18週

みなさん、こんにちは。AWS ソリューションアーキテクトの小林です。 11 月 15 日に、「生成AI Frontier Meet Up」というイベントを開催しました。このイベントは「AWSジャパン生成AI実用化推進プログラム」の一環として開催したもので、様々な課題を独自のモデル開発によって解決しようとするお客様、公開モデルを利用することで解決しようとするお客様の両方に登壇をいただき、取り組みの概要や現在のチャレンジについて共有をいただきました。また、このイベントには経済産業省が展開するGENIAC(Ge

AWS, JavaScript, Salesforce, Apache Spark, 機械学習, 人工知能, インフラ, データベース, Bot, 大規模言語モデル（LLM）

AWS

2024年11月21日

Amazon Data Firehose を使用して、データベースから Apache Iceberg テーブルに変更をレプリケート (プレビュー)

11 月 15 日、PostgreSQL や MySQL などのデータベースで行われた変更をキャプチャし、その更新を Amazon Simple Storage Service (Amazon S3) 上の Apache Iceberg テーブルにレプリケートする、 Amazon Data Firehose の新機能がプレビューで使用可能になったことをお知らせします。 Apache Iceberg は、ビッグデータ分析を実行するための高性能なオープンソーステーブル形式です。Apache Iceberg は

AWS, MySQL, PostgreSQL, Apache Spark, データ分析, ビッグデータ, テスト, OSS, データベース, Terraform

AWS

2024年11月12日

Associate Data Practitioner試験対策マニュアル

G-gen の杉村です。Google Cloud（旧称 GCP）の認定資格である Associate Data Practitioner 資格の試験対策に有用な情報を記載します。基本的な情報 Associate Data Practitioner とは難易度出題傾向試験対策 ETL と ELT ETL と ELT の基本オープンソースツールとフルマネージドサービス Cloud Data Fusion イベントドリブンアーキテクチャデータベースの選択 BigQuery BigQuery の基本

Google Cloud, MySQL, Python, Apache Spark, SQL, Google BigQuery, データ分析, テスト, 初心者, Looker

株式会社G-gen

2024年11月01日

Dataplex のデータリネージ機能を BigQuery で試してみた

こんにちは、クラウドエース第三開発部の丸山です。本記事では、Google Cloud で提供されている Dataplex の機能の一部である「データリネージ」機能をご紹介します。データリネージとはデータリネージ (Data Lineage) とは、システム内のデータの移動を追跡するプロセスのことを指します。データの送信元、データの送信先、データに適用される変換など、データのライフサイクル全体を可視化することで、データの信頼性向上やエラー分析を支援します。「リネージ」は、日本語では「血統」「家柄

Google Cloud, Apache Spark, SQL, Google BigQuery, API, OSS, Serverless

クラウドエース

2024年11月01日

Dataplex のデータリネージ機能を BigQuery で試してみた

Google Cloud, Apache Spark, SQL, Google BigQuery, API, OSS, Serverless

クラウドエース

2024年10月24日

Amazon Redshift との Amazon DynamoDB ゼロ ETL 統合の始め方

Amazon DynamoDB と Amazon Redshift のゼロ ETL 統合の一般提供(GA)を発表できることをうれしく思います。これにより、DynamoDB 上の本番ワークロードへの影響をほとんどまたはまったく与えることなく、Amazon Redshift で DynamoDB データに対して高パフォーマンスな分析を実行できます。データが DynamoDB テーブルに書き込まれると、Amazon Redshift でシームレスに利用できるようになるため、複雑なデータパイプラインを構築およびメ

AWS, Apache Spark, 機械学習, SQL, データ分析, ゲーム, API, データベース, Serverless, アーキテクチャ

AWS

2024年10月11日

Amazon Athena のパフォーマンスチューニング Tips トップ 10

2024 年 2 月に更新された原文を日本語版として 9 月に反映しました：この記事は、コストベースの最適化とクエリ結果の再利用を含む Amazon Athena エンジンバージョン 3 の変更を反映するために確認および更新されました。 Amazon Athena は、オープンソースのフレームワークに基づいた対話型分析サービスで、標準の SQL を使って Amazon Simple Storage Service (Amazon S3) に格納されたオープンテーブルおよびファイル形式のデータを簡単に分

AWS, Hadoop, Apache Spark, キャリア, SQL, データ分析, ビッグデータ, インフラ, ネットワーク, 電子工作

AWS

2024年10月07日

週刊AWS – 2024/9/30週

みなさん、こんにちは。ソリューションアーキテクトの杉山です。今週も週刊AWS をお届けします。 10 月 31 日 (木) 14:00-18:00 に、 AWS AI Day を開催します。物理的に来場する点に加えて、ライブ配信での視聴が事前登録できるようになりました。現地では、QuizKnock が審査員を行う AI ハッカソン決勝戦、展示ブース、スピーカーと会話ができる Ask a Speaker の場があるため、可能でしたら来場いただいたほうが良いですが、お時間の都合で難しい場合は、ライブ配信をご

AWS, Docker, MySQL, R, Apache Spark, ハッカソン, ネットワーク, ゲーム, API, アーキテクチャ

AWS

2024年10月07日

提供開始: Graviton4 を搭載したメモリで最適化された Amazon EC2 X8g インスタンス

Graviton 4 を搭載し、メモリを最適化した X8g インスタンスは、現在、最大 3 TiB の DDR5 メモリと最大 192 個の vCPU を備えた、10 の仮想サイズと 2 つのベアメタルサイズで利用できるようになりました。X8g インスタンスは、これまでで最もエネルギー効率が良く、これまでで同等の EC2 Graviton インスタンスの中で最高の料金パフォーマンスとスケールアップ機能を備えています。メモリと vCPU の比率が 16 対 1 のこれらのインスタンスは、Electronic

AWS, MySQL, PostgreSQL, Redis, Apache Spark, ネットワーク, テスト, Microservices, SAP, ハードウェア

AWS

2024年09月30日

Azure Cosmos DB for MongoDBのデータベース移行： Azure DatabricksとAzure Data Factoryの比較

はじめに背景 Azure Data Factory利用時の注意点 Azure DatabricksとAzure Data Factoryの比較 Azure Databricksの利用方法 Azure Databricksの作成クラスターの作成 PySparkの記述方法 storesコレクション ordersコレクション merged_storesコレクション終わりにはじめに電通総研XI本部AIトランスフォーメーションセンターの岩本です。この記事では、Azure Cosmos DB for Mo

MongoDB, Python, R, Scala, Apache Spark, 機械学習, SQL, ビッグデータ, プロジェクトマネジメント, オンプレミス

電通総研

2024年09月20日

rpy2を用いてPython上でRを使用した効果検証手法の簡単な実装

カケハシでデータサイエンティストをしている島吉です。カケハシのデータサイエンティストは、AI在庫管理のエンジニアと連携したり、機械学習を使う業務が多いため、データ分析にはPythonを使用することが多いです。しかし、統計的な手法のライブラリはRに多く存在しています。たとえば、現在の業務では、効果検証に傾向スコアマッチングを使用しており、さまざまな書籍でRを用いた使用例を多く見かけます。そこで、PythonとRの両方を使用し、Rが適した部分はRで実装し、ほかの処理は使い慣れたPythonで実装しよう

Python, R, Scala, Apache Spark, プログラミング, 機械学習, SQL, データ分析, 統計

株式会社カケハシ

2024年09月11日

AWS Weekly Roundup: Amazon DynamoDB、AWS AppSync、Storage Browser for Amazon S3 など (2024 年 9 月 9 日)

9月2日週、最新の AWS ヒーローが発表されました! AWS ヒーローは、インサイト、ベストプラクティス、革新的なソリューションを惜しみなく共有し、他のユーザーを支援する、素晴らしい技術エキスパートです。 AWS GenAI Loft は大盛況で、現在サンフランシスコとサンパウロにて開催中です。また、今後数か月の間にロンドン、パリ、ソウルで開催される予定です。9月2日週、サンフランシスコで開催されたワークショップの様子をご紹介します。 9月2日週のリリース私が注目したいくつかの

AWS, Apache Spark, アルゴリズム, ハンズオン, ワークショップ, スタートアップ, OSS, データベース, オンプレミス

AWS

2024年09月09日

週刊AWS – 2024/9/2週

みなさん、こんにちは。ソリューションアーキテクトの根本です。今週も週刊AWS をお届けします。関東は、秋めいた日も増えたように感じますが皆さんの地域はいかがでしょうか？この時期になるとre:Inventが楽しみな気持ちもありつつ、その前にもいくつかイベントが予定されています。その一つが10月31日に開催されるAWS AI Dayです。本日からオンサイト参加の登録サイトがオープンしました。 “AWS のテクノロジーで加速する生成 AI のプロダクション活用”について学べる機会ですので、ぜひご活用く