「Apache Spark」に関連する技術ブログ

AWS Weekly Roundup – Amazon MWAA、EMR Studio、生成系 AI など – 2023 年 8 月 14 日

2023/08/17

夏を満喫するためにカリフォルニアで数日を過ごしている間に AWS では多くのことが起こりました。一緒に見ていきましょう！ 8月7日週のリリース私が注目したリリースを以下に記載しました。 Amazon MWAA での Apache Airflow バージョン 2.6 のサポート – Amazon Managed Workflows for Apache Airflow (Amazon MWAA) はエンドツーエンドのデータパイプラインをクラウドでセットアップして運用

AWS, MongoDB, Apache Spark, セキュリティ, 自然言語処理, 人工知能, ビッグデータ, OSS, IDE, 大規模言語モデル（LLM）

Amazon SageMaker Processingによるシフトスケジュール、輸送経路選択、資源配分などの数理最適化問題の解決

2023/08/16

ブックマーク

この記事では、 Amazon SageMaker Processing API を使用して数値最適化問題を解く方法について説明します。最適化とは、様々な制約条件のもと、ある関数の最小値（または最大値）を求めるプロセスです。このパターンは、作業スタッフのシフト作成や輸送ルート選定、在庫配分、形状や軌跡の最適化など、ビジネスにおける重要な問題の解決に役立ちます。このような問題を

AWS, Docker, Python, Apache Spark, 機械学習, ネットワーク, フロントエンド, OSS, オンプレミス

AWS Storage Day 2023 にようこそ

2023/08/14

ブックマーク

第 5 回の AWS Storage Day へようこそ! このバーチャルイベントは、8月9日、太平洋標準時の午前 9:00 (東部標準時正午) に開催され、 AWS On Air Twitch チャンネルで視聴できます。最初の AWS Storage Day は 2019 年に開催されました。このイベントはイノベーションデーへと発展し、毎年皆様をお迎えできることを楽しみにしています。昨年の Storage Day の投稿で、データを安全に保護

AWS, Hadoop, Apache Spark, 機械学習, データ分析, 人工知能, ビッグデータ, インフラ, ネットワーク, ゲーム

Amazon EMR における高可用性キー配布センターの実装

2023/08/10

ブックマーク

このブログは Lorenzo Ripani (Big Data Solutions Architect) と Stefano Sandona (Analytics Specialist Solutions Architect) によって執筆された内容を日本語化したものです。原文はこちらを参照して下さい。高可用性（HA）とは、指定された期間、故障することなく継続的に稼働するシステムまたはサービスの特性です。システム全体に HA 特性を実装することで、通常、サービスの中断につながる

AWS, Docker, Hadoop, Apache Spark, ビッグデータ, インフラ, ネットワーク, テスト, OSS, 設計

AWS GlueのCI/CD環境を作ってみた

2023/07/13

ブックマーク

こんにちは、カケハシの横田です。今回は我々の会社で実践しているテクノロジーについてお話しします。我々の開発チームは、日々 Apache Spark を活用し 100 個以上のバッチ処理を運用する中で、 AWS Glue という Apache Spark のマネージドサービスに大いにお世話になっています。しかし、バッチ処理のテストを行う際にはいくつかの課題に直面します。特に想定外のデータへ

AWS, Docker, GitHub, Python, Apache Spark, Ubuntu, プログラミング, Linux, テスト, アーキテクチャ

シリーズ・すこしずつがんばる streaming data 処理 (4) Apache Flink を試す

2023/06/13

ブックマーク

シリーズ・すこしずつがんばる streaming data 処理の四回目です。 (初回はこちら) ステップを踏んですこしずつ進めていますので、ぜひ他の記事も見てみてください。今回は、streaming data 処理の他の例として Apache Flink を試してみます。Flink を触るのは今回はじめてです。Beam の他にどんなものがあるのかな? と調べてみると思った以上にいろいろとあり、その中で比較的シ

Apache Spark

Dataproc Serverlessを利用してPySparkを触ってみた

2023/05/31

ブックマーク

はじめにこんにちは、クラウドエースデータ/MLディビジョン所属の金です。前回はDataprocを利用してJupyter notebook上、PySparkでデータ処理を試してみました。そこで一つ残念だったのがやはりクラスタ管理が面倒なことでした。今回はDataproc Serverlessを利用して前回面倒だったクラスタ管理などもせずにPySparkでデータ処理を試してみます。前回の記事が気になる方は下記

Python, Apache Spark, Jupyter

Dataprocを利用してPySparkを触ってみた(feat.Jupyter Notebook)

2023/05/12

ブックマーク

はじめにこんにちは、クラウドエースデータ/MLディビジョン所属の金です。最近ビッグデータの重要度が高くなっているのでビッグデータ処理ができるさまざまな方法の一つのPySparkを試してみます。今回はGoogle CloudサービスのDataprocでクラスタを起動し、そこからJupyter Notebookを起動してPySparkを試してみます。 Cloud Dataprocとは？ Dataprocは、「Apache Hadoop、Apache Sparkなどの

Apache Spark, Jupyter, ビッグデータ

Redash(Presto)とDarabricksのDMLの構文違いについてまとめてみた

2023/04/26

ブックマーク

こんにちは、カケハシのデータ基盤チームで開発ディレクターをしている松田です。最近、歳のせいか疲れが溜まりやすくなっており、毎週サウナに通っています。カケハシでは今までRedashを利用して全社にデータ提供をしていましたが、去年の7月からDatabricksを利用することになりました。そのため、今までRedashで使っていたクエリやダッシュボードをDatabricksへ移行す

AWS, Hadoop, Apache Spark, SQL, データ分析, OSS, データベース, アーキテクチャ

DatabricksのAutoLoaderを利用してプロダクトの監査ログを取得した

2023/02/21

ブックマーク

初めまして、カケハシのデータ基盤チームでデータエンジニアをしている伊藤と申します。最近の悩みは、二郎ラーメンを食べていないのに「二郎ラーメンの匂い(臭い？)がする」と同居人に言われることです。私のニュースは置いといて、カケハシでは全社的なデータ活用基盤のプラットフォームとしてDatabricksを採用してから半年以上経過しました。 Databricksを導入し

AWS, Apache Spark, アーキテクチャ

DatabricksのAutoLoaderを利用してプロダクトの監査ログを取得した

2023/01/31

ブックマーク

初めまして、カケハシのデータ基盤チームでデータエンジニアをしている伊藤と申します。最近の悩みは、二郎ラーメンを食べていないのに「二郎ラーメンの匂い(臭い？)がする」と同居人に言われることです。私のニュースは置いといて、カケハシでは全社的なデータ活用基盤のプラットフォームとしてDatabricksを採用してから半年以上経過しました。 Databricksを導入し

AWS, Apache Spark, アーキテクチャ

2022年版 AWS Glue の Spark Job で Aurora MySQL にデータを書き込む方法まとめ

2023/01/31

ブックマーク

KAKEHASHI でバックエンドエンジニアをしている横田です。私が運用している Web サービスでは、AWS Glue で ETL 処理をしたデータを Aurora MySQL に投入することでユーザーが利用できるようにしています。その中でも「データを Aurora MySQL に投入する」方法に関して、今まで色々なパターンを試してきました。 AWS Glue の Job で作成したデータを Aurora に投入するいくつかのパター

AWS, MySQL, Apache Spark, SQL, ネットワーク

Google Cloudバッチ処理ツールざっくり整理2022

2022/12/28

ブックマーク

まえがきクラウドエース株式会社の亀梨と申します。SIインフラ領域を担当しております。 Batch (Cloud Batchではない)が 2022-10-11にGAとなりました。 Batchとは何なのか？似たような名前のWorkflows、Cloud Composer(こっちはCloudがつく)との関連は…？そんなことが気になって脳裏にチラついていたため、ざっくり調べてみました。書いていないこと Pub/Subはバッチ処理の枠に収まら

Google Cloud, Hadoop, Apache Spark

pandasユーザーがPandas API on Sparkでつまづいたあれこれ

2022/12/24

ブックマーク

こちらの記事は Databricks Advent Calendar 2022 の24日目の記事です。はじめに初めまして。カケハシでデータサイエンティストをしている赤池です。弊社はフルリモートで業務できるため今年9月から地元の仙台市で業務していますが、本格的な冬の到来を前に戦々恐々しています。（寒い。雪。路面凍結。）さて、あなたは「Pandas API on Spark」を知っていますか？これは「panda

JavaScript, Python, Apache Spark, SQL, データ分析, 初心者

Databricks導入でデータ分析における苦しみや悩みが消え、夢も叶った話

2022/12/23

ブックマーク

こちらの記事は Databricks Advent Calendar 2022 の23日目の記事です。はじめに初めまして。カケハシにてデータサイエンティストをしている赤池です。業種的に、自己紹介の際に統計学のビッグネームとの関係性を聞かれることがたまにありますが全く関係ありません。統計学もがんばります。突然ですが、あなたの分析環境では「 DBから抽出したデータをPythonやRなどで利

Python, R, Scala, Apache Spark, 機械学習, SQL, データ分析, Google Colab

AWS Weekly Roundup – Amazon MWAA、EMR Studio、生成系 AI など – 2023 年 8 月 14 日

Amazon SageMaker Processingによるシフトスケジュール、輸送経路選択、資源配分などの数理最適化問題の解決

AWS Storage Day 2023 にようこそ

Amazon EMR における高可用性キー配布センターの実装

AWS GlueのCI/CD環境を作ってみた

シリーズ・すこしずつがんばる streaming data 処理 (4) Apache Flink を試す

Dataproc Serverlessを利用してPySparkを触ってみた

Dataprocを利用してPySparkを触ってみた(feat.Jupyter Notebook)

Redash(Presto)とDarabricksのDMLの構文違いについてまとめてみた

DatabricksのAutoLoaderを利用してプロダクトの監査ログを取得した

DatabricksのAutoLoaderを利用してプロダクトの監査ログを取得した

2022年版 AWS Glue の Spark Job で Aurora MySQL にデータを書き込む方法まとめ

Google Cloudバッチ処理ツールざっくり整理2022

pandasユーザーがPandas API on Sparkでつまづいたあれこれ

Databricks導入でデータ分析における苦しみや悩みが消え、夢も叶った話

アクセス数ランキング

地味に嬉しい！Geminiを使ってGoogleドキュメントを瞬間的に要約する機能

「人を活かすAI」が明日の医療を切り拓く。カケハシの生成AI研究開発チームが描くビジョン

ソートアルゴリズムの基礎を深める

技術ブログに書けることがないわけない！

「なんでできないの？」と感じたときに、そっと読みたい話

タグから技術ブログをさがす

ソフトウェア開発

プログラミング

領域

TECH PLAY でイベントをはじめよう

エラータイトル