「Apache Spark」に関連する技術ブログ

全 155 件中 121 - 135 件目

2023年08月16日

Amazon SageMaker Processingによるシフトスケジュール、輸送経路選択、資源配分などの数理最適化問題の解決

この記事では、 Amazon SageMaker Processing API を使用して数値最適化問題を解く方法について説明します。最適化とは、様々な制約条件のもと、ある関数の最小値（または最大値）を求めるプロセスです。このパターンは、作業スタッフのシフト作成や輸送ルート選定、在庫配分、形状や軌跡の最適化など、ビジネスにおける重要な問題の解決に役立ちます。このような問題を解くためには、商用もしくはオープンソースで提供される“ソルバー”というソフトウェアが利用されます。この記事では、無償で利用できる3つの

AWS, Docker, Python, Apache Spark, 機械学習, ネットワーク, フロントエンド, OSS, オンプレミス

AWS

2023年08月14日

AWS Storage Day 2023 にようこそ

第 5 回の AWS Storage Day へようこそ! このバーチャルイベントは、8月9日、太平洋標準時の午前 9:00 (東部標準時正午) に開催され、 AWS On Air Twitch チャンネルで視聴できます。最初の AWS Storage Day は 2019 年に開催されました。このイベントはイノベーションデーへと発展し、毎年皆様をお迎えできることを楽しみにしています。昨年の Storage Day の投稿で、データを安全に保護しながら活用できるようにすることを目指した AWS St

AWS, Hadoop, Apache Spark, 機械学習, データ分析, 人工知能, ビッグデータ, インフラ, ネットワーク, ゲーム

AWS

2023年08月10日

Amazon EMR における高可用性キー配布センターの実装

このブログは Lorenzo Ripani (Big Data Solutions Architect) と Stefano Sandona (Analytics Specialist Solutions Architect) によって執筆された内容を日本語化したものです。原文はこちらを参照して下さい。高可用性（HA）とは、指定された期間、故障することなく継続的に稼働するシステムまたはサービスの特性です。システム全体に HA 特性を実装することで、通常、サービスの中断につながる単一障害点を排除し、ビ

AWS, Docker, Hadoop, Apache Spark, ビッグデータ, インフラ, ネットワーク, テスト, OSS, 設計

AWS

2023年07月13日

AWS GlueのCI/CD環境を作ってみた

こんにちは、カケハシの横田です。今回は我々の会社で実践しているテクノロジーについてお話しします。我々の開発チームは、日々 Apache Spark を活用し 100 個以上のバッチ処理を運用する中で、 AWS Glue という Apache Spark のマネージドサービスに大いにお世話になっています。しかし、バッチ処理のテストを行う際にはいくつかの課題に直面します。特に想定外のデータへの網羅性を確認することが難しく、それを検証するために今までは本番データを使って毎回確認を行っていました。そうすると、1

AWS, Docker, GitHub, Python, Apache Spark, Ubuntu, プログラミング, Linux, テスト, アーキテクチャ

株式会社カケハシ

2023年06月13日

シリーズ・すこしずつがんばる streaming data 処理 (4) Apache Flink を試す

シリーズ・すこしずつがんばる streaming data 処理の四回目です。 (初回はこちら) ステップを踏んですこしずつ進めていますので、ぜひ他の記事も見てみてください。今回は、streaming data 処理の他の例として Apache Flink を試してみます。Flink を触るのは今回はじめてです。Beam の他にどんなものがあるのかな? と調べてみると思った以上にいろいろとあり、その中で比較的シンプルそう・スケールする・比較的新しそうということで選択しました。ほんとうは Apach

Apache Spark

株式会社スクウェア・エニックス

2023年05月31日

Dataproc Serverlessを利用してPySparkを触ってみた

はじめにこんにちは、クラウドエースデータ/MLディビジョン所属の金です。前回はDataprocを利用してJupyter notebook上、PySparkでデータ処理を試してみました。そこで一つ残念だったのがやはりクラスタ管理が面倒なことでした。今回はDataproc Serverlessを利用して前回面倒だったクラスタ管理などもせずにPySparkでデータ処理を試してみます。前回の記事が気になる方は下記のURLからご覧ください。 https://zenn.dev/cloud_ace/arti

Python, Apache Spark, Jupyter

クラウドエース

2023年05月12日

Dataprocを利用してPySparkを触ってみた(feat.Jupyter Notebook)

はじめにこんにちは、クラウドエースデータ/MLディビジョン所属の金です。最近ビッグデータの重要度が高くなっているのでビッグデータ処理ができるさまざまな方法の一つのPySparkを試してみます。今回はGoogle CloudサービスのDataprocでクラスタを起動し、そこからJupyter Notebookを起動してPySparkを試してみます。 Cloud Dataprocとは？ Dataprocは、「Apache Hadoop、Apache Sparkなどのクラスタを簡単かつ効率が高い方法で実

Apache Spark, Jupyter, ビッグデータ

クラウドエース

2023年04月26日

Redash(Presto)とDarabricksのDMLの構文違いについてまとめてみた

こんにちは、カケハシのデータ基盤チームで開発ディレクターをしている松田です。最近、歳のせいか疲れが溜まりやすくなっており、毎週サウナに通っています。カケハシでは今までRedashを利用して全社にデータ提供をしていましたが、去年の7月からDatabricksを利用することになりました。そのため、今までRedashで使っていたクエリやダッシュボードをDatabricksへ移行する必要がありました。その時に、Redash（Presto）とDatabricksのデータベース操作言語（DML）違いで少しハマり、

AWS, Hadoop, Apache Spark, SQL, データ分析, OSS, データベース, アーキテクチャ

株式会社カケハシ

2023年02月21日

DatabricksのAutoLoaderを利用してプロダクトの監査ログを取得した

初めまして、カケハシのデータ基盤チームでデータエンジニアをしている伊藤と申します。最近の悩みは、二郎ラーメンを食べていないのに「二郎ラーメンの匂い(臭い？)がする」と同居人に言われることです。私のニュースは置いといて、カケハシでは全社的なデータ活用基盤のプラットフォームとしてDatabricksを採用してから半年以上経過しました。 Databricksを導入してから今まではバッチ処理しかしてませんでしたが、最近になってAutoLoaderを利用してストリーム処理をするようになりました。その対象として、弊

AWS, Apache Spark, アーキテクチャ

株式会社カケハシ

2023年01月31日

DatabricksのAutoLoaderを利用してプロダクトの監査ログを取得した

AWS, Apache Spark, アーキテクチャ

株式会社カケハシ

2023年01月31日

2022年版 AWS Glue の Spark Job で Aurora MySQL にデータを書き込む方法まとめ

KAKEHASHI でバックエンドエンジニアをしている横田です。私が運用している Web サービスでは、AWS Glue で ETL 処理をしたデータを Aurora MySQL に投入することでユーザーが利用できるようにしています。その中でも「データを Aurora MySQL に投入する」方法に関して、今まで色々なパターンを試してきました。 AWS Glue の Job で作成したデータを Aurora に投入するいくつかのパターンとそのメリット・デメリットについて紹介できればと思います。 Aur

AWS, MySQL, Apache Spark, SQL, ネットワーク

株式会社カケハシ

2022年12月28日

Google Cloudバッチ処理ツールざっくり整理2022

まえがきクラウドエース株式会社の亀梨と申します。SIインフラ領域を担当しております。 Batch (Cloud Batchではない)が 2022-10-11にGAとなりました。 Batchとは何なのか？似たような名前のWorkflows、Cloud Composer(こっちはCloudがつく)との関連は…？そんなことが気になって脳裏にチラついていたため、ざっくり調べてみました。書いていないこと Pub/Subはバッチ処理の枠に収まらない汎用キューなので除外しています。 Dataprocはそれ単体で完

Google Cloud, Hadoop, Apache Spark

クラウドエース

2022年12月24日

pandasユーザーがPandas API on Sparkでつまづいたあれこれ

こちらの記事はDatabricks Advent Calendar 2022の24日目の記事です。はじめに初めまして。カケハシでデータサイエンティストをしている赤池です。弊社はフルリモートで業務できるため今年9月から地元の仙台市で業務していますが、本格的な冬の到来を前に戦々恐々しています。（寒い。雪。路面凍結。）さて、あなたは「Pandas API on Spark」を知っていますか？これは「pandasと同じ書き方でSpark上で処理を実行できる」という代物で、pandasでは処理に時間がかか

JavaScript, Python, Apache Spark, SQL, データ分析, 初心者

株式会社カケハシ

2022年12月23日

Databricks導入でデータ分析における苦しみや悩みが消え、夢も叶った話

こちらの記事はDatabricks Advent Calendar 2022の23日目の記事です。はじめに初めまして。カケハシにてデータサイエンティストをしている赤池です。業種的に、自己紹介の際に統計学のビッグネームとの関係性を聞かれることがたまにありますが全く関係ありません。統計学もがんばります。突然ですが、あなたの分析環境では「DBから抽出したデータをPythonやRなどで利用する際にうまく連携できていない」なんてことはありませんか？そして「この処理だけはRでやりたいが、そのためだけに別環境

Python, R, Scala, Apache Spark, 機械学習, SQL, データ分析, Google Colab

株式会社カケハシ

2022年12月22日

Redash から Databricks SQL へ移行すると何がどう変わる？？

こちらの記事は Databricks Advent Calendar 2022 の22日目の記事になります。こんにちは、カケハシで Musubi Insight のバックエンドエンジニアをしている末松です。カケハシでは全社的なデータ活用基盤のプラットフォームとしてDatabricksを採用しておりますが、それまでは Redash を利用していました。 Redash は Databricks社にM&A された背景もあり、基本的には Redash を使っていた感覚のまま Databricks SQL

Apache Spark, SQL, HTML, データ分析, データベース

株式会社カケハシ