イベント
イベントを探す
本日開催のイベント
明日開催のイベント
ランキング
カレンダー
マガジン
マガジンを読む
マガジン
技術ブログ
書籍
動画
動画を見る
グループ
グループを探す
グループを作る
イベントを作成・管理
学生の方はこちら
ログイン
|
新規会員登録
TOP
技術ブログまとめ
「Apache Spark」に関連する技術ブログ
「Apache Spark」に関連する技術ブログ
全 125 件中 106 - 120 件目
絞り込み
2022年12月17日
Bookmark Icon
Spark未経験のチームが2年間模索して実感した、効果的なパフォーマンス改善6選
こちらの記事は カケハシ Advent Calendar 2022 の17日目の記事になります。 こんにちは、カケハシで Musubi Insight のバックエンドエンジニアをしている末松です。 Musubi Insight に表示するデータは夜間の日次バッチで集計しているのですが、テスト・品質担保・パフォーマンスなどなど悩みが絶えません... 以前もバッチ処理のテストに関するブログを掲載しましたが、今回はパフォーマンスに関する記事になります! https://kakehashi-dev.hatenab
AWS
,
Python
,
Apache Spark
,
テスト
,
設計
株式会社カケハシ
2022年12月15日
Bookmark Icon
re:Invent 2022 で発表された AWS Glue for Rayを使ってみた!
本記事は2022/12/14時点の情報です。 サーバーワークス DS1課の吉岡です。 re:Invent 2022においてAWS Glue for Rayが発表されました。 この記事ではAWS Glue for Rayの使い方についてまとめたいと思います。 aws.amazon.com はじめに プレビュー版環境 Rayとは 並列分散処理とは SparkとRay Sparkの特徴 Rayの特徴 実際にやってみた コード内容 サンプルコード概要 コードの中身 Rayを用いてのジョブ作成 スクリプトの書き込み
AWS
,
Apache Spark
サーバーワークス
2022年12月06日
Bookmark Icon
求人取り込み周りのリプレイスについて
はじめに ジョブデータコアグループに所属している池田です。 ジョブデータコアグループでは、求人情報の取り込み、求人情報の管理、検索エンジンまでのインデックスを行っております。 我々のチームでは2020年11月からスタンバイのクローリングシステムをリアーキテクト・リプレイスしたのですが、 今回はその時の一部のプロダクトについて課題と実際に2年間運用してどうだったのか振り返りを書いていきます。 課題と背景 課題背景は過去のブログ「 スタンバイの求人情報取込の仕組みを作り直した話 〜序章〜 」でも記載しましたの
AWS
,
Elasticsearch
,
Java
,
Scala
,
Apache Spark
,
コードリーディング
,
インフラ
,
テスト
,
OSS
株式会社スタンバイ
2022年11月02日
Bookmark Icon
AWS GlueのSpark Jobでクローラーを使わずにデータカタログにテーブルを作成する
KAKEHASHI でバックエンドエンジニアをしている横田です。 今回は、一般的にクローラーを使って作成するであろう、データカタログのテーブルを Spark だけで実現する方法について紹介できればと思います。 背景・目的 MusubiInsight のプロダクトでは、薬剤師さんや薬局のマネージャーさん向けに業務実績データの可視化を行っています 可視化するデータは、夜間にバッチ処理で計算しています データ量としては数十 ~ 数百 GB あるので、集計処理基盤として AWS Glue の Spark Job
AWS
,
Hadoop
,
Python
,
Apache Spark
,
データ分析
,
データベース
,
DX
株式会社カケハシ
2022年09月28日
Bookmark Icon
ユニットテストで学ぶDataflowの基本
みなさんこんにちは、 電通国際情報サービス (ISID)コーポレート本部 システム推進部の佐藤太一です。 このエントリでは Google Dataflowを使ったデータ分析パイプライン構築において中心的な API の使い方について説明します。 Google Dataflowとはなにか Dataflowの開発環境構築 GradleによるDataflowプロジェクトの作り方 Apache Beamの基礎 Pipelineについて PCollectionについて ParDoを使った逐次処理の書き方 Datafl
Go
,
Google Cloud
,
Java
,
Python
,
Apache Spark
,
Google BigQuery
,
Apache
電通総研
2022年09月12日
Bookmark Icon
カケハシがDatabricksを導入した背景と技術選定のポイント
初めまして、カケハシのデータ基盤チームでデータエンジニアしている大木と申します。 この度カケハシでは、全社的なデータ活用基盤のプラットフォームとしてDatabricksを採用し、2022/07より本格導入することとなりました。 当記事では、カケハシがDatabricksを採用するに至った技術選定の背景について紹介させていただきます。 ※カケハシのデータ基盤の組成のお話はこちらの記事で詳しく紹介されておりますので良ければご覧ください。 カケハシのデータ基盤アーキテクチャと課題 まずカケハシのデータ基盤のアー
AWS
,
Google Cloud
,
Python
,
R
,
Salesforce
,
Scala
,
Apache Spark
,
SQL
,
Apache
,
データ分析
株式会社カケハシ
2022年08月09日
Bookmark Icon
AWS Outpostsで実現するオンプレデータレイク
はじめに こんにちは、イノベーションセンターの鈴ヶ嶺です。普段はクラウドサービスをオンプレ環境でも同様のUI/UXで使用を可能とするハイブリッドクラウド製品の技術検証をしています。 NTT Comでは以下の過去の記事のように、AWSのハイブリッドクラウドソリューションAWS Outposts ラックの導入や技術検証を進めています。 engineers.ntt.com engineers.ntt.com engineers.ntt.com 本記事では、AWS Outpostsで実現するオンプレ環境におけるデ
AWS
,
Hadoop
,
Apache Spark
,
セキュリティ
,
データ分析
,
インフラ
,
OSS
,
アーキテクチャ
,
ハードウェア
,
設計
NTTドコモビジネス
2022年04月19日
Bookmark Icon
DynamoDBからS3へApache Hudiを使って同期してみた
KAKEHASHI でバックエンドエンジニアをしている横田です。 今回は、OLTP から OLAP へのデータ同期処理で、気になった技術を使ってみました。 背景・目的 DynamoDB のデータを S3 に日次で同期する必要がありました プロダクトで作っているデータをどうやって データレイク(S3) に持って来るのか?は難しい問題です データ量がそこまで多くない場合は、 DynamoDB Export を使って、毎日全量のデータを同期することができていたのですが、毎日全量の同期は時間が間に合わない量になっ
AWS
,
MySQL
,
Python
,
Apache Spark
,
Apache
,
ビッグデータ
,
OSS
,
データベース
株式会社カケハシ
2021年12月23日
Bookmark Icon
ETL処理がシンプルになる!AWS Glue 3.0で使えるようになったPySparkの関数紹介
KAKEHASHI の、Musubi Insight チームのエンジニアの横田です。 KAKEHASHI では BI ツールの Musubi Insight という Web アプリケーションを提供しています。 BI ツールでは薬剤師さんの業務データを可視化しておりますが、そのデータの集計処理には AWS Glue を使っています。 今年 AWS Glue 3.0 が使えるようになり、できることが増えました。 チームのデータ基盤の概要と、AWS Glue 3.0 になって新たに使えるようになった PySpa
AWS
,
Docker
,
MySQL
,
Apache Spark
株式会社カケハシ
2021年08月03日
Bookmark Icon
Apache SparkのSparkSQLのstack関数を用いてデータを横持ちから縦持ちにする
はじめに はじめまして。 データストラテジストの田中です。普段は『DELISH KITCHEN』レシピ視聴実態の可視化やオーディエンス配信のレポート作成、サービス好意度の分析などの業務を行っています。 サービス好意度など定性的な要素が多い分析ではWEBアンケート調査のデータを活用していますが、WEBアンケート調査のローデータは質問内容がカラムとして横持ちで存在することが多いのが特徴です。 今回はデータベースでも扱いやすいよう「Apache Spark環境下で横持ちのデータを縦持ちにする」TIPSをお伝えし
Apache Spark
,
Apache
,
データベース
株式会社エブリー
2021年04月13日
Bookmark Icon
Delta LakeとLakehouseプラットフォームによるデータウェアハウス設計
Delta LakeとLakehouseプラットフォームによるデータウェアハウス設計 こんにちは。ビッグデータ処理基盤の物理レイヤーから論理レイヤーの設計実装、データエンジニアやデータサイエンティストのタスク管理全般を担当している、Data/AI部門の 何でも屋 マネージャの @smdmts です。 この記事は、弊社のデータ基盤の大部分を支えるDelta LakeとLakehouseプラットフォームによるデータウェアハウス設計の紹介です。 Databricks社が主体となり開発している Delta L
AWS
,
Apache Spark
,
ビッグデータ
株式会社エブリー
2020年12月25日
Bookmark Icon
Amazon EMRのチュートリアルをやってみました
Amazon EMRを一度も利用したことがなかったので、data-analytics-specialty試験の学習ついでに実際にさわりながら自分へのメモを兼ねて情報を残します。 Amazon EMRとは aws.amazon.com Apache Spark、Apache Hive、Apache HBase、Apache Flink、Apache Hudi、Presto などのオープンソースのツールを 使用して膨大な量のデータを処理するための業界をリードするビッグデータのクラウドプラットフォーム との事で
Hadoop
,
Apache Spark
,
SQL
,
Apache
,
ビッグデータ
,
インフラ
,
OSS
,
NoSQL
サーバーワークス
2020年11月11日
Bookmark Icon
機械学習をコモディティ化する AutoML ツールの評価
こんにちは、開発エンジニアの amdaba_sk( ペンネ ーム未定)です。 昨年度まで、 ラク スの開発部ではこれまで社内で利用していなかった技術要素を自社の開発に適合するか検証し、ビジネス要求に対して迅速に応えられるようにそなえる 「 開 ( か ) 発の 未 ( み ) 来に 先 ( せん ) 手をうつプロジェクト(通称:かみせんプロジェクト)」というプロジェクトがありました。本年度からは規模を拡大し、「技術推進プロジェクト」と名称を改めて再スタートされました。 本記事では、昨年度かみせんプロジェク
AWS
,
Azure
,
Google Cloud
,
Java
,
Python
,
R
,
Scala
,
Apache Spark
,
API
,
Kaggle
株式会社ラクス
2020年10月02日
Bookmark Icon
社内初!商用アプリをKubernetes へ移行 フォルシア特有のフロー処理を組み合わせて
フォルシア技術研究所(技研)の原です。 技研では、新しいサービスの創出、および既存のサービスの拡張や効率化に資するべく、今までのフォルシアでは使われていなかった技術の開発、導入を進めています。 その一つが、商用アプリへの社内初の Kubernetes の導入です。この記事では、フォルシアでの Kubernetes の利用、工夫、苦労したところなどを紹介したいと思います。 (その他、技研ではRust によるインメモリDBの開発なども行っており、Rust については、 Software Design 6月号(
AWS
,
Azure
,
Google Cloud
,
Apache Spark
,
ハンズオン
,
SaaS
,
Rust
,
Kubernetes
,
インフラ
,
API
フォルシア
2020年04月08日
Bookmark Icon
機械学習のライブラリ・プラットフォームをいくつか試した所感まとめ
こんにちは、開発エンジニアの amdaba_sk( ペンネ ーム未定)です。 ラク スの開発部ではこれまで社内で利用していなかった技術要素を自社の開発に適合するか検証し、ビジネス要求に対して迅速に応えられるようにそなえる 「 開 ( か ) 発の 未 ( み ) 来に 先 ( せん ) 手をうつプロジェクト(通称:かみせんプロジェクト)」 というプロジェクトがあります。 この記事はかみせんプロジェクト2019年度下期成果報告ブログの一つです。 前回の成果報告では 「機械学習プロジェクトの進め方」について検
AWS
,
Java
,
Python
,
R
,
Scala
,
Apache Spark
,
Windows
,
Linux
,
API
,
MeCab
株式会社ラクス
1
More pages
6
7
8
9
ブログランキング
1
ランサムウェア対策におけるパッチ管理 ─ AWS Systems Manager Patch Manager によるパッチ適用とパッチコンプライアンスの可視化
サーバーワークス
2
Amazon ECS Express Mode を使用して、インフラストラクチャを複雑化することなく、本番環境に対応したアプリケーションを構築
AWS
3
20日間でAI資格合格したけど、予想以上に手強かった話
SHIFT EVOLVE
4
Kiroを使ったペアプログラミングのすすめ
AWS
5
Excel業務をフル自動化するパターン別アーキテクチャ
SHIFT EVOLVE
集計期間: 2025年11月21日 〜 2025年11月27日
タグからブログをさがす
ソフトウェア開発
Atom
情報共有ツール
Cline
Microservices
プログラミング
React
Laravel
Django
プログラミング
TECH PLAY でイベントをはじめよう
グループを作れば、無料で誰でもイベントページが作成できます。 情報発信や交流のためのイベントをTECH PLAY で公開してみませんか?
無料でイベントをはじめる
ブログを絞り込む
キーワード
タグ
絞り込む
クリア
キーワード
タグ
絞り込む
クリア
ブログランキング
1
ランサムウェア対策におけるパッチ管理 ─ AWS Systems Manager Patch Manager によるパッチ適用とパッチコンプライアンスの可視化
サーバーワークス
2
Amazon ECS Express Mode を使用して、インフラストラクチャを複雑化することなく、本番環境に対応したアプリケーションを構築
AWS
3
20日間でAI資格合格したけど、予想以上に手強かった話
SHIFT EVOLVE
4
Kiroを使ったペアプログラミングのすすめ
AWS
5
Excel業務をフル自動化するパターン別アーキテクチャ
SHIFT EVOLVE
集計期間: 2025年11月21日 〜 2025年11月27日
タグからブログをさがす
ソフトウェア開発
Atom
情報共有ツール
Cline
Microservices
プログラミング
React
Laravel
Django
プログラミング
TECH PLAY でイベントをはじめよう
グループを作れば、無料で誰でもイベントページが作成できます。 情報発信や交流のためのイベントをTECH PLAY で公開してみませんか?
無料でイベントをはじめる