「Apache Spark」に関連する技術ブログ
企業やコミュニティが発信する「Apache Spark」に関連する技術ブログの一覧です。
全73件中 61 - 73件目
DynamoDBからS3へApache Hudiを使って同期してみた
2022/04/19
ブックマーク
KAKEHASHI でバックエンドエンジニアをしている横田です。 今回は、OLTP から OLAP へのデータ同期処理で、気になった技術を使ってみました。 背景・目的 DynamoDB のデータを S3 に日次で同期する必要がありました プロダクトで作っているデータをどうやって データレイク(S3) に持って来るのか?は難しい問題です データ量がそこまで多くない場合は、 DynamoDB Export を使って、
ETL処理がシンプルになる!AWS Glue 3.0で使えるようになったPySparkの関数紹介
2021/12/23
ブックマーク
KAKEHASHI の、Musubi Insight チームのエンジニアの横田です。 KAKEHASHI では BI ツールの Musubi Insight という Web アプリケーションを提供しています。 BI ツールでは薬剤師さんの業務データを可視化しておりますが、そのデータの集計処理には AWS Glue を使っています。 今年 AWS Glue 3.0 が使えるようになり、できることが増えました。 チームのデータ基盤の概要と、AWS Glue 3.0 になっ
Apache SparkのSparkSQLのstack関数を用いてデータを横持ちから縦持ちにする
2021/08/03
ブックマーク
はじめに はじめまして。 データストラテジストの田中です。普段は『DELISH KITCHEN』レシピ視聴実態の可視化やオーディエンス配信のレポート作成、サービス好意度の分析などの業務を行っています。 サービス好意度など定性的な要素が多い分析ではWEBアンケート調査のデータを活用していますが、WEBアンケート調査のローデータは質問内容がカラムとして横持ちで存在す
Delta LakeとLakehouseプラットフォームによるデータウェアハウス設計
2021/04/13
ブックマーク
Delta LakeとLakehouseプラットフォームによるデータウェアハウス設計 こんにちは。ビッグデータ処理基盤の物理レイヤーから論理レイヤーの設計実装、データエンジニアやデータサイエンティストのタスク管理全般を担当している、Data/AI部門の 何でも屋 マネージャの @smdmts です。 この記事は、弊社のデータ基盤の大部分を支えるDelta LakeとLakehouseプラットフォームによ
Amazon EMRのチュートリアルをやってみました
2020/12/25
ブックマーク
Amazon EMRを一度も利用したことがなかったので、data-analytics-specialty試験の学習ついでに実際にさわりながら自分へのメモを兼ねて情報を残します。 Amazon EMRとは aws.amazon.com Apache Spark、Apache Hive、Apache HBase、Apache Flink、Apache Hudi、Presto などのオープンソースのツールを 使用して膨大な量のデータを処理するための業界をリードするビッグデータのクラウドプラットフォーム と
機械学習をコモディティ化する AutoML ツールの評価
2020/11/11
ブックマーク
こんにちは、開発エンジニアの amdaba_sk( ペンネ ーム未定)です。 昨年度まで、 ラク スの開発部ではこれまで社内で利用していなかった技術要素を自社の開発に適合するか検証し、ビジネス要求に対して迅速に応えられるようにそなえる 「 開 ( か ) 発の 未 ( み ) 来に 先 ( せん ) 手をうつプロジェクト(通称:かみせんプロジェクト)」というプロジェクトが
社内初!商用アプリをKubernetes へ移行 フォルシア特有のフロー処理を組み合わせて
2020/10/02
ブックマーク
フォルシア技術研究所(技研)の原です。 技研では、新しいサービスの創出、および既存のサービスの拡張や効率化に資するべく、今までのフォルシアでは使われていなかった技術の開発、導入を進めています。 その一つが、商用アプリへの社内初の Kubernetes の導入です。この記事では、フォルシアでの Kubernetes の利用、工夫、苦労したところなどを紹介したいと思いま
機械学習のライブラリ・プラットフォームをいくつか試した所感まとめ
2020/04/08
ブックマーク
こんにちは、開発エンジニアの amdaba_sk( ペンネ ーム未定)です。 ラク スの開発部ではこれまで社内で利用していなかった技術要素を自社の開発に適合するか検証し、ビジネス要求に対して迅速に応えられるようにそなえる 「 開 ( か ) 発の 未 ( み ) 来に 先 ( せん ) 手をうつプロジェクト(通称:かみせんプロジェクト)」 というプロジェクトがあります。 こ
会社の非効率を無くす - エンジニア合宿に向けたテーマ決定までのプロセスを公開します
2019/11/21
ブックマーク
スマートキャンプでPMをしている郷田です! 10月に毎年恒例の開発合宿に行ってきました! 私たちチームは4日間で社員同士のコラボレーションを目的とした SPARK(スパーク) というプロダクトを作りました。 合宿記事第3弾として、この記事ではSPARKができるまでに行った課題抽出〜プロダクト立案までのプロセスをご紹介します! ▼過去の2本はこちら tech.smartcamp.co.jp te
【kubotak】中途入社しました。
2019/11/06
ブックマーク
こんにちは、こんばんは、おはようございます。 今月からM&Aクラウドにジョインしましたkubotakこと久保田です。 ツイッターはこちらです。宜しくおねがいします。 kubotak (@kubotak_public) | Twitter 前職では国内最大級のコスメのクチコミサイトを運営する会社でよくわからないエンジニアをやってました。 ときにはPHPでWebアプリケーションを作り、Golangでコンソールアプリケ
ZOZO大忘年会でFirebaseを使った1,000人規模のリアルタイムアンケートを制作した話
2019/01/09
ブックマーク
こんにちは! ZOZOテクノロジーズ フロントエンドエンジニアの高橋(ニックネームはQ)です( @anaheim0894 ) 昨年12/26、毎年年末に行われる大忘年会(ZOZOCAMP2018)で、 グループ会社 も含めた1,000人規模でのリアルタイムアンケートを、FirebaseとVue.jsを使って制作しました。 当日会場にて弊社の昨年の事業紹介や、「楽しく働く」というコンセプトの動画を流し、動画の合間
ScalaMatsuri 2018 参加レポート
2018/04/20
ブックマーク
こんにちは。 LIFULL HOME'S事業本部 不動産投資事業部の大塚と申します。普段はLIFULL HOME'S不動産投資というサイトの開発を主な業務として担当しております。 3/19(金)〜21(日)に開催されたScalaMatsuri 2018に参加してきましたので、今回はそのレポートをお届けしたいと思います。 ScalaMatsuriとは 毎年春先に開催されているアジアで最大級を誇るScalaに関するカンファレンス
機械学習とデータ分析を支えるAWSとGCPを利用したマルチクラウドアーキテクチャのお話
2016/12/20
ブックマーク
はじめに こんにちは、CTOの今村です。 先日弊社のiQONが3年連続でGoogle Play「2016年ベストアプリ」に選ばれました。また、今回 ベストイノベーティブ部門の大賞 を受賞しました。 イノベーティブ部門ということなので、Androidアプリの品質だけでなく、アプリの中にある様々な機能の技術的な取り組みも評価してもらった背景があるのかなと個人的には感じています。 さ