「Apache Spark」に関連する技術ブログ
企業やコミュニティが発信する「Apache Spark」に関連する技術ブログの一覧です。
全73件中 16 - 30件目
BigQuery × Apache Iceberg で実現するデータレイクハウス構築
2024/08/02
ブックマーク
はじめに こんにちは、クラウドエース データソリューション部の松本です。 普段はデータ基盤や機械学習システムの構築を行なっており、Google Cloud 認定トレーナーとしてトレーニング提供もしています。 クラウドエース データソリューション部 について クラウドエースのITエンジニアリングを担う システム開発統括部 の中で、特にデータ基盤構築・分析基盤構築か
AWS Weekly Roundup: Llama 3.1、Mistral Large 2、AWS Step Functions、AWS 認定資格の更新など (2024 年 7 月 29 日)
2024/08/01
ブックマーク
Amazon Web Services (AWS) コミュニティメンバーの才能と情熱、特にテクノロジーコミュニティにおける多様性、公平性、インクルージョンを高めるための取り組みにはいつも驚かされます。 7月22日週、 Natalie が率いる AWS ユーザーグループウィメンベイエリア のミートアップで講演する機会がありました。このグループは、女性のエンパワーメントとつながりを促進し、クラ
DeltaLake Universal Formatを使ったクロスプラットフォーム分析
2024/07/30
ブックマーク
本記事では6月に開催された DATA+AI Summit 2024 でGeneral Availabilityが発表された Databricks のDeltaLake Universal Formatの機能を使ってクロスプラットフォームでの分析を実現する方法について紹介します。 DeltaLake Universal FormatはDeltaLakeに保存されたデータをApache Icebergなどの異なるフォーマットで読み出すことができるようにする機能です。本記事では実際にDatabricks上でDeltaLake Universal F
PySparkを少し触ってみる
2024/06/27
ブックマーク
はじめに 会員システムグループのkiqkiqです。最近PySparkというライブラリを触ってみたので紹介したいと思います。 Apache Spark・PySparkとは PySparkは、Pythonを使ってApache Sparkを操作するためのライブラリです。そのApache Sparkというのは、オープンソースの大規模データ処理フレームワークで、高速で汎用的なデータ処理エンジンです。Sparkには主に4つの特徴があります。 分
2024 年 6 月第 3 週の Google Cloud の主なリリースに関するニュース
2024/06/18
ブックマーク
6 月 10 日 〜 6 月 14 日の期間にアナウンスされた Google Cloud の主なリリースに関してご紹介します。 ! 該当日の全ての情報を掲載しているものではございません。すべてのリリースノートを確認されたい方は、当該ページからご確認ください。 Virtual Private Cloud (VPC) Private Service Connect Port Mapping(Preview) 単一の Private Service Connect エンドポイントを介すことにより、コン
TypeScriptとPythonで直せると地味にうれしいコードと横断検索する方法
2024/05/24
ブックマーク
すべてのソースコードを読む時間があればよいのですが。 GitHubを横断して確認すると、ソースコードレベルで気になる箇所はよく見つかります。このとき他のコードベースでも起きてないか確認したいところです。ソースコードレベルの細かいレビューをコツコツしていくことは可能ですが、どうしても量が多くなってしまうのとスケールしづらいです。調査のためにも
Google Cloud でのビッグデータ処理の選択肢
2024/05/16
ブックマーク
はじめに こんにちは、クラウドエース データソリューション部所属の伊藤です。 普段は、データ基盤や機械学習基盤を中心とした案件に携わったり、エンジニアリングマネージャーをしたり、Google Cloud 認定トレーナーとしてトレーニングを提供したりしてます。 データ処理システムのよくある課題として、データ処理が遅い、今後データ量が増える、などといったもの
AWS Weekly Roundup: Amazon Bedrock、AWS Amplify Gen 2、Amazon RDS などの新機能 (2024 年 5 月 13 日)
2024/05/15
ブックマーク
AWS Summit は世界各国で最高潮を迎えており、最近では AWS Summit Singapore が開催されました! こちらは、Developer Lounge ブースでの AWS スタッフと ASEAN コミュニティメンバーの様子です。これには、サーバーレス、 Amazon Elastic Kubernetes Service (Amazon EKS) 、セキュリティ、生成 AI などに関するライトニングトークを行う AWS コミュニティ 講演者が参加しました。 5月6日週のリリース
Ray on Vertex AI 入門
2024/05/08
ブックマーク
はじめに こんにちは、クラウドエース データソリューション部の松本です。 普段は、データ基盤や MLOps を構築したり、Google Cloud 認定トレーナーとしてトレーニングを提供しております。 クラウドエース データソリューション部 について クラウドエースのITエンジニアリングを担う システム開発統括部 の中で、特にデータ基盤構築・分析基盤構築からデータ分析まで
Databricks Container ServiceでTensorRT-LLMを動かしてみた
2024/04/26
ブックマーク
本記事では Databricks のDatabricks Container Serviceを用いてNVIDIA社の推論ライブラリであるTensorRT-LLMを実行可能なNotebook環境を構築する方法を紹介します。 目次 目次 はじめに Databricks Container Service NVIDIA TensorRT-LLM 解決したいこと TensorRT-LLM Container Imageの作成 Databricks Containers ベースイメージの変更 Pytorch バージョンの変更 TensorRT-LLMのインストール 動作確認 Databricks環境設定 TensorRT-
Optimize your machine learning applications using BigQuery DataFrames(Google Cloud Next '24セッションレポート)
2024/04/11
ブックマーク
G-gen の堂原です。本記事は Google Cloud Next '24 in Las Vegas の 2 日目に行われた Breakout Session「 Optimize your machine learning applications using BigQuery DataFrames 」のレポートです。 他の Google Cloud Next '24 の関連記事は Google Cloud Next '24 カテゴリ の記事一覧からご覧いただけます。 セッションの概要 背景 BigQuery DataFrames デモ ユースケース 関連記事 セッションの概要 本セッションでは、この
【初級編】 Amazon EMRとはなんぞや?(概要と他社SaaS比較)
2024/03/12
ブックマーク
こんにちは、近藤(りょう)です!社内で複数の近藤さんがいますので識別するために()付きにしています。 ソリューションアーキテクトでも問題としてピックアップされていますね。EMRについていくつ調べましたので概要と他社SaaS比較についてご紹介していきます~! EMRとは? Hadoop, Spark, Hive, Presto などの オープンソースフレームワークを使⽤した ペタバイトスケ
Apache Beam と TensorFlow SavedModel に翻弄された記録
2024/01/19
ブックマーク
はじめに 2023年10月の1ヶ月間、AI事業本部、極予測AI予測チームで CA Tech Job ...
AWS Glue サーバーレス Spark UI導入によるモニタリングとトラブルシューティングの改善
2023/12/31
ブックマーク
AWS では、何十万ものお客様がサーバーレスデータ統合サービスである AWS Glue を使用して、アナリティクスや機械学習のためにデータを発見、結合、準備をしています。複雑なデータセットや負荷の高い Apache Spark ワークロードを使用している場合、Spark ジョブの実行中にパフォーマンスのボトルネックやエラーが発生することがあります。このような問題のトラブルシュ
持続可能性の為のモダンデータアーキテクチャ最適化 : 第二部 – 統合データガバナンス、データ移動、目的別分析
2023/12/26
ブックマーク
このブログは Sam Mokhtari, Dr. Ali Khoshkbar, Sandipan Bhaumik によって執筆された内容を翻訳したものです。原文は こちら を参照して下さい。 このブログシリーズの第一部「 持続可能性の為のモダンデータアーキテクチャ最適化 : 第一部 – データ取り込みとデータレイク 」では、 モダンデータアーキテクチャ における 1) データ取り込み、2) データレイクの柱に焦点を当てまし