TECH PLAY

Apache Spark」に関連する技術ブログ

125 件中 61 - 75 件目
Graviton 4 を搭載し、メモリを最適化した X8g インスタンスは、現在、最大 3 TiB の DDR5 メモリと最大 192 個の vCPU を備えた、10 の仮想サイズと 2 つのベアメタルサイズで利用できるようになりました。X8g インスタンスは、これまでで最もエネルギー効率が良く、これまでで同等の EC2 Graviton インスタンスの中で最高の料金パフォーマンスとスケールアップ機能を備えています。メモリと vCPU の比率が 16 対 1 のこれらのインスタンスは、Electronic
はじめに 背景 Azure Data Factory利用時の注意点 Azure DatabricksとAzure Data Factoryの比較 Azure Databricksの利用方法 Azure Databricksの作成 クラスターの作成 PySparkの記述方法 storesコレクション ordersコレクション merged_storesコレクション 終わりに はじめに 電通 総研XI本部AIトランスフォーメーションセンターの岩本です。この記事では、Azure Cosmos DB for Mo
カケハシでデータサイエンティストをしている島吉です。 カケハシのデータサイエンティストは、AI在庫管理のエンジニアと連携したり、機械学習を使う業務が多いため、データ分析にはPythonを使用することが多いです。 しかし、統計的な手法のライブラリはRに多く存在しています。 たとえば、現在の業務では、効果検証に傾向スコアマッチングを使用しており、さまざまな書籍でRを用いた使用例を多く見かけます。 そこで、PythonとRの両方を使用し、Rが適した部分はRで実装し、ほかの処理は使い慣れたPythonで実装しよう
9月2日週、 最新の AWS ヒーロー が発表されました! AWS ヒーローは、インサイト、ベストプラクティス、革新的なソリューションを惜しみなく共有し、他のユーザーを支援する、素晴らしい技術エキスパートです。 AWS GenAI Loft は大盛況で、現在 サンフランシスコ と サンパウロ にて開催中です。また、今後数か月の間に ロンドン 、 パリ 、 ソウル で開催される予定です。9月2日週、サンフランシスコで開催されたワークショップの様子をご紹介します。 9月2日週のリリース 私が注目したいくつかの
みなさん、こんにちは。ソリューションアーキテクトの根本です。 今週も 週刊AWS をお届けします。 関東は、秋めいた日も増えたように感じますが皆さんの地域はいかがでしょうか? この時期になるとre:Inventが楽しみな気持ちもありつつ、その前にもいくつかイベントが予定されています。 その一つが10月31日に開催されるAWS AI Dayです。本日からオンサイト参加の登録サイトがオープンしました。 “AWS のテクノロジーで加速する生成 AI のプロダクション活用”について学べる機会ですので、ぜひご活用く
みなさん、こんにちは。ソリューションアーキテクトの根本です。 今週も 週刊AWS をお届けします。 早速ですが、先日開催されたAWS Builders Online Seriesのセッションが登録なしでご覧いただけるようになりました。 https://resources.awscloud.com/aws-builders-online-series-japanese ご参加できなかった方もこれを機にぜひご活用いただけますと幸いです。 それでは、先週の主なアップデートについて振り返っていきましょう。 202
はじめに 背景 業務フロー 1. 分析の準備 KPIとログの設計 A/Bテストによる効果検証の準備 2. データの準備 エンジニアリング目線も加味しつつログ設計を最適化出来る データのニーズの変化に臨機応変に対応できる 3. データの分析 終わりに はじめに DELISH KITCHENでデータサイエンティストをやっている山西です。 今回は「データサイエンティストとしてプロダクト開発プロジェクトに積極関与した経験談」をお送りします。 背景 DELISH KITCHENをはじめとするプロダクトの開発/改善は
はじめに こんにちは、クラウドエース データソリューション部の松本です。 普段はデータ基盤や機械学習システムの構築を行なっており、Google Cloud 認定トレーナーとしてトレーニング提供もしています。 クラウドエース データソリューション部 について クラウドエースのITエンジニアリングを担う システム開発統括部 の中で、特にデータ基盤構築・分析基盤構築からデータ分析までを含む一貫したデータ課題の解決を専門とするのが データソリューション部 です。 弊社では、新たに仲間に加わってくださる方を募集して
Amazon Web Services (AWS) コミュニティメンバーの才能と情熱、特にテクノロジーコミュニティにおける多様性、公平性、インクルージョンを高めるための取り組みにはいつも驚かされます。 7月22日週、 Natalie が率いる AWS ユーザーグループウィメンベイエリア のミートアップで講演する機会がありました。このグループは、女性のエンパワーメントとつながりを促進し、クラウドコンピューティングの探求を支援する環境を提供しています。ラテンアメリカでは最近、10 か国における 12 の女性が
本記事では6月に開催された DATA+AI Summit 2024 でGeneral Availabilityが発表された Databricks のDeltaLake Universal Formatの機能を使ってクロスプラットフォームでの分析を実現する方法について紹介します。 DeltaLake Universal FormatはDeltaLakeに保存されたデータをApache Icebergなどの異なるフォーマットで読み出すことができるようにする機能です。本記事では実際にDatabricks上でDe
はじめに 会員システムグループのkiqkiqです。最近PySparkというライブラリを触ってみたので紹介したいと思います。 Apache Spark・PySparkとは PySparkは、Pythonを使ってApache Sparkを操作するためのライブラリです。そのApache Sparkというのは、オープンソースの大規模データ処理フレームワークで、高速で汎用的なデータ処理エンジンです。Sparkには主に4つの特徴があります。 分散処理 Sparkはクラスター上で分散処理を行うことができ、大量のデータを
6 月 10 日 〜 6 月 14 日の期間にアナウンスされた Google Cloud の主なリリースに関してご紹介します。 ! 該当日の全ての情報を掲載しているものではございません。すべてのリリースノートを確認されたい方は、当該ページからご確認ください。 Virtual Private Cloud (VPC) Private Service Connect Port Mapping(Preview) 単一の Private Service Connect エンドポイントを介すことにより、コンシューマー
すべてのソースコードを読む時間があればよいのですが。 GitHubを横断して確認すると、ソースコードレベルで気になる箇所はよく見つかります。このとき他のコードベースでも起きてないか確認したいところです。ソースコードレベルの細かいレビューをコツコツしていくことは可能ですが、どうしても量が多くなってしまうのとスケールしづらいです。調査のためにも再現性担保のためにもGitHubで検索できると便利でしょう。 この記事ではカケハシ内で実際に見かけた箇所について、サンプルのGitHub検索クエリを共有します。 カケハ
はじめに こんにちは、クラウドエース データソリューション部所属の伊藤です。 普段は、データ基盤や機械学習基盤を中心とした案件に携わったり、エンジニアリングマネージャーをしたり、Google Cloud 認定トレーナーとしてトレーニングを提供したりしてます。 データ処理システムのよくある課題として、データ処理が遅い、今後データ量が増える、などといったものがあります。 そのような課題を解決するために、Google Cloud では、ビッグデータ処理を行うための様々なプロダクトが提供されています。 ただ、候補
AWS Summit は世界各国で最高潮を迎えており、最近では AWS Summit Singapore が開催されました! こちらは、Developer Lounge ブースでの AWS スタッフと ASEAN コミュニティメンバーの様子です。これには、サーバーレス、 Amazon Elastic Kubernetes Service (Amazon EKS) 、セキュリティ、生成 AI などに関するライトニングトークを行う AWS コミュニティ 講演者が参加しました。 5月6日週のリリース 以下に、私