「Datadog」に関連する技術ブログ

企業やコミュニティが発信する「Datadog」に関連する技術ブログの一覧です。

PipeCDがCNCF Sandboxに参加することが決まりました

オープンソースの開発者として、とても嬉しい日です 😄 私たちのチームがはじめた継続的デリバリーツール ...

APIが遅いと思っていたら、GCPのCloudNATでパケロスしていた話

導入 問題の発覚 動的ポート割り当ての落とし穴 監視とアラート 導入 こんにちは、Product Team SREのkterui9019です。 今回はGCPのCloudNATについての調査結果を共有したいと思います。CloudNATを利用している中で気づかないうちに実はパケットロスが発生していたので、詳細をご紹介します。 問題の発覚 私たちはお客様からの問い合わせを受けて、GKEにデプロイされている特定の

分散トレーシングの活用による次世代のテストを考える

こんにちは、QAエンジニアのカンパチロックです。 今回は、テストフェーズにおいてQAの価値を向上させる方法の1つとして、分散トレーシングおよびその標準規格であるOpenTelemetryについて説明します。これにより、システム内で発生する問題をより迅速かつ正確に特定し、開発プロセスをより迅速かつ効率的に進めることができます。 分散トレーシングとは まず、分散

Solr Operatorを利用したKubernetes上での検索システムの構築について

エンジニアの竹田です。 BUYMA の検索システムやMLOps基盤の開発・運用を担当しております。 今回はSolr Operatorによる検索システム構築を行いましたので、その実施内容と得られた知見についてご紹介したいと思います。 はじめに 昨期から今期にかけて、オンプレミスのシステムからの脱却、およびマイクロサービス化を目指し、商品検索システムのリプレイスを進めてい

CDK for Terraformは実用可能か? DatadogのMonitorを構成管理してみる

概要 未だ0系でありながら、22年8月に 一般提供が開始 された CDK for Terraform の実用性を検討し、DatadogのMonitor(およびDowntime)の構成管理をコード化しました。 背景 弊社では主要な監視ツールの一つとして Datadog を活用しており、弊チームでも Datadog の Monitor という機能を利用して、インフラリソースの各種メトリクスが異常値を示した時のSlack通知やオンコール設定などを

AWS Compute Optimizer に Datadog のメトリクスを取り込んで精度を向上させる

マネージドサービス部 佐竹です。今回のブログでは re:Invent 2022 で発表されたアップデートに関連して、実際に AWS Compute Optimizer で Datadog のメトリクスを取り込んで精度を向上させることができたことを証跡としてブログに記載しまとめました。またそのために必要な設定についても、Datadog の公式ドキュメントに記載がない点も含め、注意事項を踏まえて記載しています

ココナラ的ベストTerraformディレクトリ構造を考える

こんにちは。 株式会社ココナラのシステムプラットフォーム部でインフラ・SREチームのチームマネージャーをしているよしたくと申します。 前回はインフラ・SREチームの主に組織的な部分を紹介しましたが、今回はより技術的な取り組みを一部紹介します。 https://zenn.dev/coconala/articles/da8787cbade8d0 ココナラではクラウドリソースの管理にTerraformを利用しています。今回この

WEARにおけるプッシュ通知システムのリプレイスを全て完了した話

こんにちは、WEARバックエンドブロックの天春です。バックエンドの運用・開発に携わっています。本記事では、以前公開した WEARにおけるプッシュ通知システムのリプレイス のフェーズ2を終え、旧環境のプッシュ通知システムのリプレイスを完了したのでシステム構成や移行手順をご紹介します。 目次 目次 1:Nのプッシュ通知システム リプレイス前の1:Nのプッシュ通知

ZOZOFIT 認証フローにおけるJVM言語実装のLambda関数のパフォーマンス改善

はじめに こんにちは。計測プラットフォーム開発本部バックエンドチームの岡山です。普段はZOZOMATやZOZOGLASSなどの計測技術に関わるシステムの開発、運用に携わっています。去年の夏にZOZOFITというサービスを北米向けにローンチし、そのシステムも同様に開発、運用に携わっています。 本記事では、ZOZOFITの認証フローで実行されるScala実装のAWS Lambda関数が抱えていたパ

Fargate移行再挑戦の記録

SREチームのクラシマです。(2022年4月にSREチームが発足、バックエンドエンジニアからSREになりました) PHPのパッチバージョンを上げたらひどい目にあった話 - TORANA TECH BLOG こちらで、Fargate移行にチャレンジして失敗、1年以上が過ぎました。 その間にToysub!のマイページもリリースされ、

カイポケリニューアルでの SREチームの活動の一部の紹介:認証基盤選定と OpenTelemetry周辺ツール調査

こんにちは、SREをやっている @okazu_dm です。 経歴としては、サーバサイドエンジニアからセキュリティエンジニアを経て、エス・エム・エスではサービス横断で技術的な課題を解決しています。 基本的には組織に必要なことと自分ができることや、やりたいことが交わるポイントで仕事をしており、現在はSREとして働いています。 今回は、 過去の記事 とは違い、既存SRE

Google Cloud社にSRE Jumpstartを開催いただきました

はじめまして。 株式会社ココナラのシステムプラットフォーム部インフラ・SREチームに所属しているぐっさんです。 本記事では2023年1月にGoogle Cloud社にSRE JumpstartのWorkshopを開催していただきましたので、このWorkshopで学んだことを紹介したいと思います。 SRE Jumpstartについて SRE(Site Reliability Engineering)とはシンプルに表現すると、Google Cloud社が提唱しているサービス運用

Lambdaを助けるのに理由がいるかい?(スロットリングの話)

こちらの記事は カケハシ Advent Calendar 2022 の19日目の記事になります。 あっという間に2022年も終わりますね⛄️ プラットフォームチームの石黒です。 今年は遅ればせながらFF9をプレイしまして、トロフィーをゲットするためにフィールド上でモーグリのモグオをたてぶえで呼びつけ、「なんでもない」を繰り返して怒られてしまったときに、ふとLambdaのことを思い出しま

DatadogのモニターをTerraformerでインポートして感じたことなど

この記事は Enigmo Advent Calendar 2022 の13日目の記事となります。 お疲れさまです。インフラチームの山口です。 弊社では一部イン フラリ ソースのモニタリングにDatadogを利用しています。 その中で、今回はDatadogの利用開始当初に GUI で作成されたモニターをTerraformerとTerraformを使用して構成管理した際の事例について報告します。 同様の技術スタックを使用したインポート

AWS IoTに対するSLOアラート設定のためのDatadog導入検証

※この記事は、Luup Advent Calendar の11日目の記事です。 最初に こんにちは、Luup SREチームの峯岸です。 今回はLuupのSREチームにて行っている「SLI/SLOの導入」への取り組みについて記載したいと思います。 LuupのSREチーム紹介で記載しているように、SREチームはインフラ品質や信頼性を高めることを目的に動いております。 その中のミッションの1つに「組織全体へのSLI/SLOの導
技術ブログを絞り込む

TECH PLAY でイベントをはじめよう

グループを作れば、無料で誰でもイベントページが作成できます。情報発信や交流のためのイベントをTECH PLAY で公開してみませんか?