TECH PLAY

SRE」に関連する技術ブログ

848 件中 691 - 705 件目
こんにちは。EC基盤本部 SRE部の渡邉です。去年の今頃はリモートワークによる運動不足を解消するために毎朝ロードバイクで走っていたのですが、3か月目に突入したころ急に飽きてしまいました。継続することの大切さを痛感しています。 さて、以前公開した記事でも Splunkを導入した話 について書きました。今回はSplunkをもっと活用していくために、効率的なサーチ方法やダッシュボード作成のTIPSを紹介します。 メトリクスのダッシュボード作成TIPS あらかじめ、よく使うサーチやメトリクスのダッシュボードを作成
こんにちは、サーバサイドエンジニアの @Juju_62q です。 今回は年末から仕込んでいたタイミーのSLOについてと、その時に得た学びを紹介したいと思います。 概略 結論としてタイミーのSLOで大事にしているのは以下の3つです。 プロダクトの緩やかな品質低下を検知できるものであること プロダクトの健全性を大局的に把握できるものであること 罰則はSLOを消費する行為に相反する行動を取ること また、組織で新たなものをやる時は熱量/知識/経験のいずれか2つ以上が必要になることも学びとなりました。 概略 SLO
はじめに こんにちは、 SRE チームの金澤です。 弊社は intdash というIoTプラットフォームを展開しています。そのサーバサイドである intdash Server はクラウドインフラを用いた構築が多く、その一つが Amazon Web Service(AWS) です。 パブリッククラウドを使用する上で気をつけたい点の一つとして 障害の把握 が挙げられます。サービス障害の要因確認として役立ち、その内容をもとに今後のプロアクティブな対策を検討する助けにもなります。また大規模の障害の場合はお客様が把
はじめに こんにちは、SRE Unitの北浦です。 私達がSRE活動を推進していく中で、行き詰まった点や逆にうまくいった方法などの知見を共有していこうと思い、筆を取りました。 “アプリケーション"のシステムとは違い、"人"のシステムを改善・介入していくためには、 関係各者へたくさんの説明や知見を共有していかないといけないのは当然のこと。 重要なポイントを割愛してしまうと、要らぬ誤解を生んでしまい、物事がうまく推進できないという自体に陥ります。 今回は、我々の体験談
はじめに SRE部 ECプラットフォームSREチームの小林 ( @akitok_ ) です。 ZOZOTOWNでは、マイクロサービス間通信におけるトラフィック制御のために、 Istio によるサービスメッシュを導入しています。本記事ではZOZOTOWNのマイクロサービスプラットフォーム基盤(以下、プラットフォーム基盤)において、Istioをいかにプロダクションレディな状態で本番に投入していったか、その取り組みを紹介します。 なお、Istioによるサービスメッシュを導入した背景については、以下の記事で紹介し
はじめに こんにちは。SRE部MLOpsチームの中山( @civitaspo )です。みなさんはGWをどのように過ごされたでしょうか。私は実家に子どもたちを預けて夫婦でゆっくりする時間にしました。こんなに気軽に実家を頼りにできるのも 全国在宅勤務制度 のおかげで、実家がある福岡に住めているからです。「この会社に入って良かったなぁ」としみじみとした気持ちでGW明けの絶望と対峙しております。 現在、MLOpsチームでは増加するML案件への対応をスケールさせるため、 Kubeflow を使ったMLOps基盤構築
倒れても自力で立ち上がろうとするインフラが好きなSREチームの川岡です。 サービスがダウンした時の応急処置くらいは自動化できないものかと思い、Cloud Pub/SubをトリガーにCloud FunctionsからCompute EngineへSSHでアクセスしてインスタンス上のアプリケーションを起動する検証をしてみました。
倒れても自力で立ち上がろうとするインフラが好きなSREチームの川岡です。 サービスがダウンした時の応急処置くらいは自動化できないものかと思い、Cloud Pub/SubをトリガーにCloud FunctionsからCompute EngineへSSHでアクセスしてインスタンス上のアプリケーションを起動する検証をしてみました。
はじめに こんにちは。EC基盤本部SRE部プラットフォームSREの 三神 です。 2021年3月18日、ZOZOTOWNは大規模なリニューアルをしました。その中でも、コスメ専門モールの ZOZOCOSME と、ラグジュアリー&デザイナーズゾーンの ZOZOVILLA を同時にオープンし、多くの反響をいただきました。 今回のリニューアルではBackends For Frontends(以下、BFF)にあたるZOZO Aggregation APIを構築しています。本記事ではZOZOTOWNが抱えてい
タスク管理は、チームで仕事をしていく上で欠かせない一方で、永遠にカイゼンし続ける必要があるものです。チームごとに、どんなツールを選んでいるのか、それをどう利用しているのでしょうか。 エス・エム・エスでは、タスク管理の仕方もチームごとに裁量が与えられています。どのようなツールを利用してタスク管理をしているのか。「カイポケ」「カイゴジョブ」「ハピすむ」など、各サービスの開発チームに聞いてみました! ツールの選定基準、利用の仕方、利用ツールのメリット・デメリットなど、開発チームによってどのような違いがあるのかを
写真:左からミイダス エンジニアの府川、磯崎、眞下2020年7月、ミイダスがリリースされてから5年が経ちます。今回は立ち上げ当初からミイダスの開発に携わってきたエンジニアチームの3人に、当時の状況や苦労したこと、ミイダスの現状、そしてこれからについてざっくばらんに話してもらいました。
こんにちはSRE部の川津です。ZOZOTOWNにおけるログ収集基盤の開発を進めています。開発を進めていく中でCloud Pub/Subのリージョン間費用を削減できる部分が見つかりました。 今回、OSSである fluent-plugin-gcloud-pubsub-custom にコントリビュートした結果、Cloud Pub/Subのリージョン間費用を削減できました。その事例を、ログ収集基盤開発の経緯と実装要件を踏まえて紹介します。 目次 目次 ログ収集基盤の紹介 開発経緯 フロントエンドのログしか取得でき
こんにちは、SRE部の谷口( case-k )です。 本記事では、EC2 Image Builderを使いRedashの運用改善を行った事例をご紹介します。運用しているRedashについてご紹介し、その後、Redashの運用課題に対してEC2 Image Builderでどのように解決したかTipsも踏まえご紹介します。 余談ですが全国どこでも働けるようになったので沖縄に住めています(感謝!) https://press-tech.zozo.com/entry/20210118_zozotech pres
はじめに SRE部プラットフォームSREチームの川崎 @yokawasa です。 ZOZOTOWNではモノリシックなアーキテクチャーから、優先度と効果が高い機能から段階的にマイクロサービス化を進めています。本記事では、そのZOZOTOWNの段階的なマイクロサービス移行で実践しているカナリアリリースとサービス間通信の信頼性向上の取り組みについてご紹介します。 なお、ZOZOTOWNのリプレイス戦略ついてはこちらのスライドが参考になります。 speakerdeck.com さて、ZOZOTOWNマイクロサービ
はじめに CTOの川口 ( id:dmnlk ) です。 BASEは現在140万ショップを超え、サービスの安定性・信頼性を維持することは非常に重要になっています。 その中で去年、New Relicを本格的に導入しました。 https://newrelic.com/jp/press-release/20201217 しかしNew Relicを導入しただけで安定性が獲得できるわけではありません。得られるのは可観測性のための武器であり、その使い方を適切に学ばなければ無駄になってしまいます。 今回、New Rel