TECH PLAY

株式会社ZOZO

株式会社ZOZO の技術ブログ

938

はじめに こんにちは。Developer Engagementブロックの @wiroha です。12月15日(日)に、ZOZOにて中高生女子を対象とした体験イベント「 Girls Meet STEM〜ITのお仕事を体験しよう〜 」を開催しました。これは 公益財団法人山田進太郎D&I財団 が実施する「Girls Meet STEM」プログラムの一環です。中高生女子にIT業界の仕事を体験できる実践的な機会を提供し、将来の進路やキャリア選択の幅を広げるための後押しを行うことを目的としています。 当日は約20名の参加者が集まり、プログラミング体験、女性エンジニアとの交流、オフィスツアーを通じて、ITの仕事の魅力を体感しました。本記事では、当日の様子をご紹介します。 イベント概要 日時:2024年12月15日(日)13:00~16:00 会場:ZOZO西千葉本社 対象:中学1年生~高校3年生までの戸籍上または性自認が女性の方 定員:20名 www.shinfdn.org オープニング 今回、ZOZOやZOZOTOWNに興味を持って参加してくださった方が多く、イベントのオープニングでZOZOの事業や働く環境について紹介しました。自分のスマートフォンにZOZOTOWNアプリを入れているという参加者もいて嬉しく思います。 プログラミング体験会 プログラミング体験会では、プログラミングとは何かといった簡単な講義の後、PCを使って実際にプログラミングに取り組みました。パズルゲーム感覚でプログラミングを学べるiPad・Mac用アプリ「 Swift Playgrounds 」を使って、目標までのクリアを目指して挑戦しました。 順番にステージをクリアしながら、条件分岐や繰り返しといったプログラミングの基礎を学びました。サポートするのは4名の女性社員・内定者アルバイトです。密にコミュニケーションを取りながら、真剣にプログラミングに取り組む参加者の姿が印象的でした。 今日学んだ条件分岐や繰り返しがZOZOTOWNアプリ内のどの部分で使われているのかも解説しました。実際の仕事やプログラミングの活用方法についても理解が深まっていればと思います。 トークセッション 次に行われたのは、ZOZOで働く女性エンジニアによるトークセッションです。学生時代の経験やエンジニアになろうと思ったきっかけ、仕事の面白いところや進路選択などについて語りました。 モチベーションは周りの人に喜んでもらえることであったり、自分自身の楽しさであったり、それぞれの意見が出ました。進路選択についても途中で変えた方や文系からエンジニアに進んだ方など、実際の例を聞くことで自分の進路について考えるきっかけになったのではないでしょうか。 質問会 その後はグループに分かれてZOZOスタッフに質問する時間を設けました。参加者からは「エンジニアになるためにできていた方がいい教科は何ですか?」「文系だからIT分野に行けるか不安です」「ZOZOを選んだ理由は何ですか?」といった質問・相談が寄せられました。参加者からは「いろんな選択肢を知ることができて、不安が晴れました」といった声がありました。 オフィスツアー イベントの最後には、西千葉本社のオフィスツアーを実施しました。メッセージが込められたアートや遊び心のある会議室、絨毯の模様や色使いの工夫など、ZOZOらしいデザインが施されたオフィス内を案内しました。クイズなども挟みながら楽しく見学しました。普段はなかなか入ることのできないIT企業の職場環境を直接見ることで、働くイメージを膨らませる機会になったのではないでしょうか。 最後に 参加したみなさんに感想を伺うと、「ゲームのキャラクターが可愛くてまた遊びたい」「エンジニアの仕事はかっこいいなと思った」「周りが女の人ばかりで安心できて良かった」といった声がありました。今回初の試みではありましたが、イベントの目的を達成できていたようで何よりです。 また、サポートした社員たちからは「昔の自分と同じようなことで悩んでいる学生にアドバイスできて良かった」「イベントを通して何か踏み出すきっかけになれてたら嬉しい」といった感想が寄せられました。 ZOZOはこれまでもさまざまな女性活躍推進のための活動に取り組んできており、今後もこうした機会を提供していきたいと考えています。イベントを通じて、少しでも多くの女性がIT業界に興味を持ち、挑戦するきっかけになれば幸いです。
アバター
はじめに こんにちは、EC基盤開発本部SRE部カート決済SREブロックの金田・小松です。普段はSREとしてZOZOTOWNのカート決済機能のリプレイスや運用を担当し、AWSやAkamaiの管理者としても活動しています。 前編では、手動リリース作業が抱える課題を解決するために、GitHub Actionsを活用したリリースプロセス自動化の概要について解説しました。GitHub Actionsによる変更検知、ジョブ制御、結果通知の仕組みを構築することで、手作業の工数削減と安定性向上を実現する一連のフローをご紹介しました。 techblog.zozo.com 後編では、GitHub Actionsと連携してリリース作業を具体的に遂行するためのツールであるAWX Operatorについて、導入の背景や構成、実装の詳細に焦点を当ててご紹介します。AWX Operatorを活用することで、いかに効率的なリリース自動化を実現したのかをお伝えします(図における赤枠部分を中心に説明します)。 目次 はじめに 目次 リリース自動化の中核となるAWX Operator AWXとは? AWX Operatorとは? Playbookとは? ジョブテンプレートとは? AWX Operatorの選定理由 AWX Operatorの導入と構成 オンプレミス環境に配置しない場合の選択肢 今回の構成のメリット 事前準備 構築手順 1. AWX Operatorのインスタンスグループ作成とインスタンス追加 2. インスタンスの関連付け 3. Execution Nodeのバンドルインストール Receptorネットワーク構成について 接続状況の確認 デバッグとトラブルシューティングのTips ジョブテンプレートのコード管理 使用例:ジョブテンプレートの同期プロセス(GitHub Actionsを使用) AWX APIを利用したGitHub Actionsとの連携 APIリクエストの基本構造 ジョブの実行リクエスト ジョブの監視 まとめ 主要なポイント 期待される成果 さいごに リリース自動化の中核となるAWX Operator リリース自動化の話に入る前に、まずAWX Operatorに関連する基本用語について整理します。 AWXとは? AWXは、AnsibleのWebベースのUIやAPIを提供するオープンソースプロジェクトで、Ansibleの自動化タスクの管理、スケジュール、実行が可能です。 github.com 既存のZOZOTOWNオンプレミス環境でもAWXサーバが存在しており、オンプレミス環境における運用作業を自動化しています。例えば、以下のような様々な運用タスクの自動化に活用されています。 数百台のクライアントやサーバーへのエージェント一括インストール 定期バッチ処理の自動停止・再開 Windows Updateの自動適用 ネットワーク疎通確認 IISアプリケーションプールのリサイクルによるWebサービスの可用性維持など これらの作業を自動化することで、人的エラーを最小限に抑えながら、安定した運用を実現しています。既存AWXの運用については、以下のブログで紹介されているので、ぜひこちらもご参照ください。 techblog.zozo.com AWX Operatorとは? AWX Operator は、Kubernetes環境でAWXをデプロイ・管理するためのツールです。 github.com Kubernetesは、コンテナ化されたアプリケーションの管理を自動化するプラットフォームです。AWX Operatorを使うことで、Kubernetesクラスタ内にAWXを簡単にインストールし、設定やアップデートを効率的に行うことができます。また、デプロイ作業の自動化やサーバー設定の適用といったタスクを、Playbookで効率的に管理・実行が可能です。 Playbookとは? Playbookは、Ansibleが実行する一連のタスクを定義した YAML 形式のファイルです。例えば、以下のような操作を自動化できます。 サーバーの設定(例:WebサーバーやDBサーバーの構築) アプリケーションのデプロイ(例:アプリのインストールと設定) ネットワーク機器の設定(例:ルータやスイッチの構成変更) 以下は、Webサーバーを構築するPlaybookの例です。 --- - name : Install and configure Apache hosts : web_servers tasks : - name : Install Apache yum : name : httpd state : present - name : Copy configuration template : src : /path/to/httpd.conf.j2 dest : /etc/httpd/conf/httpd.conf - name : Restart Apache service : name : httpd state : restarted Playbookは「何を実行するか」を細かく順序立てて記載でき、リリースフローの中核を担います。 ジョブテンプレートとは? ジョブテンプレートは、AWXでPlaybookを実行するための「設定パッケージ」のようなものです。具体的には以下の要素を含みます。 Playbook :実行するタスクの定義。 Inventory :タスクを適用するサーバーやホストの一覧。 Extra Vars :実行時に渡すオプションのパラメータ(例:環境やリリース条件)。 Execution Node :Playbookを実行する対象ノード。 ジョブテンプレートを使うことで、「どのサーバーに、どのPlaybookを、どのパラメータで実行するか」を簡単に指定できます。そのため、リリース作業の自動化が容易になります。 AWX Operatorの選定理由 本プロジェクトで AWX Operator を選定した主な理由は以下の通りです。 既存のAWX運用ノウハウを活用 既にオンプレミスでAWXを利用しており、運用に関する知識や技術をそのまま活用できるため、スムーズに移行が可能であること。 Ansible Playbookの再利用が容易 従来のPlaybookをほぼそのままKubernetes環境に適用できるため、導入コストを低減し、既存の運用プロセスを簡単に移行できる。 Kubernetes環境でのデプロイ・管理が容易 弊社のインフラでは多くのリソースがコード化されており、EKSクラスタを使用しているため、AWX Operatorの導入により、インフラとアプリケーションの管理を一元化できるメリットがあった。 これらの理由から、AWX Operatorを選定し、GitHub Actionsと統合することで効率的なリリースフローを実現しています。 AWX Operatorの導入と構成 本プロジェクトでは、AWX OperatorをAmazon EKS上で運用しつつ、ジョブ実行ノード(以降Execution Nodeと称します)をオンプレミス環境に配置しています。この構成を採用した主な理由は、本プロジェクトのリリース対象がオンプレミス環境のサーバであるケースが大半を占めているためです。 オンプレミス環境に配置しない場合の選択肢 ジョブ実行ノードをオンプレミス環境に配置しない場合、AWX Operatorとジョブ実行ノードの両方をEKS上で運用できます。ただし、この場合、リリース対象がオンプレミス環境であることを考慮すると、以下のデメリットが懸念されます。 ネットワーク遅延 クラウド上のジョブ実行ノードがオンプレミスリソースにアクセスする際、クラウドとオンプレミス間で頻繁に通信が発生します。この通信に伴い、ネットワーク遅延がリリース全体の速度低下につながる可能性があります。 データ転送量の増大とコスト ジョブの実行に必要なデータ(例:ファイル、設定情報)がクラウドとオンプレミス間で往復するため、ネットワーク帯域を圧迫するリスクがあります。また、クラウドプロバイダーの通信料金(特にアウトバウンド通信料金)も増加し、運用コスト増につながる可能性があります。 今回の構成のメリット オンプレミス環境のリソースに対するリリースが大半を占めるため、ジョブ実行ノードをオンプレミス環境に配置する構成を採用することで、以下のメリットが得られます。 ネットワーク遅延の最小化 ジョブがオンプレミス環境内で直接実行されるため、ジョブの実行に必要な主要な通信が内部ネットワークで行われます。これにより、クラウドとオンプレミス間の往復通信が最小限となり、リリース速度が向上します。 データ転送量の削減とコスト効率の向上 ジョブの処理やデータのやり取りが主にオンプレミス環境内で完結するため、クラウドとの間で発生するデータ転送量が削減されます。これにより、ネットワーク帯域の負担を軽減すると同時に、クラウドプロバイダーの通信料金が抑えられるため、コスト効率が向上します。 以上のように、オンプレミスリソースに対する高速かつ効率的なリリースが可能になるため、本構成を採用しました。 AWX Operatorの導入方法については、 インストールガイド を参照してください。ここでは、 Execution Node をAWXに登録する手順をご紹介します。 事前準備 Execution Node では Ansible が必要です。Ansible公式のインストールガイドに従い、インストールします。 docs.ansible.com 構築手順 以下に、Execution Nodeの構成とAWX Operatorの設定手順を説明します。 1. AWX Operatorのインスタンスグループ作成とインスタンス追加 Webコンソールの「インスタンスグループ」メニューから、「インスタンスグループの追加」をクリックし、必要な項目を入力します。 名前 :インスタンスグループの名前を設定します(例:execution-group)。 ポリシーインスタンスの最小値 :インスタンスグループ内で最低限必要なインスタンス数を設定します。 ポリシーインスタンスの割合 :必要なインスタンス数を割合で指定できます。 Max concurrent jobs :同時に実行可能なジョブ数の上限を設定します。 Max forks :ジョブごとに使用できる最大フォーク数を設定します。 Webコンソールの「インスタンス」メニューから「追加」ボタンをクリックし、インスタンスを追加します。以下のポイントに従って設定します。 ホスト名 :Execution Nodeの完全修飾ドメイン名(FQDN)またはIPアドレスを指定します。 リスナーポート : 27199 を設定します。これは Receptor が使用するポートです。 インスタンスタイプ : Execution を選択します。 Peers from control nodes :制御ノードから自動的にピアリングする場合はこのオプションを有効にします。 2. インスタンスの関連付け 作成したインスタンスグループを選択した状態で、インスタンスタブより、追加したインスタンスを関連付けます。 3. Execution Nodeのバンドルインストール Execution Nodeでは、AWX Operatorがジョブを分散実行する基盤となる Receptorサービス を利用しています。Receptorは、AWXのコントローラーとExecution Node間の通信を担当するメッセージングシステムであり、ジョブの実行を効率的に分散・管理する重要な役割を果たします。以下に、Receptorを含むExecution Nodeのインストール手順を説明します。 バンドルのダウンロード :AWXコンソールの「インスタンス」詳細ページで、バンドルのダウンロードボタンをクリックし、必要なファイルを取得します。このバンドルにはTLS証明書、Receptor設定ファイルが含まれます。 インストール :ダウンロードしたファイルをExecution Nodeへ転送し、以下のコマンドで展開してインストールを実行します。 tar -xzf [ バンドルファイル ] ansible-galaxy collection install -r requirements.yml Tips :トラブルが発生した場合、Ansibleのフォーラムに解決策が掲載されている場合があります。 forum.ansible.com 以上の手順で、AWX OperatorにExecution Nodeが登録され、AWX上から Execution Node 経由でジョブを実行できるようになります。これにより、オンプレミス環境とAWS EKSを連携させたリリース自動化の基盤が構築され、システム全体の操作効率が向上します。 Receptorネットワーク構成について Receptorは、Execution NodeとAWXのコントローラー間で通信するための分散ネットワークを構成します。通常、以下の設定内容は前述のバンドルインストールで自動的に生成されるため、手動で編集する必要はありませんが、参考までに設定例を紹介します。 # Receptorノードの基本設定。ノードIDとピアとして許可するノードIDを指定します。 - node : id : <node-id> # このノードのID(任意の一意な名前) allowedpeers : <peer-node-ids> # 接続を許可するピアノードIDのリスト # ログレベルの設定。デフォルトはinfo、デバッグ用途にはdebugに設定可能。 - log-level : info # ジョブの実行設定。ansible-runnerを使用してジョブを実行します。 - work-command : worktype : ansible-runner # 実行するワークの種類 command : ansible-runner # 実行コマンド params : worker # ワーカーとして機能する設定 # サーバー用のTLS設定。接続に使用する証明書とキーのパスを指定します。 - tls-server : name : default filename : /etc/receptor/tls/tls.crt # TLS証明書ファイル key : /etc/receptor/tls/tls.key # TLSキー # クライアント用のTLS設定。接続先の証明書を検証するためのCA証明書を指定します。 - tls-client : name : receptor-client rootcas : /etc/receptor/tls/ca.crt # ルートCA証明書 # UDP接続の設定。ピアノードとの通信に使用するホストとポートを指定します。 - connection : type : udp peer : <peer-ip>:27199 # ピアのIPアドレスとポート # TCP接続の設定。UDPと同様にピアノードとの通信に使用します。 - connection : type : tcp peer : <peer-ip>:27199 # ピアのIPアドレスとポート 接続状況の確認 設定後、以下のコマンドで他ノードとの接続状態を確認できます。 sudo receptorctl status Receptorを用いることで、ジョブ実行の分散性や拡張性が向上し、大規模環境でも安定したリリースを実現します。また、ピアノード間の通信設定を最適化することで、効率的なネットワーク構築が可能です。 デバッグとトラブルシューティングのTips ログレベルの調整 :デフォルトの log-level: info では一般的なログが表示されますが、トラブルシューティングが必要な場合は debug に変更すると詳細なログを取得できます。 ノード再起動時の接続確認 :ノードの再起動後、 sudo receptorctl ping <peer-node-id> を使って個別に接続が正常かテストできます。 証明書の確認 :Receptorで使用するTLS証明書に問題がある場合は、 openssl コマンドを使って証明書の有効期限や接続テストを行うと便利です。 openssl s_client -connect < peer-ip > :27199 ジョブテンプレートのコード管理 AWXのCLI(Command Line Interface)を利用したジョブテンプレートとインベントリのコード管理を実施しており、GitリポジトリとAWX間での同期を保つようにしています。 docs.ansible.com 主要なコマンド ジョブテンプレートの作成 : awx job import コマンドで新規テンプレートを自動反映。 変更のエクスポート : awx export コマンドで変更を検出し、Gitと同期。 使用例:ジョブテンプレートの同期プロセス(GitHub Actionsを使用) 以下のようなGitHub Actions Workflowを設定し、AWXのジョブテンプレート変更をGitリポジトリに反映させるプルリクエストを自動で作成しています。 name : Sync AWX Job Templates on : schedule : - cron : '0 0 * * *' # 毎日0時に実行 workflow_dispatch : # 手動での実行トリガー jobs : sync-job-templates : runs-on : ubuntu-latest steps : - name : Checkout repository uses : actions/checkout@v4 # リポジトリのチェックアウト。最新のテンプレートと比較するために必要です。 - name : Install dependencies run : | sudo apt-get update sudo apt-get install -y jq python3-pip pip3 install awxkit # 必要な依存ツールとパッケージのインストールを行います。 - name : Export job templates run : | mkdir -p job_templates templates=$(awx job_templates list -f json | jq -r '.results[] | {id: .id, name: .name}' ) for template in $(echo "$templates" | jq -r '.name' ); do echo "Exporting template: $template" template_id=$(echo "$templates" | jq -r --arg name "$template" 'select(.name == $name) | .id' ) ./scripts/awx/export_job_template.sh "$template_id" done echo "Templates exported" # AWXから各ジョブテンプレートをエクスポートし、リポジトリ内のjob_templatesフォルダに保存します。 - name : Create Pull Request uses : peter-evans/create-pull-request@v6 with : commit-message : "Update AWX Job Templates" branch : "update-job-templates" title : "Update AWX Job Templates" body : "This PR updates the AWX job templates and ensures they are in sync with the latest operational settings." labels : "automated pr" base : "main" delete-branch : true # エクスポートしたテンプレートをもとにGitHubで自動プルリクエストを作成します。 リポジトリのチェックアウト 最初にリポジトリをクローンし、現在のジョブテンプレートと最新テンプレートとの差分を取得できるようにします。 依存関係のインストール awxkit などの依存ツールをインストールし、AWXからのデータ取得が可能な状態にします。 テンプレートのエクスポート AWXからジョブテンプレートをエクスポートし、各テンプレートのIDと名前を取得してローカルフォルダに保存します。 プルリクエストの作成 エクスポートしたテンプレートを基に、リポジトリに自動的にプルリクエストを作成し、更新をチームでレビューできるようにします。 このようにして、テンプレートの更新はプルリクエストを通じてレビューされ、AWXの設定内容がGitリポジトリに同期されるため、一貫性と追跡性を保証しながら変更内容を管理できます。 AWX APIを利用したGitHub Actionsとの連携 GitHub ActionsとAWX Operatorの連携は、AWXのREST APIを通じて行います。以下の図は、GitHub Actionsでのスクリプト実行からAWX APIを通じたジョブ実行、そしてリリースプロセス全体の流れを示しています。 この図をもとに、GitHub Actionsからリリース作業を開始し、ジョブを実行・監視するまでの一連の流れを解説します。 APIリクエストの基本構造 まず、APIリクエストを送信するためのcurl構造を作成します。以下の関数で、POSTやGETリクエストをAPI送信できるようにしています。 #!/usr/bin/env bash function call_awx_api() { token = " $1 " base_url = " $2 " method = " $3 " path = " $4 " if [ " ${method} " == " POST " ]; then req = " $5 " response = $( curl -s -X POST \ -H " Authorization: Bearer ${token} " \ -H " Content-Type: application/json " \ -d " ${req} " \ " ${base_url} /api/v2/ ${path} " ) echo " ${response} " return fi response = $( curl -s -X " ${method} " \ -H " Authorization: Bearer ${token} " \ -H " Content-Type: application/json " \ " ${base_url} /api/v2/ ${path} " ) echo " ${response} " return } この関数で利用している各パラメータの役割について、以下に簡単に説明します。 token :APIリクエストで認証するためのトークンです。本記事で紹介するプロジェクトでは、このリリース用に作成したAWXユーザーのトークンを使用しています。トークンの作成方法は、対象のAWXユーザーでログイン後、 ユーザー > AWXユーザー > トークンタブ にて作成可能です。トークンベース認証の詳細については以下のドキュメントをご参照ください。 docs.ansible.com このトークンはGitHubのSecretsに格納しており、GitHub Actionsから参照しています。 base_url :AWX OperatorのServiceで指定しているドメイン名です。APIエンドポイントのベースURLとして使用され、AWXサーバーのアドレスを指定します。 method :APIリクエストのHTTPメソッドを指定します。通常はGETまたはPOSTを指定し、POSTの場合は追加のデータ( req )が送信されます。 path :api/v2以降のパスを指定します。たとえば、job_templates/ /launchでジョブテンプレートの起動や、jobs/<job_id>でジョブのステータスを取得できます。APIの詳細についてはAWXのドキュメントを参照してください。 ansible.readthedocs.io ジョブの実行リクエスト 次に、GitHub ActionsからAWXのジョブを起動するためのリクエストを構成します。以下のように、リクエストボディで extra_vars を利用して、ジョブ実行に必要な変数(例:commit hash、GitHubトークン、リリースの順序)を渡します。これにより、後続のスクリプトでこれらの変数を利用できます。また、 limit パラメータでリリース対象のサーバーを指定して、ジョブが実行される範囲を制限しています。 # GitHub ActionsのワークフローからAWX OperatorのAPIを利用してジョブ実行するスクリプト例 requestbody = $( cat << EOS { "extra_vars": { "commit_hash": " ${ASP_COMMIT_HASH} ", "github_token": " ${ASP_GITHUB_TOKEN} " }, "limit": " ${limitation} ", "inventory": " ${inventory} ", "job_type": "run" } EOS ) response = $( call_awx_api " ${API_TOKEN} " " ${AWX_BASE_URL} " " POST " " job_templates/<id>/launch/ " " ${requestbody} " ) job_id = $( echo " ${response} " | jq -r ' .job ' ) echo " Job ID: ${job_id} " ここで行っている処理は以下の通りです。 extra_vars :後続のスクリプトで使用する変数(例:commit hash、GitHubトークンなど)を渡しています。 limit :指定されたサーバー範囲内でジョブを実行し、リリース対象のサーバーを制限します。 inventory :AWX上で管理されている特定のインベントリを指定します。 job_type :実行ジョブの種類を指定します。ここでは通常の実行を示すrunを設定しています。 ジョブの監視 ジョブの実行が開始されると、ジョブIDを取得し、そのステータスを定期的に監視します。以下のループで jq を使ってジョブのステータスを取得し、進行状況をチェックしています。ジョブが pending や running 以外の状態(成功や失敗など)になるまで監視し、完了したタイミングでループを終了します。 while true; do response = $( call_awx_api " ${API_TOKEN} " " ${AWX_BASE_URL} " " GET " " jobs/ ${job_id} / " ) job_status = $( echo " ${response} " | jq -r ' .status ' ) echo " Job Status: ${job_status} " if [ " ${job_status} " != " pending " ] && [ " ${job_status} " != " running " ]; then break fi sleep 5 done 上記の構成で、ジョブが完了するまでの間、定期的にジョブの進行状況を確認できるようにしています。ジョブの進行状況の監視が完了すれば、一連のリリース作業は終了となります。 この仕組みにより、GitHub Actionsを起点としたリリースフローが安定して実現し、手動作業による負担やリスクを大幅に軽減できました。 まとめ 後編では、GitHub Actionsと連携してリリース作業を具体的に遂行するためのツールであるAWX Operatorについて、その導入背景や構成、実装の詳細に焦点を当てて解説しました。本記事で取り上げた主要なポイントは以下の通りです。 主要なポイント AWX Operatorの導入と活用 Kubernetes環境での簡易なAWXデプロイを実現し、クラウドとオンプレミスを統合した分散リリース環境を構築。 Receptorを利用して、安定したジョブ分散と効率的な通信を可能に。 ジョブテンプレートの構成管理 Playbook、Inventory、Extra Varsを活用し、柔軟かつ一貫したリリースフローを管理。 GitHub Actionsとの連携によるリリースフローの自動化 REST APIを利用し、ジョブの実行・進行状況の監視・エラー検知を自動化。 手作業を排除し、迅速で信頼性の高いリリースを実現。 これにより、リリース作業の自動化による運用効率の向上が期待できます。リリース自動化の導入はまだ始まったばかりですが、すでに以下のような成果が期待されています。 期待される成果 リリースの安定化 自動化されたプロセスにより、手動エラーは排除され、リリースの一貫性の向上が期待されます。 エラーの削減 段階的リリースごとにエラーをリアルタイムで監視し、迅速に対処することで、エラーによる影響を最小限に抑えることが可能です。 リリース速度の向上 リリース作業の自動化により、全体の工数削減と迅速なリリースが見込まれます。 さいごに 本記事では、前編と後編の2部構成で、GitHub ActionsとAWX Operatorを活用したリリース自動化の取り組みをご紹介しました。従来の手動リリースから脱却し、効率化と安定性を実現することで、工数削減やリリースリスクの低減を目指しています。 リリース自動化は継続的な改善が必要な分野ですが、本取り組みを通じて、さらなる最適化や監視機能の強化を進める予定です。この記事が、皆さんのシステム運用やリリース自動化の参考になれば幸いです。 私たちZOZOでは、一緒にサービスを作り上げてくれる方を募集中です。興味をお持ちの方は、ぜひ以下のリンクからご応募ください。 hrmos.co
アバター
はじめに こんにちは、EC基盤開発本部SRE部カート決済SREブロックの金田・小松です。普段はSREとしてZOZOTOWNのカート決済機能のリプレイスや運用を担当し、AWSやAkamaiの管理者としても活動しています。 本記事では、前編と後編に分けて、Classic ASPの手動リリースをGitHub ActionsとAWX Operatorを活用して自動化したプロジェクトについてご紹介します。手動で行っていたリリース手順を自動化することで、効率化と安定性をどのように実現したか、そのアプローチをお伝えします。 前編では、Classic ASPの手動リリース作業が抱える課題を解決するためにGitHub Actionsを活用したリリースプロセス自動化の概要について解説します。 後編では、GitHub Actionsと連携してリリース作業を具体的に遂行するためのツールであるAWX Operatorについて、導入の背景や構成、実装の詳細に焦点を当ててご紹介します。 目次 はじめに 目次 リプレイス前の環境とリプレイスプロジェクトについて 手動リリースの課題 Git管理とリリース手順の不一致 リリース作業の信頼性と一貫性の不足 リリース自動化へのアプローチ アーキテクチャ概要 GitHub Actionsの役割 AWX Operatorの役割 アーキテクチャ全体図 リリース方式: 25%ずつのカナリアリリース GitHub Actions 対象サーバー群の管理方法 ReleaseReview リリース時のサービス監視 ワークフローの分割 排他制御 lock処理の実装方式 lock処理の高速化 各サーバー上での処理について GitHub Apps経由のトークン取得 インストールアクセストークン ユーザアクセストークン デプロイ処理 トークンを使ったremote url設定 マージコミットにswitchしての差分取得とコミットされた状態に応じた処理 さいごに リプレイス前の環境とリプレイスプロジェクトについて ZOZOTOWNは、2004年12月にサービスを開始して以降、基本的なアーキテクチャは変えずにオンプレミス環境で動くモノリシックなシステムとして運用されてきました。リプレイス前のアプリケーションは、Classic ASPで構築されオンプレミス環境のWindowsサーバー上で動作しています。 しかし、サービスの拡大に伴い、モノリシックなシステムの運用や開発に課題が生じるようになりました。そこで2017年から、レガシー化したシステムの課題を解決するためにZOZOTOWNのマイクロサービス化をするためのリプレイスプロジェクトを進めています。リプレイス後のマイクロサービスでは、IaCやCI/CDの導入により、開発効率や運用効率の向上を図っています。 詳しくは以下のテックブログをご覧ください。 techblog.zozo.com 手動リリースの課題 ZOZOTOWNのリリース作業は、リプレイスされマイクロサービス化したシステムを除き、以下の手順を手作業で実施していました。 リリース対象ファイルの準備 バックアップの取得 リリース手順の準備 ファイルをどの順番でリリースするかの検討 WebDAVを利用したファイルのアップロードによるリリース この手作業のプロセスにより、リリースごとに多くの工数がかかり、作業負担が増大する課題を抱えていました。 また、以下のような問題も発生していました。 Git管理とリリース手順の不一致 リリース後に対象ファイルをmasterブランチにマージする運用のため、同時期に複数案件のリリースをする際、共通ファイルのコンフリクトが発生する場合もありました。この場合、リリース担当者が最新ファイルを手元でマージし直す必要があり、リリース担当者間の調整やコミュニケーションが求められ、工数増加やコミュニケーションミスが障害リスクを生む要因となっていました。 リリース作業の信頼性と一貫性の不足 手作業によるリリースは操作ミスが発生しやすく、リリースミスや障害リスクの温床となり、リリース担当者の精神的な負担を増大させていました。 これらの課題を解消するためには、リリースプロセスの自動化が不可欠です。自動化により作業負担が軽減され、ミスのリスクが抑えられることで、リリース作業の信頼性が向上し、開発および運用チームの負担も軽減されます。 さらに、Git管理状態とサーバーにリリースされている状態を常に一致させるため、GitOpsの概念を取り入れたリリース自動化を進めました。これにより、リリースの一貫性が担保され、ミスの削減とプロセスの効率化が期待できます。 リリース自動化へのアプローチ アーキテクチャ概要 これらの課題を解消するため、リリースプロセスの自動化にGitHub ActionsとAWX Operatorを採用しました。本節では、それぞれのツールが果たす役割について説明します。 GitHub Actionsの役割 GitHub Actionsは、リリースプロセス全体を制御する役割を担っています。主に以下の3つのタスクを実行します。 変更検知 GitHubリポジトリにコード変更(マージ)があると、リリースプロセスをトリガーして開始します。 ジョブ制御 リリースの進行状況に応じて、AWX Operatorへジョブ実行リクエストを送信し、次のステップを制御します。 結果収集と通知 AWX Operatorから返却された実行結果を確認し、Slackを通じてリリース進行状況を通知します。 GitHub Actionsは、リポジトリとリリース管理のハブとして機能し、全体のプロセスを統括します。 AWX Operatorの役割 AWX Operatorは、GitHub ActionsとAPIを介して連携し、リリース作業の具体的な実行を担当します。以下が主な役割です。 サーバー操作 対象サーバーに対して、必要なファイル配置やIISリサイクル、ロードバランサーを操作します。 リクエスト処理 GitHub Actionsから送信されたリリース条件やジョブパラメータをもとに、安全かつ正確に作業を実施します。 実行結果の返却 ジョブの実行結果や状況をGitHub Actionsに返却し、次のステップに移行するための判断材料を提供します。 アーキテクチャ全体図 以下の図は、GitHub ActionsとAWX Operatorを連携させたリリースフローを示しています。この仕組みにより、リポジトリの変更を起点としてリリース作業を自動化し、一貫性と効率性を実現しています。 GitHub Actionsがリポジトリの変更を検知してトリガーを発火。 リポジトリの差分情報やリリース条件をもとに、AWX Operatorへジョブ実行リクエストを送信。 AWX Operatorがサーバーグループごとに作業を実施。 実行結果をGitHub Actionsに返却し、Slackを通じて通知。 リリース方式: 25%ずつのカナリアリリース リリースを自動化するにあたり、すべてのWebサーバーを4つのグループに分割し、25%ずつロードバランサーから切り離した状態でファイルを更新する方法を採用しました。リリースが完了したサーバーは順次ロードバランサーに復帰させることで、段階的にサービスに影響を与えないリリースを実現しています。 この方式により、従来のリリースで必要だったファイルのリリース順を考慮する手間が不要になり、安全かつ効率的なリリースが可能です。また、25%ずつのカナリアリリースをすることで、万が一問題が発生した場合の影響範囲を限定でき、リスクを最小限に抑えられます。 具体的には、サーバーを4つのグループに分け、各グループを順番にリリース対象とした上で、以下の手順を実施します。 STEP1:リリース対象の1グループのサーバーをロードバランサーから切り離し、外部トラフィックの影響を遮断します。 STEP2:切り離したサーバーでリリース作業を実施し、IISリサイクルを行います。 STEP3:作業が完了したサーバーをロードバランサーに再接続し、トラフィックを復旧させます。 この手順を各グループで順番に繰り返します。こうすることで、リリース中のリスクとダウンタイムを最小限に抑えつつ、全体の安定性を維持できます。以降で、リリース自動化の具体的な仕組みについて、GitHub ActionsやAWX Operatorの役割を中心に詳しく説明していきます。 GitHub Actions 本記事で紹介するリリースの自動化では、masterブランチへのマージをトリガーにGitHub Actionsのワークフローを起動して本番のサーバーにファイルをリリースしています。 また25%ずつのカナリアリリースを実現するため、GitHub Actionsでは様々な工夫をしています。 対象サーバー群の管理方法 リリース対象となるサーバー群はyamlファイルで管理しています。 下記はサーバー群の管理ファイルのフォーマットです。 <env> : - type : サーバーグループのタイプ servergroups : - <server role> : lb_info : - ロードバランサーを操作するための情報 . . . limitations : - 後述するAWXに渡すhost情報 項目 説明 env 環境を指定します type サーバーグループのタイプを指定します。 ZOZOTOWNではonpremissのサーバーに加えてEC2のサーバーを増設することがあり、そのための設定です。 servergroups サーバーグループの設定をリストとして保持します。 servergroupsリストの1要素ごとに直列でReleaseReview → LB Down → デプロイ → LB Up 操作を行います server role サーバーの役割を任意の文字列で指定します。 同じservergroup内のserver role分、並列でデプロイ処理が実行されます lb_info ロードバランサー情報の設定を含むリスト limitations 対象サーバーの制限条件を指定します。 AWX用のサーバーパラメータをリスト形式で指定 上記のyamlファイルではリリース対象のサーバー情報の他にロードバランサーを操作するための情報も記載しています。このyamlファイルをworkflowで参照し、servergroups毎にデプロイ処理を行っています。 ReleaseReview 25%ずつのカナリアリリースを実施するにあたり、1つのグループのリリース完了後、即座に次のグループのリリースを進めてしまうとエラー発生の有無を確認する間がありません。各リリースの合間に確認時間を設けないと問題が発生した際にリリースを中断するのも難しくなってしまいます。 そこで本記事の自動リリースではグループごとのリリース処理を実行する前に、 GitHub Environments を利用した承認stepを取り入れています。 GitHub EnvironmentsはGitHub ActionsのJobに設定でき、 Protection Rule を設定できます。設定できるProtection Ruleにはいくつか種類がありますが、Required reviewersを設定すると必須レビュアーからの承認があるまでジョブの実行を止めることができます。 Required reviewersの承認はリリースの担当者が承認できるように設定しています。リリースの担当者は1グループのリリースが完了したら、リリースしたグループにエラーがないことを確認後、次のグループのリリース承認を行います。 ReleaseReviewについてはマイクロサービスのCI/CDを紹介したブログ記事でも詳しく説明していますので、ぜひご参照ください。 techblog.zozo.com リリース時のサービス監視 カナリアリリースによるリリースでは、リリース起因でのエラーが発生していないかを確認することが重要です。本記事での自動リリースではサーバー群を4つのグループに分割して順番にリリースしています。そこでグループ別にエラー発生の有無、エラー内容の確認、CPU負荷の確認ができるダッシュボードを用意して、リリースで問題が発生してないかの確認ができるようにしています。 リリースプロセスをよりよく把握するため、Splunkのダッシュボードを導入しています。リリース担当者は、ダッシュボードを使って、リリースされる各サーバーグループの状況をリアルタイムでチェックできます。段階的リリース(N%リリース)の際には、特にエラーやCPU使用率などのシステム負荷を詳細に監視できるようにしています。 さらに、500エラーが発生した場合、ダッシュボードから直接Gitの該当コード行へリンクできる機能を備えています。これにより、エラーの原因を素早く特定し、迅速な対応を可能にしています。 このダッシュボードはIaC化されており、SplunkのIaC化については、以前のブログ記事で詳しく紹介していますので、そちらもぜひご参照ください。 techblog.zozo.com ワークフローの分割 GitHub Actionsでは、柔軟なループ構文(例えば、forループ)のネイティブサポートがありません。特に複数回実行の必要なジョブやステップがある場合、同一ワークフロー内でループを実行できないことが大きな制約となります。本記事の自動化においても、対象サーバー群を設定ファイルで管理できるようにしたものの、GitHub Actionsでは繰り返し処理を使えないため工夫が必要でした。 この制約を解決する方法として、ワークフローの分割とBashスクリプトの組み合わせで柔軟な繰り返し処理をGitHub Actionsでも実現できるようにしました。 この手法では、まず親となるワークフローからBashスクリプトでforループを構築し、 gh workflow run コマンドで分割した子ワークフローを繰り返し実行します。子ワークフローとして実行したいワークフローは、 gh workflow run で実行できるように workflow_dispatch をトリガーとして設定しておきます。 gh workflow run < 実行したいワークフローファイルのpath > -f hoge =fuga --repo < 対象リポジトリ > --ref github.base_ref さらに、実行したワークフローのRunIDを追跡するため、 gh run list コマンドで取得したURLから実行したワークフローのRunIDを抽出します。 gh run list --workflow =< ワークフローファイル名 > --limit 1 --json url --repo < 対象リポジトリ名 > | jq -r ' .[0].url ' 取得したRunIDを使用し、 gh run watch コマンドで指定したワークフローの終了を待つことも可能です。例えば、以下のようにして指定のRunIDの実行が終了するまで待機し、その結果を取得できます。 gh run watch < runid > -i 30 --exit-status --repo < 対象リポジトリ名 > これらのコマンドをforループで繰り返し実行することで、柔軟な繰り返し処理を実装しています。 for i in < 繰り返す回数 > ; do gh workflow run < 実行したいワークフローファイルのpath > -f hoge =fuga --repo < 対象リポジトリ > --ref github.base_ref # ワークフローが実行中になるのを待つ sleep 10 # RunIDの取得 runurl = $( gh run list --workflow =< ワークフローファイル名 > --limit 1 --json url --repo < 対象リポジトリ名 > | jq -r ' .[0].url ' ) runId = $( basename " ${runUrl} " ) # gh run watchで終了待機と結果取得を行う gh run watch " ${runid} " -i 30 --exit-status --repo < 対象リポジトリ名 > done 排他制御 本記事の自動リリースでは、ワークフローが並列で実行されないように独自の排他制御を実装しています。排他制御が必要な理由としては以下が挙げられます。 複数のグループに分割してグループ毎にロードバランサーから下げてファイルを更新する方式のため、並列実行してしまうと複数のグループを本番から下げた状況になり、本番のサーバー数不足が想定される GitHub Actionsには concurrency というワークフローを直列で実行させるための設定がありますが、以下の理由で本記事の自動リリースでは採用できないため独自の排他制御を実装しています。 concurrencyは、 最大 1 つの実行ジョブと 1 つの保留中のジョブが存在できる とドキュメントに明記されており、3つ以上実行されると待機中のワークフローが古いものから順にキャンセルされる。 本記事の自動リリースでは、Mergeコミットの差分のみを展開する方式(※ 詳細は後述)としているため、ワークフローの実行がキャンセルされると展開されない差分ができてしまう。 lock処理の実装方式 GitHub Actionsで排他制御を実現するには、どのようにlockオブジェクトを実装するかが重要です。通常のシステムのようにデータベースやファイルシステムを利用できないため、独自の手法が必要です。 本記事で紹介する排他制御では、特定名称のGitブランチをlockオブジェクトとして扱い、そのブランチがGitHub上のワークフロー導入リポジトリに存在するかどうかで排他状態を判定しています。 具体的には、lockを取得したいワークフローがGitHubへブランチのPushを試み、Pushが成功すればlock獲得、失敗すれば他のワークフローがlockを保持していると判断します。これは、GitHub上でのブランチPushがアトミック操作であることを利用した方法です。 また、lockの解放は、lockブランチの削除によって行います。このシンプルな方式により、複雑な管理リソースを必要とせず、GitHub Actions内で効率的かつ確実な排他制御を実現できます。 lock処理の高速化 自動リリースを導入するリポジトリでは、長い履歴と多数の管理ファイルが存在するため、lock管理用のブランチ作成やPushに時間を要することが予想されます。そこで、効率的なリリースフローを実現するため、lock用ブランチはリポジトリの既存ブランチから派生させず、新たに空のリポジトリを git init でワークフロー上に作成する方法を採用しました。この空リポジトリ上で、lock状態を管理するためのファイルのみをcommitし、lock用ブランチとしてPushすることで処理の高速化を図っています。この手法により、リポジトリ全体をcloneする手間を省き、lock状態管理に必要な最小限のリソースのみを効率的に操作できるため、時間短縮とパフォーマンスの向上を同時に実現できます。 下記はワークフローで実行している git init コマンドを使って作成した空リポジトリから作成したブランチを導入リポジトリにpushするためのコマンド例です。 git init git remote add origin " https://x-access-token: ${ { github.token } }@github.com/<Repository名>.git " git config --global user.email " github-actions[bot] " git config --global user.name " github-actions[bot]@users.noreply.github.com " echo < lock情報 > > lock.txt git add . git commit -m " add lock files " git push origin HEAD: < lockブランチ名 > 各サーバー上での処理について 本記事で紹介する自動リリースの仕組みでは、GitHub Actionsから後述するAWX OperatorのAPIを介して各サーバー上でPowerShellスクリプトを実行し、デプロイ処理を行います。 サーバーからGitHubにアクセスする認証手段としては、一般的に デプロイキー や マシンユーザ が利用されます。しかしこれらの認証方法はサーバーごとに個別のSSHキーを生成・設定する必要があるため、複数のサーバーでGitHubへのアクセスが必要な場合には設定の負担が増大し、採用が現実的ではありません。 そこで本記事の自動リリースでは、GitHub Appsで一時的なアクセストークンを生成し、各サーバーに配布する方式を採用しました。 GitHub Apps経由のトークン取得 GitHub Appsについての詳細は以下のドキュメントをご参照ください。 docs.github.com GitHub Appsで取得できるトークンには以下の2種類があります。 インストールアクセストークン ユーザアクセストークン インストールアクセストークン GitHub AppsがリポジトリやOrgnizationのリソースへアクセスするために発行するトークンです。Botとして個別のリポジトリや組織へアクセスし、リポジトリ単位の自動化タスクを行う場合に使用します。アクセス権限はGitHub Appsの設定画面で細かく設定できます。トークンの有効期限もデフォルトでは1時間になっており、一時的な利用に適しています。 ユーザアクセストークン OAuthトークンの一種で、認証されたユーザの権限とリポジトリへのアクセス範囲を持ちます。ユーザーが持つ全ての権限に基づいた広範囲なアクセスが許可されるため、アプリがユーザーとしての行動をシミュレートするような用途に適しています。有効期限はデフォルトでは8時間で更新トークンを利用してトークンの再生成が可能です。 本記事の自動リリースでは、各サーバーからGitHubにアクセスするためのトークンが必要です。そのため、一時的な利用に適したインストールアクセストークンを発行して使用しています。このトークンは、デプロイ処理を実行するたびに新規発行するよう設定しており、セキュリティリスクを低減しつつ、最新のアクセス情報で安全にリリース操作を行うことが可能です。 GitHub Actionsでのインストールアクセストークン発行は、公式のトークン発行Actionである actions/create-github-app-token を使用しています。 このアクションの入力値として必要なApp IDとPrivateKeyは作成したGitHub Appsの設定画面で確認・作成できます。 上記の値は、それぞれリポジトリのSecretsに登録してGitHub Actionsから参照しています。 actions/create-github-app-token で取得したインストールアクセストークンは、AWXのAPIを介して各サーバーのPowerShellにパラメータとして渡すようにしています。 デプロイ処理 PowerShellスクリプトでは以下の処理を実行しています。 トークンを使ったremote url設定 マージコミットにswitchしての差分取得とコミットされた状態に応じた処理 トークンを使ったremote url設定 トークンを使用してGitコマンドからGitHubにアクセスするためにはremote urlの設定が必要です。下記が設定例になります。 git remote set-url origin https://x-access-token: < トークン > @github.com/ < owner > / < リポジトリ名 > .git この設定をすることで、origin指定のGitコマンドがトークンを使用したアクセスになります。 マージコミットにswitchしての差分取得とコミットされた状態に応じた処理 Gitリポジトリで最新のファイルを取得してリリースするのに一番シンプルな方法はディレクトリごと上書きする方式です。しかし自動リリースを導入するリポジトリはファイル数が大量にあり、毎リリースで全ファイルを上書きするのはパフォーマンス上の懸念がありました。またサーバー上のディレクトリ構成とリポジトリ上のディレクトリ構成が一致していないという課題もありました。 そこでマージされたpull requestの差分のみを取得・リリースする方式としました。 具体的には、GitHub ActionsからマージコミットのHashをパラメータとしてPowerShellスクリプトに渡します。PowerShellスクリプトは受け取ったHashにswitchして、 git log コマンドでマージコミットの親となるHashを取得します。マージコミットの親となるHashはPullRequestがマージされたbaseブランチとfeatureブランチ、それぞれのHashになります。 マージコミットの親となるHashを取得するコマンド例です。 # マージコミットにswitch git switch -f --detach < マージコミットのHash > git log -n 1 --pretty = format:%P --pretty=format:%P で親となるHashだけの出力になります。 詳細は公式ドキュメントをご参照ください。 git-scm.com 下記はマージコミットの git log コマンドの出力例です。 --pretty=format:%P オプションを付けて実行することで Merge: e1108e69e07 83daabd093a の e1108e69e07 83daabd093a のみ出力されます。 $ git log --merges -n 1 commit ab4474df796f1dd4c8c188f3d88e3366de79be12 ( HEAD - > master, origin/master, origin/HEAD ) Merge: e1108e69e07 83daabd093a Author: kane8n < takumi.kaneda@zozo.com > Date: Fri Nov 8 19:01:02 2024 + 0900 Merge pull request #317 from st-tech/fe-deploy-test Fe deploy test $ $ git log --merges -n 1 --pretty = format:%P e1108e69e07fa210b4a5584d0a724b9f7ebf160a 83daabd093a2bf7826a458bb9d356f861478fd0b $ 上記出力のスペースを ... に置換し、 git diff コマンドの引数とすることでマージコミットの差分が取得できます。 git diff コマンドにはファイルがどのような操作でコミットされたのか(追加されたのか・削除されたのかなど)の情報も取得するため、 --name-status オプションも付けて実行しています。 $ git diff --name-status e1108e69e07fa210b4a5584d0a724b9f7ebf160a...83daabd093a2bf7826a458bb9d356f861478fd0b A pc/wwwroot/FeDeployTest/brand/default.html D pc/wwwroot/FeDeployTest/brand/include/default_2021.html D pc/wwwroot/FeDeployTest/brand/include/default_2022.html A pc/wwwroot/FeDeployTest/css/common.css A pc/wwwroot/FeDeployTest/css/common.v2.css A pc/wwwroot/FeDeployTest/css/common.v3.css A pc/wwwroot/FeDeployTest/css/interview.css A pc/wwwroot/FeDeployTest/css/ mv .css A pc/wwwroot/FeDeployTest/css/ mv .v2.css A pc/wwwroot/FeDeployTest/default.html $ 上記出力をPowerShellスクリプトでパースして、追加(A)や修正(M)であればコピー、削除(D)ならサーバー上のファイルも削除というように処理しています。 さいごに 前編では、Classic ASPの手動リリース作業が抱える課題を解決するためにGitHub Actionsを活用したリリースプロセス自動化の概要について解説しました。後編では、リリース自動化の中核となるAWX Operatorについて解説します。こちらもぜひご覧ください。 https://techblog.zozo.com/entry/asp-auto-deploy-implementation-second-part techblog.zozo.com ZOZOでは、一緒にサービスを作り上げてくれる方を募集中です。ご興味のある方は、以下のリンクからぜひご応募ください。 hrmos.co
アバター
はじめに こんにちは、MA部MA基盤ブロックでマーケティングオートメーションのシステムを開発している長澤です。この記事ではBigQueryとDatadogを活用した監視を導入した話を紹介します。 はじめに、日々のマーケティングオートメーション(以下、MA)の開発・運用における課題としてシステム信頼性の向上がありました。ZOZOTOWNは年間の購入者数が1,100万人を超えており、MAによりユーザーの皆さまに向けて多様かつ大規模なキャンペーン配信を展開しています。そのため、MAのシステム信頼性の担保が重要課題でした。 その一環としてこれまでに導入されてきた監視が多数ありました。MAの監視を大別すると、一般的に知られるシステム監視とMA特有の監視があります。以下がその一部です。 一般的なシステム監視 OSのCPUやメモリの使用量 HTTPレスポンスのステータスコード SLA 死活監視 MA特有の監視 配信件数や配信失敗率(配信システム・配信チャネル・キャンペーン・集計時間などによる組み合わせ多数) 重複配信などの異常検知 配信からのECサイト・アプリへの流入数 この記事で取り上げるのは後者のMA特有の監視になります。既存のMA特有の監視はいくつかの課題を抱えていました。例えば監視対象のシステムが複数あり、システムによって監視方法が異なり統一されていなかったり、監視ツール自体に課題があったりしました。 これらの課題を解決するため、今回は新たにBigQueryとDatadogを活用した監視の仕組みを構築しました。元々BigQueryは監視のメトリクスのデータソースとして、Datadogは監視ツールとして部署内で活用していたのですが、このふたつを組み合わせた監視の仕組みはまだ存在していませんでした。既存の複数の監視方法の中で、それぞれが別々に活用されている状況でした。この記事では、BigQueryとDatadogを連携するメトリクス送信用アプリケーションによる監視の仕組みをご紹介します。 目次 はじめに 目次 既存の課題 時折通知に失敗する メトリクスを蓄積できない 監視設定のコード管理ができない 監視ツールの選定 監視のアーキテクチャと実装 取り組みの結果 今後の課題 まとめ 既存の課題 既存のMA特有の監視の課題としては以下のようなものがありました。 配信システムによって監視方法が異なる 各監視ツールに課題がある 時折通知に失敗する メトリクスを蓄積できない 監視設定のコード管理ができない 実際に使用していた(試験運用含む)監視ツールは、Redashアラート・Lookerアラート・Digdagで、いずれも本来は監視が主目的のツールではありませんでした。RedashとLookerはBIツールに付随するアラート機能として利用していました。Digdagは定期実行が可能なワークフローエンジンのため、定期的にBigQueryの集計結果が閾値を超えていたら通知するようにして監視代わりにしていました。 時折通知に失敗する 一番の課題として、時折監視の通知に失敗することがありました。RedashはAWS環境でセルフホスティングしていましたが、しばしばワーカーのCeleryのエラーが発生していました。LookerアラートはSaaSでしたが、試験運用中にしばしば通知が失敗してしまい、採用を見送った経緯がありました。 メトリクスを蓄積できない これは元々が監視ツールではないこともあり、いずれのツールでもできていませんでした。蓄積のためには別途自前の仕組みが必要でした。 監視設定のコード管理ができない RedashとLookerではアラート設定をコードで実装できないため、コード管理ができませんでした。Redashアラートは管理画面のフォーム以外の管理方法がありません。LookerはAPIでアラートの設定が可能ですが、別途それ用の実装が必要でした。 監視ツールの選定 こうした背景を踏まえて改めて監視ツールを選定し、Datadogを採用しました。採用理由としては、やはり監視ツールであるがゆえに監視のニーズを満たして既存の課題の解決に最適であったためです。加えて、すでに社内や自分の部署内において多数の運用実績があったのも大きな理由です。 Datadogは過去の運用で既知の通り、高いシステム信頼性で安定稼働していました。メトリクスの蓄積は元々機能として備えており、ダッシュボードで過去の推移を簡単に確認できます。また、監視設定はTerraformで記述可能なためコード管理ができます。 監視のアーキテクチャと実装 本題の監視の仕組みを説明します。 冒頭でも触れた通り、BigQueryのデータを集計し、その集計結果をメトリクスとしてDatadogに送信する監視用アプリケーションを開発しました。言語はGoを採用し、Cloud Runジョブで実行します。Cloud Schedulerでメトリクス送信の実行間隔を設定し、HTTPリクエストをCloud Runジョブに送信します。Datadogの監視はTerraformでコード管理しています。 アプリケーションの設計の要点として、監視対象のシステムや項目が増えてもアプリケーションの修正は不要にしました。新たに監視項目を追加する場合は以下の3つを追加または修正し、GitHub Actionsでそれぞれをデプロイする仕組みになっています。 Cloud Schedulerを管理するYAMLファイル BigQueryのSQLテンプレート Terraformの「datadog_monitor」リソースの定義 Cloud Schedulerを管理するYAMLファイルは以下のようなスキーマで記述します。GitHub ActionsでこのYAMLをパースし、Cloud Schedulerジョブを作成・更新します。 - name : zozo-notification-delivery-error-rate-job description : 配信基盤の配信失敗率 pause : false schedule : "*/10 * * * *" template_path : zozo_notification_delivery/error_rate 例えばこの設定は、配信の失敗率を集計するSQLテンプレートを10分おきに定期実行するジョブを作成します。アプリケーションのCloud Runジョブはひとつのみ作成しますが、監視項目ごとに実行するSQLテンプレートは異なります。そのため、Cloud Schedulerのデプロイ時にHTTPリクエストのボディでファイルパスを渡すようにしています。 Cloud Runジョブの実行時に任意の引数を渡したい場合は、以下のように「containerOverrides」で指定するため、この値にファイルパスを渡しています。また、それ以外に任意の引数を渡すことも可能な実装にしています。 gcloud scheduler jobs deploy http ${JOB_NAME} \ --description " ${DESCRIPTION} " \ --location asia-northeast1 \ --schedule " $( echo " ${SCHEDULE} " | sed -e ' s/\"//g ' ) " \ --time-zone " Asia/Tokyo " \ --uri " https://asia-northeast1-run.googleapis.com/apis/run.googleapis.com/v1/namespaces/ ${PROJECT_ID} /jobs/ ${CLOUD_RUN_JOB} :run " \ --http-method POST \ --message-body " { \" overrides \" :{ \" containerOverrides \" :[{ \" args \" :[' ${MESSAGE_BODY} ']}]}} " \ --max-retry-attempts 3 \ --oauth-service-account-email ${SERVICE_ACCOUNT} \ --project ${PROJECT_ID} アプリケーションの実装においては、SQLの結果をDatadogメトリクスAPIのインタフェースに合わせています。 docs.datadoghq.com 今回は時系列データをポストできる「Submit metrics」エンドポイントを利用しています。このエンドポイントでは、主にメトリクスの「名前」「タイムスタンプ」「値」「タグ」を送信します。 type MetricSeries struct { Metric string `json:"metric"` Points [][] float64 `json:"points"` Type string `json:"type"` Tags [] string `json:"tags"` } func sendToDatadog(metricName string , value float64 , tags [] string ) error { url := fmt.Sprintf( "https://api.datadoghq.com/api/v1/series?api_key=%s" , datadogAPIKey) metric := DatadogMetric{ Series: []MetricSeries{ { Metric: metricName, Points: [][] float64 { { float64 (time.Now().Unix()), value}, }, Type: "gauge" , Tags: tags, }, }, } data, err := json.Marshal(metric) if err != nil { return err } resp, err := http.Post(url, "application/json" , bytes.NewBuffer(data) // 省略 } これに合わせて、BigQueryのSQLテンプレートは「メトリクス名」と「集計した値」を出力するようにしています。例えば先ほどの配信失敗率のSQLテンプレートであれば、このような結果を返します。 [{ " metric_name ": " system1_push ", " value ": 0.0 } , { " metric_name ": " system1_mail ", " value ": 0.01 } , { " metric_name ": " system1_line ", " value ": 0.02 }] この結果に加えて、SQLテンプレート名やその他の管理用の情報をタグとしてメトリクスに追加し、Datadogに送信します。このようにしてSQLの詳細に関わらず、集計結果をメトリクスとして送信できるようにしています。 Terraformでは先ほどのメトリクス名と同じ数の監視を定義します。 resource "datadog_monitor" "zozo_notification_delivery_error_rate" { for_each = toset ( [ "system1_push" , "system1_mail" , "system1_line" , ] ) name = "【Notification Delivery】Error rate of $ { each.key } over the threshold" type = "metric alert" tags = [ "env:$ { local.env } " , "app:zozo_notification_delivery" , "template:error_rate" ] message = <<-EOT $ { local.notification_slack_channel } Error rate of $ { each.key } ({{value}}%) over the threshold {{threshold}}. template: https://github.com/st-tech/ma-datadog-metrics-sender/blob/main/templates/zozo_notification_delivery/error_rate.tmpl {{ #is_alert}} {{#is_exact_match "env" "prd"}} @pagerduty-zozo-ma-alert {{/is_exact_match}} <!subteam^XXXXXXXX|ma-alert-team> {{/is_alert}} {{ #is_no_data}} {{#is_exact_match "env" "prd"}} @pagerduty-zozo-ma-alert {{/is_exact_match}} <!subteam^XXXXXXXX|ma-alert-team> {{/is_no_data}} {{ #is_no_data_recovery}} {{#is_exact_match "env" "prd"}} @pagerduty-zozo-ma-alert {{/is_exact_match}} {{/is_no_data_recovery}} EOT validate = true query = "max(last_5m):bigquery.query.result.zozo_notification_delivery.error_rate.$ { each.key } {env:$ { local.env } } > XXX" notify_no_data = true no_data_timeframe = 25 ## minutes timeout_h = 0 require_full_window = false monitor_thresholds { warning = XXX critical = XXX } } 通知先はSlackとPagerDutyです。監視の閾値を超えた場合だけでなく、一定時間メトリクスの送信がなかった場合も「no_data」の設定によって通知します。「no_data」の設定によって、メトリクス送信アプリケーションに問題があった場合に、それ自体の監視がなくともメトリクス送信の異常を検知できます。 取り組みの結果 現在はこの監視の仕組みを構築し、監視の一部の移行が完了しています。Datadogの安定性とno_dataの設定により、監視の仕組みは安定して運用できています。時折メトリクス送信に失敗しますが、それも検知した上で対応できています。メトリクスの蓄積も既知の通りでしたが、過去の推移を簡単に確認するのに役立っています。監視設定はGitHubで管理しているため、PRレビューをしたり、過去の変更履歴を管理したりできています。Digdagワークフローでは監視項目ごとにアプリケーションコードを実装していましたが、移行後はSQLテンプレートで集計処理が完結するため、コードの実装を減らすことができました。その甲斐もあって移行もコストを抑えてスムーズに行えました。 将来的には複数のツールに点在している監視をこの仕組みに統一することで、拡張性がありつつ運用負荷が低い監視を実現します。 今後の課題 今後の課題としては、残りの監視の移行や不足している監視の追加があります。また、今回の課題とは別問題ですが移行後の監視の見直しを予定しています。見直しの例としては、監視の閾値が低く通知の頻度が多すぎるケースや、監視の集計軸の粒度が大きいために細分化が必要なケースなどです。 まとめ BigQueryとDatadogを活用したMAの監視について紹介しました。メトリクス送信用のアプリケーションを開発することで、BigQueryをデータソースとしてメトリクスを集計し、Datadogで監視できるようにしました。設計の工夫により、この監視の仕組み自体の運用コストを抑えられるようにしました。監視の一事例として参考になれば幸いです。 MA部ではMAの開発やSREを共に推進してくれる方を募集中です。ご興味のある方は下記リンクの採用募集からぜひご応募ください。 corp.zozo.com
アバター
はじめに こんにちは、MA部の中原です。 MA部ではZOZOTOWNにおけるメルマガやLINE通知、アプリプッシュ通知、Web広告を配信するためのマーケティングオートメーションシステムを開発・運用しています。本記事では、Web広告について外部SaaSで利用していた機能の内製化と移行についてご紹介します。 目次 はじめに 目次 背景・課題 拡張コンバージョンとは? 拡張コンバージョンの実装 設定方法 環境構築 1. アクセス認証情報の作成 2. API認証ユーザーに付与するGoogle広告のアクセス権限 3. APIリクエストには個人アカウントのリフレッシュトークンを使用する 全体の流れ 1. 運用担当者の広告設定・広告出稿 2. ユーザが広告をクリックし購入 3. ファーストパーティ(自社)の購入データをGoogleに送信 実装 送信データ APIを使用したアップロード 並列処理の方法 1. 対象データ取得 2. バッチグループの作成 3. 並列処理 外部SaaSからの移行 1. テスト用のコンバージョンアクションの作成 2. テスト用のコンバージョンアクションに対して拡張コンバージョンをアップロード 3. テスト用のコンバージョンアクションで拡張コンバージョンが記録されることを確認 4. 本番適用と外部SaaSとの並行稼働 5. 外部SaaSの利用停止 移行前と移行後 まとめ さいごに 背景・課題 ZOZOTOWNでは、GoogleやYahoo!、Metaなどの様々な媒体に広告を出稿しています。広告の運用担当者は、配信した広告のクリック率やコンバージョン率などをみて効果検証し、広告の改善や最適化を行っています。Google広告においてはコンバージョンの計測を補完するために、外部SaaSの機能を活用して拡張コンバージョン(詳細は後述)を導入していました。しかし、外部SaaSに依存しているためエラーが発生した際にリカバリーができず、コンバージョンデータの欠損が発生し効果検証や分析に支障をきたすという課題がありました。そこで、Google Ads APIを用いた拡張コンバージョンの実装を内製化し、課題の解決を図りました。 拡張コンバージョンとは? 従来の方法では、コンバージョンは以下の流れで計測されます。 広告主がコンバージョンページ(注文完了ページなど)にコンバージョンタグを設定 ユーザが広告をクリックするとGCLID(Google Click Identifier)という広告クリックを一意に識別するIDや広告のキャンペーン情報をCookieに保存 ユーザがコンバージョンページに訪問すると、コンバージョンタグが発火し、Cookieの情報を読み取りGoogleに送信 しかし、近年のCookie規制の強化により従来の方法ではコンバージョンの欠損が起きやすくなります。今回紹介する拡張コンバージョンは、ファーストパーティデータ(自社データ)とGoogleアカウントを照合することで、この欠損を補完する機能です。具体的な計測の流れを以下に示します。 自社データのユーザ情報(ハッシュ化した電話番号やメールアドレスなど)やコンバージョン情報(注文日時)をGoogleに送信 Google側で送信されたデータとGoogleアカウントのデータと照合し、広告クリックとコンバージョンの関連付けが行われ計測 拡張コンバージョンの実装 設定方法 拡張コンバージョンの設定方法は3つあります。 table { border-collapse: collapse; width: auto; } th { border: solid 1px #666666; color: #000000; background-color: #FFFFFF; } td { border: solid 1px #666666; color: #000000; background-color: #FFFFFF; } 設定方法 メリット デメリット Googleタグマネージャー ユーザデータを収集するためのタグ設定を行うだけで非エンジニアでも設定可能 コンバージョンページに電話番号やメールアドレスの情報を持たせる必要があり、セキュリティリスクがある Googleタグ Google Ads API 自社から直接ユーザデータを送信するためセキュリティが高い 技術的な知識が不可欠でエンジニアによる開発が必要 今回はセキュリティの観点からGoogle Ads APIを採用しました。詳細は Google広告ヘルプページの拡張コンバージョンに関する説明 をご覧ください。 環境構築 インストールや認証等の設定は以下の公式ドキュメントに従えばスムーズに設定できました。この章では実装するにあたって特に重要なポイントについて説明します。 developers.google.com developers.google.com 1. アクセス認証情報の作成 OAuth 2.0クライアントにはウェブアプリケーションやデスクトップアプリケーションなど、さまざまな種類があります。今回の実装では、APIリクエストに必要なリフレッシュトークンを簡単に発行できるデスクトップアプリケーションとしてOAuth 2.0クライアントを作成しました。なお、サービスアカウントを使用する方法もありますが、これにはGoogle Workspaceドメイン全体の権限を委任する必要があります。この仕組みでは、Google広告の権限を持つユーザーになりすまして認可を受ける形となります。しかし、サービスアカウントに非常に強い権限を付与することになるためセキュリティリスクが高く、この方法は推奨されていません。アクセス認証情報の詳細については以下をご覧ください。 developers.google.com 2. API認証ユーザーに付与するGoogle広告のアクセス権限 APIリクエスト時の認証で使用するユーザは、Google広告にアカウントを追加およびアクセス権限の付与が必要です。主な権限とできることを以下に示します。 権限 できること 読み取り専用 閲覧のみ(広告、キャンペーン、レポートの確認など) 標準 広告運用の全般(キャンペーンや広告の作成、編集、コンバージョンデータのアップロードなど) 管理者 全ての操作 読み取り専用では拡張コンバージョンのアップロードで権限エラーが発生するため、標準以上の権限が必要です。上記以外にもアクセス権限の種類はありますが、詳細は以下をご覧下さい。 support.google.com 3. APIリクエストには個人アカウントのリフレッシュトークンを使用する Google Ads APIではサービスアカウント単体でのリクエストがサポートされていません。そのため個人アカウントの認証情報を使うしかありません。理由は以下の2点です。 Google広告には個人のアカウントしか登録できない Google Ads APIの認証時にAPI発行主がGoogle広告にアカウントと権限があるかが確認される APIのクライアントライブラリではリフレッシュトークンを認証情報として渡します。このリフレッシュトークンは、Google広告に権限があるアカウントで発行したものを使用します。APIリクエスト時にはリフレッシュトークンでアクセストークンを取得し、そのアクセストークンで認証・認可が行われます。リフレッシュトークンは個人アカウントに依存するため、システムをチーム全体で管理する際に不便な場合があります。たとえば、APIリクエストに使用していたメンバーのアカウントが退職などで削除されると、そのアカウントに紐づいたリフレッシュトークンを使用してAPIリクエストができなくなります。一方で、Google広告のアカウントを持つユーザーのリフレッシュトークンを使用することで、Google広告のアカウントを持たない他のメンバーやシステムからもAPIリクエストは可能です。そのためチーム全体で運用する際は、認証に使うアカウントの管理や引き継ぎを考慮する必要があります。個人に紐づくトークンを利用する設計は望ましくないため、将来的にはサービスアカウントをセキュアに利用できる仕組みが導入されることを期待しています。 全体の流れ 実装の説明の前に簡単な全体像を以下に示します。 大まかな流れは次の通りです。 1. 運用担当者の広告設定・広告出稿 運用担当者は広告を作成した後、コンバージョンを計測するためにコンバージョンアクションというものを作成し設定します。コンバージョンアクションとは、サイトでの商品購入やアプリのダウンロードなどユーザの特定の行動です。例えば、ウェブサイトの注文完了ページへのクリックで購入を測定する「購入コンバージョン」などです。サイト内にタグを設置することでクリック時に発火し測定されます。今回は購入コンバージョンの計測を補完しました。 2. ユーザが広告をクリックし購入 ユーザが広告をクリックし注文完了ページに到達すると、コンバージョンアクションのタグが発火し、Googleに以下の情報を送信します。 クリックID(GCLID):広告クリックを一意に識別するID 広告ID:クリックされた広告を特定するための情報 クリック時間データ:広告がユーザーに配信されてからクリックされた時間に関する情報 3. ファーストパーティ(自社)の購入データをGoogleに送信 自社のDBに蓄積される注文データ(ハッシュ化したメールアドレスなどのユーザデータや注文日時など)をGoogleに送信します。Google側でその情報を使用して広告のクリックとコンバージョンを関連付けます。ハッシュ化しているとはいえ、ユーザの個人情報を外部へ送信するため事前に法務部への確認が必要です。 実装 上図の赤の部分を実装しました。定期実行するために、 Digdag を使用しています。Digdagとはオープンソースのワークフローエンジンで、複数のタスクをワークフローとして定義しバッチ処理を行えるものです。自社の注文データをGoogle Ads APIを使用してGoogleに送信するシンプルなアプリケーションを作成しました。送信データとAPIを使用したアップロードの実装について説明します。 送信データ 送信するデータは 公式ドキュメント に記載されています。すべての項目を送信する必要はないため必要最低限の以下の項目を送信しました。 送信項目 説明 order_id コンバージョンのタグで指定する注文ID phone_number ハッシュ化したユーザの電話番号 country_code ISO 3166 の2文字の国名コード email ハッシュ化したユーザのメールアドレス conversion_date_time 注文日時 ハッシュ化する項目は、ハッシュ化する前に以下のように変換する必要があります。 先頭と末尾の空白を取り除く テキストを小文字に変換する E164規格に従って電話番号をフォーマットする メールアドレスのドメイン名の前にあるピリオド(.)をすべて削除する ハッシュ化はBigQueryのクエリで行ってテーブルに書き出し、アップロード時はテーブルのデータを参照するだけの状態にしました。以下にBigQueryでハッシュ化するクエリ例を示します。 SELECT MemberID, to_hex(sha256( lower ( replace ( replace (split(email, ' @ ' )[ 0 ], ' ' , '' ), ' . ' , '' )) || ' @ ' || lower ( replace (split(email, ' @ ' )[ 1 ], ' ' , '' )))) AS email_sha256, to_hex(sha256( ' +81 ' || ltrim ( replace (tel, ' - ' , '' ), ' 0 ' ))) AS tel_sha256 FROM `project.dataset.Member` -- 会員テーブル 送信するデータはファーストパーティのCookieの保管期限の関係で、 ドキュメント に記載の通り、コンバージョン発生から24時間以内のデータだけを送るように注意します。 APIを使用したアップロード Pythonのクライアントライブラリを使用しました。 サンプルコード が公式で用意されており、それを参考に実装しました。APIのリクエストは以下のドキュメントにある通り、1回につき2000件までという制約があります。直列で2000件ずつ処理すると時間がかかるため、今回はAPIリクエストを並列で処理するように工夫して実装しました。 developers.google.com 並列処理の方法 Digdagにはループ処理ができる for_each> オペレータと、並列処理できる _parallel: オプションがあります。 docs.digdag.io これらを使用し、対象データを固定の並列数で2000件ずつ処理するためのグループに分け、ループしながら効率的に処理することにしました。 1. 対象データ取得 DBから過去24時間以内の注文情報を取得して一時テーブルに書き出します。 2. バッチグループの作成 対象データからバッチ処理するグループのリストを作成します。以下はグループ作成のサンプルコードです。引数のcountには対象データの件数を渡します。 _BATCH_SIZE = 2000 # リクエスト1回あたりの最大件数 _PARALLEL_SIZE = 50 # 並列数 def generate_batch_group_list (count: int ) -> List: batch_size = int (count / _BATCH_SIZE) if int (count % _BATCH_SIZE) > 0 : batch_size += 1 batch_number_list = list ( range (batch_size)) return [batch_number_list[i:i + _PARALLEL_SIZE] for i in range ( 0 , len (batch_number_list), _PARALLEL_SIZE)] 例えば対象データ件数が100万件の場合、それぞれの変数とbatch_group_listの中身は以下の通りです。 count: 1000000 batch_size:(1000000 / 2000)= 500 batch_number_list: [0, 1, 2 ... 499] batch_group_list: [[0, 1, 2, ..., 49][50, 51, 52, ..., 99]...[450, 451, ... , 499]] batch_group_listは並列数の50個ずつに区切られた2次元配列となり、中身の数字は、BigQueryに書き出したテーブルから2000件ずつ取得するために基準となる数字です。 3. 並列処理 上記2で作成した batch_group_list をDigdagの変数にセットし、以下のようなDigdagのタスクを定義します。 +upload : for_each> : group_list : ${batch_group_list} _do : for_each> : batch_number : ${group_list} _parallel : true _do : _export : python : /usr/bin/pipenv_run_python docker : image : ${docker_python.image} pull_always : ${docker_python.pull_always} !include : k8s.dig py> : models.google_ads.upload_enhanced_conversions timestamp : ${moment(session_time).local().format("YYYYMMDD_HHmmss")} 外側のループで50個ずつにまとめたグループのリストを取り出し、内側のループでは _parallel : true オプションをつけることで50個を並列で処理します。ここで呼び出しているupload_enhanced_conversionsメソッドでは、batch_numberを基準として、1で書き出した一時テーブルから2000件取得してリクエストします。Google Ads APIのライブラリのクラスやメソッドを使う処理は省略しますが、以下にコード例を示します。 _BATCH_SIZE = 2000 def upload_enhanced_conversions (timestamp: str , batch_number: int ) -> None : start_index = batch_number * _BATCH_SIZE # 対象データをすべて書き出したテーブル table_id = f 'project.dataset.purchase_conversions_{timestamp}' conversions_iterator = bq.list_rows(table_id, start_index, _BATCH_SIZE) # 指定位置から2000件取得 conversions_list = list (conversions_iterator) """ conversions_listをGoogle Ads APIのライブラリのメソッドを使用してアップロード """ def list_rows (table_id: str , start_index: int , batch_size: int ) -> List[bigquery.Row]: client = bigquery.Client(project=config[ "gcp_project" ], credentials=gcp.get_credentials()) table = client.get_table(table_id) row_iterator = client.list_rows(table, start_index=start_index, max_results=batch_size) return list (row_iterator) これで50並列での処理が可能になりました。対象データが100万件の場合、2000件ずつのリクエストが500回となり、50並列で実行するため外側のループは500/50=10回まわることになります。 外部SaaSからの移行 ここまで説明した内容を冒頭でも説明したように外部SaaSを利用して行っていました。ここからは外部SaaSからどのように移行をしたのかについてお話しします。 1. テスト用のコンバージョンアクションの作成 Google広告には開発環境が用意されておらず、本番環境でテスト用のコンバージョンアクションを作成しました。本番運用で使用しているコンバージョンアクションと同じ設定で作成します。本番運用と同じページタグを設置することで、本番運用と同様のコンバージョンを計測でき、本番用のコンバージョンに影響を与えることなく確認できます。 2. テスト用のコンバージョンアクションに対して拡張コンバージョンをアップロード アップロードは、コンバージョンアクションID単位です。このIDはコンバージョンアクション単位で振られます。テスト用のコンバージョンアクションに対してアップロードします。 3. テスト用のコンバージョンアクションで拡張コンバージョンが記録されることを確認 Google広告の管理画面から確認します。以下の画面の「オフラインでのコンバージョン」の詳細ページでアップロードされたかが確認できます。 アップロードのデータに問題があると以下のようにアラートが表示されます。 この時は以下が原因でアラートが表示されました。 24時間より前に購入が発生したデータをアップロードしていた コンバージョン発生から24時間以内のデータが必要とされる テスト用ということで少量データしかアップロードしなかった タグが発火した回数(コンバージョン発生回数)分のコンバージョンデータをアップロードする必要がある 4. 本番適用と外部SaaSとの並行稼働 本番運用で使用しているコンバージョンアクションに対してもテスト用と同様にAPIを使用してアップロードします。アップロードが上手くいかずコンバージョンの計測を補完ができなかった場合、本番運用に影響するため外部SaaSと並行稼働します。 5. 外部SaaSの利用停止 問題なく安定的に本番運用で使用しているコンバージョンアクションに対してアップロードできていることを確認して、外部SaaSの利用を停止します。 移行前と移行後 外部SaaSからの移行前後で拡張コンバージョンのカバレッジが改善され安定するようになりました。コンバージョンが失われている可能性があるとカバレッジの割合は低く表示されるため、高い割合であることが好ましいです。 まとめ 本記事では、Google Ads APIを用いた拡張コンバージョンの実装と外部SaaSからの移行方法について紹介しました。外部SaaSの機能の内製化と移行によって、拡張コンバージョンのカバレッジが安定し、利用コストも削減できました。Google Ads APIを使用して拡張コンバージョンの実装を検討している方の参考になりましたら幸いです。 さいごに ZOZOでは一緒にプロダクトを開発してくれるエンジニアを募集しています。ご興味のある方は下記リンクからぜひご応募ください! corp.zozo.com
アバター
Developer Engagementブロックの @ikkou です。ZOZO開発組織の1か月の動向をMonthly Tech Reportとしてお伝えします。 ZOZO TECH BLOG 2024年11月度は7本の記事を公開しました(前月分のMonthly Tech Reportを含む)。中でも次の3つの記事は多くの方に読んでいただきました。 techblog.zozo.com techblog.zozo.com techblog.zozo.com まだお読みでない方はぜひご覧ください。 登壇 ちむぐくる!TOKYO 11月6日に開催されたgusuku Customineのユーザー交流会『 ちむぐくる 』にコーポレートエンジニアリング部の新井が登壇しました。 #CybozuDays 前日📅 サイボウズ東京オフィス・Factoryにて 「ちむぐくるTOKYO」はじまりました🌺🌿 今年の参加者は去年よりもめちゃくちゃ増えて、会場ほぼ🈵状態です👀💫 ありがたい〜〜🔥 #カスタマインちむぐくる #gusuku #Customine #kintone pic.twitter.com/zEhys05zlo — gusuku🎪DX MARKET〜あなたのkintoneに合うトッピングは? (@gusukuSupport) 2024年11月6日 Cybozu Days 2024 11月7日に開催された『 Cybozu Days 2024 』にコーポレートエンジニアリング部の新井が登壇しました。 【登壇のお知らせ】 明日から幕張メッセで開催される #CybozuDays 2024 の1日目にコーポレートエンジニアリング部の新井が『大企業では、kintoneをこう使う!ノーコードツール活用術を全部見せ』というテーマの座談会セッションに登壇します🎙️ https://t.co/AuCHgAARCt #CybozuDaysで会いましょう — ZOZO Developers (@zozotech) 2024年11月6日 経営者・リーダーのためのデータ活用実践フォーラム 11月13日に開催されたオンラインセミナー『 経営者・リーダーのためのデータ活用実践フォーラム 』の基調講演にデータサイエンス部の西山が登壇しました。 オンラインセミナー登壇のお知らせ🎙️👨‍💻 明後日11/13(水) 13時より開催される #日経クロステック 主催『経営者・リーダーのためのデータ活用実践フォーラム』の基調講演にデータサイエンス部の西山が登壇、ZOZOにおける #生成AI の活用事例をご紹介します! https://t.co/fnACYrPrTS — ZOZO Developers (@zozotech) 2024年11月11日 speakerdeck.com JSConf JP 11月23日に開催された『 JSConf JP 』にWEARフロントエンド部 テックリードの冨川( @ssssotaro )が登壇しました。 カンファレンス登壇のお知らせ🎙️ 来週末11/23(土)に開催されるJSConf JP 2024にてWEARフロントエンド部の冨川 @ssssotaro が11:40よりトラックBにて『React CompilerとFine Grained Reactivityと宣言的UIのこれから』というタイトルで登壇します! https://t.co/2UI0kCTq54 #jsconfjp #zozo_engineer — ZOZO Developers (@zozotech) 2024年11月13日 jsconf.jp speakerdeck.com アーキテクチャConference 2024 11月26日に開催された『 アーキテクチャConference 2024 』にCTOの瀬尾( @sonots )が会場限定の講演として登壇しました。 11/26(火) 開催!アーキテクチャConference 2024にCTOの瀬尾 @sonots が『ZOZOTOWNのアーキテクチャ変遷と意思決定の歴史をADRから振り返る』というテーマで登壇します🎙️ 会場限定講演!14:00~14:40に B会場で皆さんのご来場をお待ちしています! https://t.co/30XLLJuuan #アーキテクチャcon_findy — ZOZO Developers (@zozotech) 2024年11月20日 本日登壇した資料こちらに置いておきますね ^^ 『ZOZOTOWNのアーキテクチャ変遷と意思決定の歴史を ADRから振り返る』 https://t.co/sM9SSjOrKM #アーキテクチャcon_findy — そのっつ (Naotoshi Seo) (@sonots) 2024年11月26日 GitHub Universe Recap 東京 後述するGitHub × ZOZOTOWNコラボレーションアイテムの販売にあわせ、11月27日に開催された『 GitHub Universe Recap 東京 』に技術戦略部の諸星( @ikkou )と堀江( @Horie1024 )が登壇しました。 GitHub x ZOZOTOWNコラボグッズ着用時のすがた 先週のイベントで 「GitHub Copilot全社導入のその後とGitHub×ZOZOTOWNコラボレーションの舞台裏」 をお話しされた @Horie1024 さんの良いお写真が撮れたので、許可をいただき掲載。 カジュアルT、GitHub CopilotデザインのライトグレーLサイズです。 pic.twitter.com/Eydp1NF1w4 — GitHub Japan (@GitHubJapan) 2024年12月3日 異色とも言える今回のコラボレーションの裏話と、2023年にGitHub Copilotを全社導入した後の現状をお話ししました。全社導入時の記事とあわせてご覧ください。 speakerdeck.com techblog.zozo.com CloudNative Days Winter 2024 11月29日に開催された『 CloudNative Days Winter 2024 』にSRE部 カート決済SREブロックの横田と同SRE部 プラットフォームSREブロックの亀井が登壇しました。 📰ZOZOエンジニア登壇情報 CloudNative Days Winter 2024の2日目にカート決済SREの横田とプラットフォームSREの亀井が登壇します🎙️ 🖥️システムリプレイスプロジェクト発足から7年、改めてコスト最適化に向き合う 📅 2024/11/29 13:20-14:00 Track B https://t.co/44brxUeEG6 #CNDW2024 #CloudNative — ZOZO Developers (@zozotech) 2024年11月28日 event.cloudnativedays.jp speakerdeck.com 掲載 Software Design 2024年12月号 ZOZOTOWNリプレイスプロジェクトについて全8回で連載中の「 Software Design 2024年12月号 」が11月18日に発売されました。 最終回となる第8回のテーマは「 フロントエンドエンジニアから見るZOZOTOWNリプレイスとまとめ・今後の展望 」です。ぜひご覧ください。 ZOZOTOWNリプレイスプロジェクトについて連載中の「Software Design 2024年12月号」が本日11月18日(月)に発売されました! 第8回のテーマは「フロントエンドエンジニアから見るZOZOTOWNリプレイスとまとめ・今後の展望」です。連載がいよいよ最終回です。お見逃しなく! #zozo_engineer https://t.co/avn09O2zb4 — ZOZO Developers (@zozotech) 2024年11月18日 第7回までの連載は全文を公開しています 。あわせてご覧ください。 日経クロステック(xTECH) ZOZOTOWNのアイテムレビューにおける生成AI活用についての記事が日経クロステック(xTECH)に掲載されました。 xtech.nikkei.com 有料会員限定の記事となりますが、1ページ目はどなたでもご覧いただけます。 また、アイテムレビュー機能そのものについては、関連記事を公開しています。ご興味のある方はあわせてご覧ください。 techblog.zozo.com techblog.zozo.com 日本ネット経済新聞 ZOZOTOWNとWEAR by ZOZOにおける、気温別にアイテムやコーディネイトを提案するコンテンツ・機能について、日本ネット経済新聞に掲載されました。 netkeizai.com ZOZOTOWNは『 FASHION FOR WEATHER 』として特設ページを公開しています。WEAR by ZOZOはiOS/Androidアプリ左上のお天気アイコンから「 コーデ予報 」を確認できます。ぜひ日頃のコーディネートの参考としてください。 東洋経済education×ICT 山田進太郎D&I財団と42 Tokyoによる「 Girls Meet STEM〜ITのお仕事を体験しよう〜 」にZOZOが参画することについて東洋経済education×ICTに掲載されました。 toyokeizai.net 既に参加者の募集は締め切っていますが、「ZOZOのワークショップでITのお仕事を体験!」と題して12月15日に実施します。後日、レポート記事を公開するので、お楽しみに! www.shinfdn.org WAKE Career WAKE Careerの女性エンジニアインタビューとしてバックエンドエンジニアを務める半澤のインタビューが掲載されました。特に女性・ITエンジニアの活躍やキャリアに関心のある方は必見の内容となっています。 wake-career.jp 半澤の過去の取り組みについては、以下のページもあわせてご覧ください。 www.wantedly.com aws.amazon.com イベント案内 12月に開催するイベントをご紹介します。 ZOZO Advent Calendar 2024 ZOZO Advent Calendar 2024は過去最多となる全11シリーズ、275記事を公開予定 冬の風物詩とも言えるアドベントカレンダーに参加中です。今年は 過去最多となる全11シリーズ、275記事を公開予定 です。さまざまなジャンルの記事が公開されますので、ぜひ気になる記事を探してみてください。 qiita.com GitHub Universe 2024 Recap in ZOZO 10月29〜30日の2日間に渡ってサンフランシスコで開催された GitHub Universe 2024 を振り返るRecapイベントをオフラインで開催します。 ZOZOからは2名が登壇し、ゲストとしてニフティ株式会社さん、そして『コード×AIーソフトウェア開発者のための生成AI実践入門』の著者である服部さん( @yuhattor )も登壇します。GitHubに興味をお持ちの方はぜひご参加ください。 zozotech-inc.connpass.com AWS re:Invent 2024 Recap in ZOZO 12/2日から6日の5日間に渡ってラスベガスで開催される AWS re:Invent 2024 を振り返るRecapイベントを12月17日にオフラインで開催します。 ZOZOからはAWS re:Invent 2024参加者4名の他、ゲストとしてAWSの方も登壇します。AWS re:Invent 2024に参加した方も、参加できなかった方も、ぜひご参加ください。 zozotech-inc.connpass.com その他 GitHub × ZOZOTOWNコラボレーション 11月22日(金)12:00より、GitHubとZOZOTOWNのコラボレーションアイテムの受注販売が始まりました。GitHubに関するアイテムは GitHub公式のThe GitHub Shop でも購入できますが、本コラボレーションのアイテムはZOZOTOWNにて期間限定で販売されます。ぜひ 本コラボレーションの特設ページ をご覧ください。 🚨告知🚨 #GitHub × ZOZOTOWN コラボ 世界で最も広く採用されている AIが支援する開発者プラットフォーム 「GitHub」とのコラボレーションがついに...! 11/22㈮正午から発売スタート! お楽しみに👀 ▼特設ページURLはこちら https://t.co/uXzFmrtO36 pic.twitter.com/DVKS7GZMfv — ZOZOTOWN (@zozojp) 2024年11月21日 GitHub x ZOZOTOWNコラボに込めた想いを動画にしました🎥 どうぞご覧ください👇(字幕付き) pic.twitter.com/bz0DTPhbcZ — GitHub Japan (@GitHubJapan) 2024年11月26日 github.blog corp.zozo.com また、このコラボレーションにあわせて GitHub Universe Recap 東京 にてGitHub × ZOZOTOWNのコラボアイテムを展示するブースを設けました。 GitHub × ZOZOTOWN ブース イベント前日までに売り切れてしまい展示のみになったキーキャップセット 私も終日ブースに立っていましたが、まるでショップ店員になった気分でした。とても多くの方にお立ち寄りいただき、ありがとうございました! 受注期間は12月13日(金)11:59までの期間限定です。ぜひこの機会にお求めください! 現場からは以上です! ZOZOでは、一緒にサービスを作り上げてくれる方を募集中です。ご興味のある方は、以下のリンクからぜひご応募ください。 corp.zozo.com
アバター
はじめに 技術評論社様より発刊されている Software Design の2024年5月号より「レガシーシステム攻略のプロセス」と題した全8回の連載が始まりました。 ZOZOTOWNのリプレイスにあたり、検索機能に特化したマイクロサービスが構築されました。複雑に絡み合った既存機能からリプレイスすべき部分を見極め、どのように作業が進められたのでしょうか。その過程と成果を紹介します。 目次 はじめに 目次 はじめに Elasticsearchへのリプレイス 初期の検索機能 Elasticsearchへのリプレイス リプレイスの動機と技術選定 リプレイスに向けた検討事項 検索精度向上の取り組み Elasticserch導入後の課題と対処 リプレイスによる利点 検索機能の参照先をElasticsearchに一本化 課題 新インデクシングシステムの概要 データ基盤の整備 レガシーからモダンへ 検索機能に特化したマイクロサービスの構築 Web機能のリプレイス 既存システムが抱える課題 リプレイス後のアーキテクチャ リプレイス作業 1. 事前調査 2. PoC(Proof of Concept) 3. Step1:小規模なリプレイス 4. Step2:検索結果一覧機能のリプレイス リプレイスの過程で遭遇した困難 作業見積もりの難しさ 不要な機能の削除 二重開発の調整 膨大なビジネスロジック 極力リスクを取らないリリース リプレイスのバックエンド開発で得た教訓 専門チームによるリプレイスをすべき 段階的なリプレイスをすべき おわりに はじめに 本記事は連載の第7回としてZOZOTOWN検索機能のリプレイスについて紹介します。 ZOZOTOWNは2004年のサービス開始以降、IISとClassic ASP(VBScript)、SQL Serverを用いたモノリシックな構成で稼働してきました。初期の検索機能では検索エンジンとしてSQL Serverを採用していましたが、検索機能に対してより柔軟で高いパフォーマンスを求めElasticsearchへリプレイスしました。また検索機能に対する多様な要望とより高い検索精度を実現するため、モノリシックなシステムから機能を切り出し、検索に特化したマイクロサービスを構築しました。さらにWebサイト(IIS+Classic ASP)の検索機能はBFFとマイクロサービスの構成へリプレイスしました(図1)。 図1 検索機能のリプレイス年表 これらのリプレイスで解決した課題や得られた知見を順に紹介します。 Elasticsearchへのリプレイス 初期の検索機能 初期のZOZOTOWNの検索機能は、RDB(SQL Server)と全文検索エンジンであるGSA(Google Search Appliance)で構築されていました。GSAはキーワード検索に使用し、ヒットした商品IDを返却します。そのIDを基にRDBから商品情報を取得し、検索結果として表示していました。GSAの検索結果に対して再度RDBから商品情報を取得していた理由は、インデックス更新によるタイムラグを避け、在庫情報や価格情報などを最新の情報で検索結果として表示するためです。 Elasticsearchへのリプレイス リプレイスの動機と技術選定 2017年、GSAのサポート終了に伴い、RDBとElasticsearchの併用にリプレイスしました。選定の理由は次の2点です。 広範なコミュニティサポートと豊富なドキュメントを持つこと マネージドサービスを提供していること Elasticsearchは広範なコミュニティサポートがあり、問題解決や新しい機能の導入時に迅速に対応できる環境が整っています。また、ドキュメントが豊富で、導入や運用において詳細なガイドラインやベストプラクティスを参照できます。 さらに、Elasticsearchのマネージドサービス「Elastic Cloud」では、マルチAvailability Zone構成をサポートしているため、高可用性と災害復旧の対策が施されています。Elastic社から24時間365日のプラチナサポートが利用可能な点も魅力で、保守管理の負担を軽減できると考えました。 リプレイスに向けた検討事項 Elasticsearchへのリプレイスに向けた具体的な検討を開始しました。既存システムとの整合性を維持しつつ、新しい技術に適応するため、次のステップを実施しました。 Elasticsearchのスキーマ定義の設計 表記揺れ対策やシノニム(同義語)などの日本語処理 検索ログを用いたパフォーマンス試験の目標値設定とキーワードの傾向分析 リプレイス前後の検索結果比較の環境準備と実施 パフォーマンス、バックアップ、メンテナンス時間などの非機能要件、移行計画、運用保守体制の整備 検索精度向上の取り組み Elasticsearchの検索精度向上のために、Mappingの検討、Analyzerの選定、辞書登録を行いました。Mappingはドキュメント内の各フィールドのデータ構造やデータ型を定義するものです *1 。言語処理や検索の方法を細かく制御するために、フィールドごとに適切なAnalyzer(データをどう分割・処理するか)を選定しました。また検索時の表記揺れや同義語の対応のため辞書登録(シノニムやカスタム辞書)を行い精度の高い検索を目指しました。 精度を担保するためリプレイス前後の検索結果を比較し、悪化したキーワードについては、原因調査と改善を繰り返し検索精度の向上に取り組みました。 Elasticserch導入後の課題と対処 Elasticsearch導入後、2つの課題がありました。 1つ目は、バージョン更新対応に伴う作業の多さです。Elasticsearchは頻繁に新しいバージョンがリリースされます。これに対応するためには、既存の設定やプラグインの互換性を確認し、システム全体のテストが必要です。テストを実施する際には、バージョンアップ後の新しいクラスタを準備し、現行クラスタと新クラスタそれぞれのindexを同じ頻度で更新することで、同一の環境を構築し、リグレッションテストを行う方針を取りました。また、突発的な対応が難しいため、EOLから逆算してバージョンアップ計画を立て、必要な工数を見込んだうえで関係者とスケジュール調整を行っています。 2つ目は、シノニム定義とカスタム辞書のindex反映タイミングの課題です。運用中のindexにシノニム定義やカスタム辞書を反映させるためには、indexを再作成し、データを再投入する必要があります。この作業は検索精度に影響を与えるため、慎重に対応する必要がありました。search側ではシノニム定義を即時に反映できる一方、index側への反映は時間がかかるため、リアルタイムでの対応が困難でした。また、indexの再作成は運用負荷が高いため、現在は更新を控えています。その代わりに、シノニムやカスタム辞書を補うため、クエリの意図解釈を用いたしくみを導入し、対応を進めています *2 。 リプレイスによる利点 Elasticsearchへのリプレイスにより、次のような利点が得られました。 クラウドサービスを活用したインフラサポートの充実 スケーリングの柔軟性と効率化 まず、スケーリングやバックアップ、セキュリティパッチの適用などのインフラ運用に関わる重要なタスクがクラウドサービス側で自動化され、チームはアプリケーション開発に集中できるようになりました。また24時間体制のサポートが受けられ、障害時の対応を迅速に行える環境にもなりました。 加えて、Elasticsearchのクラスタは負荷状況に応じて柔軟にスケールを変更できるため、安定したパフォーマンスを維持できます。これにより、リソースの無駄を最小限に抑え、運用コストの削減にも成功しました。 検索機能の参照先をElasticsearchに一本化 2020年に、RDBとElasticsearchの併用からElasticsearchへの完全移行を進めました *3 。この移行の背景には、検索機能のパーソナライズ化を進める全社方針が確定していたことが挙げられます。 それまでZOZOTOWNでは、表示順として「人気順」を用い、データを集計して算出されたスコアを全ユーザーに対して一律に提供していました。しかし、ファッションは年代や性別に加えて、個人の趣向によっても好みが大きく異なる分野であるため、パーソナライズされた検索の実現が求められました。そこで、RDBから検索に特化したElasticsearchへ置き換えることによって、検索のパーソナライズ化を実現することとしました。 課題 既存のシステムには次の2つの課題がありました。 リードタイムの短縮 データの柔軟な受け入れ 既存のElasticsearchを用いた検索では、キーワードにマッチした商品IDのみを取得し、それをキーにRDBから最新の情報を引き当てていました。したがって、品切れや価格等のクリティカルな情報はRDB側で補完できたため、情報の更新は定期的なバッチで行っていました。一方で、RDBの併用を廃止しElasticsearchのみでの検索を実現するにあたり、RDB内マスタテーブルの更新からElasticsearchへ変更を反映するまでのリードタイムに制約が設けられました。この制約を満たすためには、既存のバッチのしくみでは対処が難しく、これに耐え得る新しいしくみが必要でした。 また、パーソナライズ化を進めるにあたり、機械学習に基づくデータやデータ分析に基づく商品特徴量など、複数チームがデータ追加の作業に関与することが想定されました。そのため、どのチームからでも任意のデータを受け入れられるようにして、柔軟に検索可能な状態を目指しました。 新インデクシングシステムの概要 データベースの変更を追跡し、Elasticsearchに反映するためにCDC(Change Data Capture)を使用しました。この機能はテーブル単位の設定が可能で、レコードの追加・変更・削除やテーブルに対するカラム追加・削除の履歴を取得できます。しかし、CDCだけでは変更されたレコードの情報しかなく、検索可能なデータにするためには別のテーブルと結合する必要があります。 当社では以前からDWH(Data Ware House)としてBigQueryを使用しており、本システムに要求される大規模データをすばやく処理するという要件に適していました。そのため、BigQuery上に構築されたデータ基盤のCDCを参照し、そこから得られた情報と、ある時点のスナップショットのテーブルを結合し、最新の情報を構築しています。定期的なデータ更新はGoogle CloudのApp Engine上でバッチ処理として行われ、Elasticsearchに反映されます。 このシステムを用いることで、商品がマスタテーブルに登録されてから、もしくは売り切れ等でステータスが変わった場合でも、平常時約10分以下のリードタイムで商品情報に反映することが可能となりました。 データ基盤の整備 BigQueryに構築されたデータ基盤にリアルタイムでDBデータを連携するしくみについて説明します。 従来のデータ基盤では1日1回の頻度でRDBからデータを抽出し、BigQueryにロードしていました。しかし、このデータをインデックス作成に使うと1日もの遅延が発生してしまうため、そのままでは使用できません。そのため、SQL ServerのChange Tracking機能を使い、変更の発生した行の差分情報のみを高速にBigQueryにロードするシステムを構築しました。なお、Change TrackingはCDCに似てはいるものの厳密にはCDCとは異なる機能ですが、説明の簡素化のためにここでは同一機能として扱います。 差分情報は最近変更のあった行の情報のみしか保持していないため、従来の日次でデータ連携しているデータとマージすることでRDBと同等の情報をBigQueryで再構成しています。当初はこの部分に有料のデータインテグレーションツールを使用していましたが、パフォーマンスが良くない・ソースコードが読めないことによりトラブルシューティングに限界があるなどの問題点があったため、OSSベースのシステムを構築し直しました *4 。OSSのデータコレクターとして有名なFluentd *5 を使いSQL ServerからCDCデータを読み出しています。 この用途で使用できるインプットプラグインは存在しなかったので、自社でインプットプラグインの開発も行いました。インプットプラグインが読み出したCDCデータはFluentdのPub/Subアウトプットプラグインに渡され、その後Pub/Sub→Dataflow→BigQueryという流れでストリーミングインサートされます。RDBでデータの変更が発生してから平均1分以内にそのデータがBigQueryで利用可能になります。 当初は検索のインデクシングのために構築したシステムでしたが、その便利さからか現在では検索以外のZOZOTOWNの機能を裏側から支えることも多くなりました。 レガシーからモダンへ 検索機能に特化したマイクロサービスの構築 RDB(SQL Server)とElasticsearchを併用していた2019年に、VBScriptで実装されていた検索機能は、ZOZOTOWNの参照系機能を提供するモノリスAPIとしてJavaへ一度リプレイスされました。その後、2020年にマイクロサービス化しながらリプレイスする全体方針に変更となり、検索機能のAPIを分離すると同時に、Elasticsearchに一本化し、検索専用のマイクロサービスを構築しました *6 。これは、2つの課題を解決することが目的でした。 1つは、複数チームで1つのコードベースのJava APIを開発しているため、リリースタイミングが調整しにくく、開発生産性が低下していたことです。もう1つは、異なる役割のAPIが同じコードベースに含まれ、トラフィック量にばらつきが生じていたことです。Java APIはSQL Serverを参照し商品やブランド・ショップなどの情報を取得しており、一方で検索機能のAPIはElasitcsearchを参照していました。 Web機能のリプレイス 連載第6回(本誌2024年10月号)で紹介しているBFF(Backends For Frontend)の実装と、Web機能に先行してZOZOTOWNホーム画面のリプレイスがリリース *7 されたことで、Web機能においてもモノリシックなシステムから脱却する道筋ができました。そのため2024年にWebの新品・古着の検索機能についても同様のアーキテクチャをベースにリプレイスを実施しました。 具体的には、Classic ASPでVBScriptを使って実装された検索機能の処理をフロントエンドとバックエンドで分割しました。フロントエンドはReact、バックエンドはNext.js+BFF+マイクロサービス+S3で再実装することで、開発サイクルを分離し、それぞれでデプロイやスケーリングできるようにしました。なお本記事ではバックエンド(マイクロサービス)のリプレイスを中心に紹介します。 既存システムが抱える課題 サービス開始から約20年の歴史を持つプログラムは、長年の機能改修と多数の開発者が関わったことで複雑になり、ほかの機能との依存関係も複雑になっていました。とくにスコープの広い変数やセッションを多用しているロジックの理解には時間がかかり、開発スピードの低下を招くことがありました。当時の設計意図や背景を知らない新しいメンバーにとっては、処理内容が不明瞭で、修正箇所の影響範囲も不透明なため、プログラムの改修や保守に苦労していました。 リプレイスにおける課題の1つは、担当メンバーの多くが既存のアーキテクチャやVBScriptに精通していなかったことです。また、リプレイス後の新しいアーキテクチャについても、経験が不足していました。さらに、ZOZOTOWNのサービスを停止せずに、膨大な検索パターンや多種多様な検索機能をリプレイスする必要がありました。 リプレイス後のアーキテクチャ リプレイス前のWebサーバには、検索条件の構築や検索結果描画用のHTML/JSONの生成をはじめ、リダイレクト処理、メタ情報の構築、関連コンテンツの取得など、さまざまな機能が実装されていました。リプレイス後のアーキテクチャでは、新規のマイクロサービスは構築せず、既存のマイクロサービスにエンドポイントを追加し、VBScriptで実装されていた処理を移行しました。また、Webサーバ上で参照していた設定ファイルについては、更新頻度を調査し、更新頻度が低いものはBFFに内包し、高いものはS3に配置するなど、適切な配置を行いました(図2)。 図2 検索機能のアーキテクチャ遷移 リプレイス作業 マイクロサービスへのリプレイスは、次の流れで実施しました。 事前調査 PoC(Proof of Concept) Step1:小規模なリプレイス Step2:検索結果一覧機能のリプレイス このリプレイスは非常に大規模であると予想されたため、リプレイスに専念できる体制と工期を確保しました。また、既存機能に改修が入ることで、既存システムとリプレイス後のシステムの両方に改修を加える必要が生じないよう、関係各所と事前に案件を調整しました。 1. 事前調査 リプレイス後のアーキテクチャの概観は見えていたため、まずはそのアーキテクチャに対してフィット&ギャップ分析を行い、既存の検索機能の要件が満たせない部分を調査しました。検索機能特有の処理を実装する必要があったため、設計意図や意思決定の経緯を記録するためにADR(Architecture Decision Record)を作成しました。 既存機能を分解するため、まずは既存機能の概要図と機能一覧を作成し、全体像を把握しました。より詳細に把握するため、プログラムを125個の処理単位に分類し、それぞれの実装内容を分析しました。これにより、リプレイス先の候補を選定し、内部の依存関係やロジックの複雑さを理解できました。また、開発メンバーと一緒に分析することで、複雑なロジックに対して理解が浅い部分を補い、プロジェクト全体の理解度を向上させることができました。 2. PoC(Proof of Concept) パフォーマンス要件に対する懸念があったため、リプレイス後のアーキテクチャに最低限の機能を実装し、負荷検証を行いました。これは、規模が大きく不確実性の高い状況で手戻りを防ぎ、プロジェクトのリスクを軽減するための有効な手段でした。また、リプレイス後の新しいアーキテクチャの開発プロセスと技術スタックを経験する貴重な機会となりました。 3. Step1:小規模なリプレイス 検索機能のビッグバンリプレイスを防ぐため、検索機能のリプレイスを2つのステップに分けて実施しました。まず、ユーザーへの影響を最小限に抑えるため、利用頻度が比較的少ない画面からリプレイスを始めました。PoCを経験していたため、このステップではスムーズに開発を進めることができました。またStep2に備え開発方針の整備とレビュー体制の見直しを行いました。 4. Step2:検索結果一覧機能のリプレイス ZOZOTOWNの検索結果一覧画面は機能が多く、リプレイスの規模が大きいため、作業を分割して進めることを検討しました。しかし、画面全体の依存関係が複雑で分割できませんでした。また従来の検索チームだけではリソース不足だったことから、中途採用や協力会社をチームに迎え入れ、開発をスタートしました。 リプレイスの過程で遭遇した困難 作業見積もりの難しさ 通常のシステム開発では、要件定義、設計、実装、テストと進めるのが一般的ですが、リプレイスでは既存システムと同等の要件を満たしつつ、リプレイス先のマイクロサービスアーキテクチャに合わせて設計する必要があります。このため、既存の要件を新しいアーキテクチャに適応させる作業が求められました。 長年にわたり進化してきたプログラムは、設計書が少なく、検索機能以外の機能とも複雑に絡み合っています。そのため、すべてを隅々まで把握するのは困難でした。とくに、検索機能が動作する過程でほかの機能も通過するため、本来リプレイスすべき部分と不要な部分を見極める必要がありました。単純な条件分岐はわかりやすいですが、共通処理として実装された機能で複数の条件が含まれる場合は、注意が必要です。 既存の処理を1つずつ詳細に調査し、リプレイスにかかる開発工数を見積もるのは時間がかかり過ぎるため現実的ではありませんでした。そこで、まずは検索結果一覧画面を6つのコンテンツに分けて作業範囲を明確にしました。コンテンツ単位でできる限り詳細に見積もり、複雑な処理や不確実な部分については課題として認識し、バッファを用意しました。それでも、実装完了までに複数回のスケジュール見直しが必要でした。 不要な機能の削除 検索機能の中には、利用されていない処理が多数存在していました。将来の利用可能性が低いレガシーな部分については、PMや関係者と相談のうえ、積極的にリプレイス作業から除外しました。 検索機能には、URL形式やカテゴリの構造変更に伴い互換性を維持するために多くのリダイレクトが実装されています。長年の運用の中で、リクエストされていないURL形式やクエリパラメータが増えていきました。こうしたケースでは、リクエスト状況を1つずつ確認し、リクエストが極端に少ないものについてはリプレイスしない判断をしました。 二重開発の調整 リプレイス作業に集中するためには、機能開発の一時停止やコードフリーズが理想です。しかし「事業を止めない」というポリシーに従い、優先度の高いビジネス要求については既存システムの改修を行い、その内容をリプレイス側に取り込むことにしました。 リプレイスの進行状況は全社に周知されていたため、検索機能のリプレイスが進行中であることを説明し、対応時期を調整できる機能開発は後回しにしました。これにより、できる限り二重開発を避けるよう努めました。 膨大なビジネスロジック まず、6つに分けたコンテンツごとにBFFと各マイクロサービスのAPI I/F(インターフェース)の設計に取り掛かりました。モノリシックなシステムを、まったく異なる設計思想を持つマイクロサービスとして再構築するには、検索機能に関する深いドメイン知識と、BFFおよび各マイクロサービスの知見が不可欠でした。とくにHTML組み立てに必要な情報が欠落するとバグに直結するため、フロントエンド開発者と密に連携し、API I/Fの各項目を丁寧に決定していきました。また、複雑な描画パターンを持つコンテンツに関しては、処理を整理し、描画パターンを設計書にまとめることで、フロントエンドとの意思疎通を図りました。 モノリシックなシステム内で複雑に絡み合ったVBScriptは、開発するうえでの高いハードルとなりましたが、これを乗り越えるために、デイリーミーティングで課題を共有・相談し、停滞を防ぎ早期解決を目指しました。 テスト工程では、テストの役割を整理し再定義しました。CIに組み込まれた単体テストに加えて、Karate注8を利用したエンドポイントテストを導入し、手動テストを自動化することでデグレを防ぎ、APIの品質を担保しました。結合テストでは、品質管理部門のQAチームと開発チームが協力して、ホワイトボックステストとブラックボックステストを本番同等のパイロット環境で実施し品質を確保しました。 極力リスクを取らないリリース 本番リリース時にはサイトの停止を行わず、ユーザーを既存システムとリプレイス後のシステムに段階的に振り分けるn%リリースを実施しました。1%、20%、50%、100%と徐々にユーザーの割合を増やす計画を立て、その過程で致命的な不具合が見つかった場合には、すぐに0%に戻す対応を取りました。また、事業への影響を最小限に抑えるため、大規模なセールなどのイベント開催時にはn%リリースを一時中断し、すべてのユーザーを既存システムに戻して安全にイベントを進めました。 リプレイスのバックエンド開発で得た教訓 専門チームによるリプレイスをすべき まずマイクロサービスアーキテクチャでは各サービスと結び付いたチームの責務範囲でシステムを構築するため、開発組織がその体制を受け入れられるかどうかはとても重要です。弊社ではマイクロサービスを意識した組織設計がされており、検索機能を専門とする検索チームが主軸になり集中してリプレイスすることで、難易度が高いリプレイスに取り組みました。 段階的なリプレイスをすべき 大規模でモノリシックなレガシーシステムを、設計思想がまったく違うマイクロサービスアーキテクチャで再実装することは、難易度が高く膨大な工数を伴います。そのためZOZOTOWNのような大規模システムのリプレイスにおいては、できる限り細かな単位でリプレイスするアプローチはとくに重要です。 残念ながら、検索機能のリプレイスにおいては段階的なアプローチが十分に取れず、リプレイス作業を2段階に分けるにとどまりました。とくに、Step2のリプレイスは大規模な作業となりました。振り返ると、段階的リプレイスの議論に十分な時間を確保できなかった点は反省点です。 おわりに 検索機能をよりモダンでスケーラブルなアーキテクチャへと進化させるために、機能全体をリプレイスしました。この取り組みにより、パフォーマンスの向上や機能拡張が容易になるなどの成果を上げることができました。リプレイス作業はまだ続きますが、筆者たちの経験が同様の課題に直面している方々の参考になれば幸いです。 本記事は、技術本部 データシステム部 検索技術ブロック ブロック長の可児 友裕と同 検索基盤ブロック ブロック長の渡 雄一郎、そして同 データ基盤ブロック ブロック長 テックリードの塩崎 健弘によって執筆されました。 本記事の初出は、 Software Design 2024年11月号 連載「レガシーシステム攻略のプロセス」の第7回「検索機能リプレイスの裏側」です。 ZOZOでは、一緒にサービスを作り上げてくれる方を募集中です。ご興味のある方は、以下のリンクからぜひご応募ください。 corp.zozo.com *1 : Elasticsearchで日本語検索を扱うためのマッピング定義 *2 : ZOZOTOWNのクエリ解釈機能の改善に向けたAPIリプレイスの取り組み *3 : ZOZOTOWNの検索基盤におけるElasticsearch移行で得た知見 *4 : ZOZOTOWNを支えるリアルタイムデータ連携基盤 *5 : https://www.fluentd.org/ *6 : ZOZOTOWN検索機能のマイクロサービス化への取り組み *7 : ZOZOTOWNのWebホーム画面をNext.jsでリプレイスして得た知見
アバター
はじめに こんにちは、SRE部プラットフォームSREブロックの石田です。普段はZOZOTOWNのSREを担当しています。 Amazon Aurora MySQL(以降、Aurora MySQL)のv2系の標準サポートが2024年10月31日に終了しました。私たちのチームではZOZOTOWNのID基盤で使用するAurora MySQLをv2系からv3系へアップグレードしました。ユーザ影響を抑えたアップグレードの実現のため、Amazon Aurora Blue/Green Deployments(以降、Blue/Green Deployment)を社内で初めて採用しました。 本記事では、Blue/Green Deploymentを採用する上で直面した課題や、検証方法について具体的な内容をご紹介します。なお、本記事の内容は2024年10月9日時点の情報に基づいています。 目次 はじめに 目次 Amazon Aurora Blue/Green Deployments とは 背景・課題 アップグレードバージョンの決定 Blue/Green Deploymentによるアップグレード検証 アップグレード手順の検証 1. 検証用のAuroraクラスター作成 注意点 2. 新バージョンのDBパラメータグループ作成 3. Blue/Green Deploymentによるアップグレードを実施 4. 再びCloudFormationの管理化 注意点 5. 切り戻し 注意点 API利用確認 検証環境のアップグレード 検証結果 本番環境のアップグレード 注意点 まとめ Amazon Aurora Blue/Green Deployments とは この機能では、稼働中の環境(Blue環境)をもとに論理レプリケーションされた環境(Green環境)を作成できます。これにより稼働中の環境には影響を与えずに、Green環境でデータベースのバージョンアップやパラメータの変更が可能です。準備が整えば、Green環境を新しい稼働環境として昇格させることで、通常1分未満のダウンタイムで安全かつスムーズに移行できます。詳細な仕様や制約、考慮事項については、AWSの 公式ドキュメント をご確認ください。 背景・課題 Aurora MySQLのマイナーアップグレードにおいてはIn-placeアップグレードを採用していました。その際のダウンタイムは1分程度でしたが、今回のメジャーアップグレードにおいて検証した結果、10分程度のダウンタイムが発生する可能性を確認しました。ZOZOTOWNの本番環境において、ID基盤の機能が10分も停止することは、ユーザに大きな影響を与えることになります。そのため、ダウンタイムを最小限に抑える手段としてBlue/Green Deploymentの採用を検討しました。 しかし、Blue/Green Deploymentは 制限事項 に記載されている通り、CloudFormationに対応していません。このため、CloudFormationで管理しているAurora MySQLのバージョン管理に課題がありました。そこで、Blue/Green Deploymentの検証を通して、CloudFormationによるバージョン管理についても確認することにしました。 アップグレードバージョンの決定 はじめに、Aurora MySQL v2系からv3系にアップグレードするバージョンを決定します。ID基盤のAurora MySQLは 5.7.mysql_aurora.2.11.5 のバージョンを使用しており、アップグレードできるバージョンを下記コマンドで確認します。 - > % aws rds describe-db-engine-versions --engine aurora-mysql --engine-version 5 . 7 .mysql_aurora. 2 . 11 . 5 --query ' DBEngineVersions[].ValidUpgradeTarget[].EngineVersion ' [ " 5.7.mysql_aurora.2.11.6 " , " 5.7.mysql_aurora.2.12.0 " , " 5.7.mysql_aurora.2.12.1 " , " 5.7.mysql_aurora.2.12.2 " , " 5.7.mysql_aurora.2.12.3 " , " 8.0.mysql_aurora.3.03.1 " , " 8.0.mysql_aurora.3.03.2 " , " 8.0.mysql_aurora.3.03.3 " , " 8.0.mysql_aurora.3.04.0 " , " 8.0.mysql_aurora.3.04.1 " , " 8.0.mysql_aurora.3.04.2 " , " 8.0.mysql_aurora.3.04.3 " , " 8.0.mysql_aurora.3.05.2 " , " 8.0.mysql_aurora.3.06.0 " , " 8.0.mysql_aurora.3.06.1 " , " 8.0.mysql_aurora.3.07.1 " ] 弊チームでは長期サポート(LTS)が提供されるバージョンの採用を方針としています。当時のLTSバージョンである 3.04.* の中から、最新の 8.0.mysql_aurora.3.04.3 を選定しました。最新のLTSバージョンについてはAWSの 公式ドキュメント をご確認ください。 なお、以前は 2.07.9 を使用していましたが、このバージョンから直接v3系へのアップグレードはできませんでした。そのため、まず 2.11.5 へマイナーバージョンアップを実施し、その後に今回のv3系へのアップグレードを行っています。このように、直接アップグレードができない場合もあるため、事前にアップグレード可能なバージョンを確認しておくことが重要です。サポート期限が迫る前に計画的に対応することで、余裕を持ったアップグレードが可能になります。 Blue/Green Deploymentによるアップグレード検証 ここからはBlue/Green Deploymentによるアップグレード検証の手順をご紹介します。 アップグレード手順の検証 まずはアップグレードの手順を検証するため、CloudFormationで検証用のAuroraクラスターを作成し、想定通りにアップグレードが行えるかを確認します。また、切り戻しが可能かどうかも併せて確認します。 1. 検証用のAuroraクラスター作成 開発環境で使用しているCloudFromationテンプレートを参考にして、Aurora MySQL v2系のクラスターを作成します。下記に作成したテンプレートを記載します。必要なパラメータがわかりやすいように関連のないParametersやResourcesの記載は省略しています。 --- AWSTemplateFormatVersion : "2010-09-09" Description : "[upgrade-test] Aurora" Parameters : GlobalPrefix : Type : String Default : upgrade-test GlobalEnvironment : Type : String Default : dev ServiceName : Type : String Default : upgrade-test RDSEngine : Type : String Default : aurora-mysql RDSEngineVersion : Type : String Default : 5.7.mysql_aurora.2.11.5 RDSParameterGroupFamily : Type : String Default : aurora-mysql5.7 Resources : DBClusterParameterGroupZozoID : Type : "AWS::RDS::DBClusterParameterGroup" Properties : Description : !Sub "cluster parameter group for ${ServiceName}" Family : !Ref RDSParameterGroupFamily Parameters : binlog_format : ROW DBParameterGroupZozoID : Type : "AWS::RDS::DBParameterGroup" Properties : Description : !Sub "parameter group for ${ServiceName}" Family : !Ref RDSParameterGroupFamily DBClusterZozoID : Type : "AWS::RDS::DBCluster" Properties : DBClusterIdentifier : !Sub ${GlobalEnvironment}-${GlobalPrefix}-${ServiceName} DatabaseName : !Ref DBDatabaseName DBClusterParameterGroupName : !Ref DBClusterParameterGroupZozoID Engine : !Ref RDSEngine EngineVersion : !Ref RDSEngineVersion DBInstanceZozoID : Type : "AWS::RDS::DBInstance" Properties : DBClusterIdentifier : !Ref DBClusterZozoID DBInstanceClass : !Ref Instance1DBClass DBParameterGroupName : !Ref DBParameterGroupZozoID Engine : !Ref RDSEngine DBInstanceZozoIDSecond : Type : "AWS::RDS::DBInstance" Properties : DBClusterIdentifier : !Ref DBClusterZozoID DBInstanceClass : !Ref Instance2DBClass DBParameterGroupName : !Ref DBParameterGroupZozoID Engine : !Ref RDSEngine 注意点 Blue/Green DeploymentではBlue環境からGreen環境にレプリケーションするため、バイナリログを使用しています。そのため、実際の稼働環境では、事前にクラスターのDBパラメータグループのバイナリログ(binlog_format)を有効にする必要がある点ご注意ください。なお、複製の不整合のリスクを減らすために ROW の設定が推奨されています。詳細はAWSの 公式ドキュメント をご確認ください。 2. 新バージョンのDBパラメータグループ作成 1で作成したテンプレートに下記を追加して、Aurora MySQL v3系に対応したDBパラメータグループを作成します。作成したDBパラメータグループは次の手順で使用します。 --- AWSTemplateFormatVersion : "2010-09-09" Description : "[upgrade-test] Aurora" Parameters : ServiceName : Type : String Default : upgrade-test RDSParameterGroupFamilyMySQL80 : Type : String Default : aurora-mysql8.0 Resources : DBClusterParameterGroupMySql80ZozoID : Type : "AWS::RDS::DBClusterParameterGroup" Properties : Description : !Sub "cluster parameter group for ${ServiceName}" Family : !Ref RDSParameterGroupFamilyMySQL80 Parameters : binlog_format : ROW DBParameterGroupMySql80ZozoID : Type : "AWS::RDS::DBParameterGroup" Properties : Description : !Sub "parameter group for ${ServiceName}" Family : !Ref RDSParameterGroupFamilyMySQL80 3. Blue/Green Deploymentによるアップグレードを実施 前述した通りBlue/Green DeploymentはCloudFormationに対応していないため手動で作成します。Blue/Green Deploymentを作成する際、Green環境は 8.0.mysql_aurora.3.04.3 のバージョンで作成します。DBパラメータグループは2で作成したものを指定します。作成方法はAWSの 公式ドキュメント をご確認ください。 Blue/Green Deploymentが作成されると 8.0.mysql_aurora.3.04.3 の新バージョンでGreen環境が作成されます。 切り替えを実行し、新バージョンに切り替わることを確認します。 4. 再びCloudFormationの管理化 アップグレード後、CloudFormationで管理しているリソースに差分が生じるため、テンプレートを修正して再適用します。ただし、本来CloudFormation管理下のリソースは、スタック外で変更することを推奨しておらず、CloudFormationとして動作を保証していない点ご留意ください。詳細はAWSの 公式ドキュメント をご確認ください。 以下に修正後のテンプレートを記載します。変更した箇所にコメントを追加しています。 --- AWSTemplateFormatVersion : "2010-09-09" Description : "[upgrade-test] Aurora" Parameters : GlobalPrefix : Type : String Default : upgrade-test GlobalEnvironment : Type : String Default : dev ServiceName : Type : String Default : upgrade-test RDSEngine : Type : String Default : aurora-mysql RDSEngineVersion : Type : String Default : 8.0.mysql_aurora.3.04.3 # 新バージョンに変更 RDSParameterGroupFamilyMySQL80 : Type : String Default : aurora-mysql8.0 Resources : DBClusterParameterGroupMySql80ZozoID : Type : "AWS::RDS::DBClusterParameterGroup" Properties : Description : !Sub "cluster parameter group for ${ServiceName}" Family : !Ref RDSParameterGroupFamilyMySQL80 Parameters : binlog_format : ROW DBParameterGroupMySql80ZozoID : Type : "AWS::RDS::DBParameterGroup" Properties : Description : !Sub "parameter group for ${ServiceName}" Family : !Ref RDSParameterGroupFamilyMySQL80 DBClusterZozoID : Type : "AWS::RDS::DBCluster" Properties : DBClusterIdentifier : !Sub ${GlobalEnvironment}-${GlobalPrefix}-${ServiceName} DatabaseName : !Ref DBDatabaseName DBClusterParameterGroupName : !Ref DBClusterParameterGroupMySql80ZozoID # 新しいDBパラメータグループに変更 Engine : !Ref RDSEngine EngineVersion : !Ref RDSEngineVersion DBInstanceZozoID : Type : "AWS::RDS::DBInstance" Properties : DBClusterIdentifier : !Ref DBClusterZozoID DBInstanceClass : !Ref Instance1DBClass DBParameterGroupName : !Ref DBParameterGroupMySql80ZozoID # 新しいDBパラメータグループに変更 Engine : !Ref RDSEngine DBInstanceZozoIDSecond : Type : "AWS::RDS::DBInstance" Properties : DBClusterIdentifier : !Ref DBClusterZozoID DBInstanceClass : !Ref Instance2DBClass DBParameterGroupName : !Ref DBParameterGroupMySql80ZozoID # 新しいDBパラメータグループに変更 Engine : !Ref RDSEngine 変更セットを作成し、CloudFormationのコンソールよりプロパティレベルの変更の詳細を確認すると以下のような差分が確認できます。 クラスターのプロパティレベルの変更の詳細 インスタンスのプロパティレベルの変更の詳細 CloudFormation上は差分がある状態ですが、このテンプレートを適用することで問題なくCloudFormation管理下に戻すことができました。 なお、テンプレート適用後、ライターインスタンスのイベントログに Finished updating DB parameter group というメッセージが表示されていました。DBパラメータグループの更新が完了したというメッセージになりますが、このメッセージが出力されたからといって、DBパラメータグループの設定内容が実際に更新されたわけではありませんでした。 AWSサポートに問い合わせたところ、ログが検出された原因の特定はできませんでしたが、現在使用されているDBパラメータグループに再度変更するようなAPI呼び出しは実行可能とのことでした。また、変更前に違うDBパラメータグループが適用されていたことやパラメータが実際に変更されたことを直ちに示すものではないとのことです。ただし、テンプレート適用前後で、DBパラメータグループの設定内容に変更がないか確認しておくと安心です。 注意点 テンプレート適用前にインスタンスのDBパラメータグループのステータスを確認してください。ステータスが pending-reboot の場合はテンプレート適用時に再起動する可能性があります。ステータスが 同期中 であれば再起動が発生することはありません。 5. 切り戻し Blue/Green Deploymentには自動的な切り戻し機能はありません。Blue/Green Deployment作成時にはBlue環境からGreen環境にレプリケーションされますが、切り替えたタイミングでレプリケーションは切断されます。そのため、切り戻しは手動でエンドポイントを操作し、新バージョンのクラスターエンドポイントを別の名前に変更後、旧バージョンのクラスターエンドポイントを元に戻す流れで行います。イメージ図のクラスタ名およびインスタンス名はわかりやすくするために簡略化しています。 Blue/Green Deploymentの削除 まず、Blue/Green Deploymentを削除します。これにより、新バージョンと旧バージョンのクラスターの紐付きが解消されます。 新バージョンのクラスター名を変更 新バージョンのクラスター名を別の名前に変更します。ここでは末尾に -new をつけます。これによりエンドポイントが変更されるため、リクエストが全断します。 新バージョンのインスタンス名を変更 新バージョンのクラスター名の変更が完了したら、新バージョンのインスタンス名も別の名前に変更します。ここでは末尾に -new をつけます。 旧バージョンのインスタンス名を変更 次に、旧バージョンのインスタンス名を正規の名前に変更します。 旧バージョンのクラスター名を変更 最後に、旧バージョンのクラスター名を正規の名前に変更します。この変更が完了するとエンドポイントが元に戻ります。そして、旧バージョンのクラスターに対してリクエストが届くようになります。 こちらの手順で実施し、15分ほどで問題なく切り戻すことができました。 注意点 本番環境での実施時には、アップグレード中に問題が発生した場合、データに不整合が生じているかどうかの懸念があります。例えば、部分的なINSERT処理が失敗するなどの不具合が考えられます。そのため、切り戻し後にはデータの整合性を確認し、補正が必要となる場合があります。 API利用確認 開発環境のアップグレードを実施し、新バージョンのAurora MySQLにてID基盤で使用しているAPIが問題なく動作することを確認します。アップグレードは前述の通りの手順で実施します。結果としてアップグレードは問題なく完了し、ID基盤で使用しているAPIも正常に動作しました。 検証環境のアップグレード 検証環境のアップグレードは、商用相当のリクエスト負荷をかけて実施し、エラー発生状況やダウンタイムを確認します。商用相当のリクエストをかける理由は、 切り替えのベストプラクティス で記載されている通り、切り替え時のダウンタイムはリクエスト量に依存するためです。また、負荷をかけるツールは弊チームで開発したOSSツールであるGatling Operatorを使用しています。詳細は以前TECH BLOGに公開された下記記事をご参照ください。 techblog.zozo.com アップグレードは前述の通りの手順で実施します。結果としては想定通りのエラーが発生し、ダウンタイムとしては1分程度でした。なお、ダウンタイムの計測には、Datadog APMのトレース機能を利用しています。アプリケーションエラーを示す trace.http.request.errors メトリクスを可視化することでエラーが発生していた時間を計測しています。以下はDatadog Dashboard上で可視化したグラフです。これより、エラーの発生時間が1分程度であったことを確認できます。 検証結果 ここまでの検証を通して、以下の点を確認できました。 Blue/Green Deploymentを利用して、Aurora MySQL v2系からv3系へのアップグレードが可能であること v3系からv2系への切り戻しが可能であること アップグレード後、再びCloudFormationによる管理が可能であること v3系において、ID基盤としてのアプリケーションが問題なく動作すること ダウンタイムは1分程度であり、許容範囲内であること 本番環境のアップグレード 本番環境でのアップグレードは、ユーザへの影響を最小限に抑えるため、早朝の時間帯に実施します。アップグレードは前述の通りの手順で実施します。結果として、検証時の予測通りにエラーが発生し、ダウンタイムも約50秒と想定内に収まりました。これにより、問題なくアップグレードを完了できました。 注意点 Blue/Green Deploymentは新しいクラスターに切り替わるため、バイナリログを使用したデータの連携をしている場合は注意が必要です。実際に、ID基盤のデータベースではGCPのDatastreamを介してBigQueryにデータを連携していますが、この点を見落としていました。 公式ドキュメント の コンシューマーの親ノードの更新 の項目では、バイナリログコンシューマーがある場合はレプリケーションの継続性を維持するため、切り替え後に親ノードを更新する必要があると記載されています。今回のケースでは、バイナリログコンシューマーがDatastreamにあたります。 切り替え後のライターインスタンスでは、以下のようなバイナリログファイル名( mysql-bin-changelog.000008 )と位置( 536 )を含む情報がイベントログに出力されます。この情報を使用してDatastreamを更新することでデータ連携を再開できます。 この点を見落としていたため、切り替え後にデータ連携が停止し、復旧対応としてbackfill(全量転送)を実施せざるを得ませんでした。こうした事態を防ぐためにも、事前にバイナリログを利用するコンシューマーの存在を確認し、切り替え後に必要となる対応を計画的に準備しておくことが重要です。 まとめ 本記事では、Blue/Green Deploymentによるアップグレードの検証方法や移行に際して直面したコード管理の課題に対する対応について、具体的な取り組みを紹介しました。 入念なアップグレード検証により、ユーザへの影響を最小限に抑えつつ、確実なアップグレードを実現できました。また、CloudFormationで管理しているAmazon Aurora MySQLのバージョン管理においても、スタック外での変更は推奨されないものの、問題なく継続できることを確認できました。 さらに、この取り組みで得られた知見やノウハウは、社内の別マイクロサービスにおけるAuroraのメジャーアップグレードにも活用され、スムーズな移行を支援する結果につながりました。Blue/Green Deploymentによるアップグレードを検討されている方にとって、この記事が参考になれば幸いです。 ZOZOでは、一緒にサービスを作り上げてくれる方を募集中です。ご興味のある方は、以下のリンクからぜひご応募ください。 hrmos.co corp.zozo.com
アバター
はじめに こんにちは、FAANS部バックエンドブロックでFAANSのバックエンドシステムの開発と運用をしている 田島 です。 2021年11月にZOZOTOWNとアパレルのブランド実店舗をつなぐOMOプラットフォーム「ZOZOMO」が始動しました。FAANSは、ZOZOMOで展開するサービスの1つで、ブランド実店舗で働くショップスタッフ専用の販売サポートツールです。FAANSは2022年8月の正式版リリース以来、これまで様々な機能をリリースしてきました。以下はその一部です。 投稿機能 : ショップスタッフが自身で自社のアイテムを着て撮ったコーディネート画像やコーディネート動画といったコンテンツを複数チャネルに同時投稿できる機能。投稿先チャネルとしては、ZOZOTOWNやWEAR、Yahoo!ショッピングといった弊社並びに弊社のグループ会社のWebサイトに加え、ブランド企業の自社ECサイトへの同時投稿も可能。 成果確認機能 : 投稿機能で投稿したコンテンツがどのくらい閲覧されたのか、それをきっかけにEC上の売上にどのくらい貢献できたか、といった様々な切り口の『成果』をアプリ上で確認できる機能。 顧客直送機能 : ブランド実店舗で欠品している商品の在庫が弊社の物流拠点「ZOZOBASE」にある場合、お客様は店頭で決済し、ZOZOBASEからお客様の自宅へ商品を直送できる機能。 ブランド実店舗の在庫取り置き機能 : ZOZOTOWN上で実店舗の在庫取り置きを希望したお客様への対応を、ショップスタッフがFAANS上の簡単操作で完結できる機能。 FAANSではリリースから1年も経っていない段階でSLO(サービス品質目標)を導入し、ここまで試行錯誤を重ねて運用してきました。本記事ではFAANSにおけるSLO運用の実践とそこから得られた知見について紹介します。 目次 はじめに 目次 1 SLO導入の背景 2 FAANSのシステムとそれを支える開発組織 2.1 システムの特徴 2.2 開発組織の体制 3 最初のゴール設定 3.1 バックエンドシステムのみを対象としたSLOを運用に乗せる 3.2 SLOアラートは導入せず、SLOの達成状況の定期的な確認に留める 4 最初のSLI/SLOの選定 4.1 選定方針 4.1.1 対象システムはWeb APIサーバーのみとする 4.1.2 重要機能の単位とシステムコンポーネントの単位の2軸でSLOを定める 4.1.3 レイテンシーと可用性の2つのSLIを選定する 4.1.4 クラウドインフラのSLA未満の水準のSLOを定める 4.1.5 依存している社内の別プロダクトのサービス品質やSLOは一旦考慮しない 4.2 ステークホルダーとの合意 5 「SLO定例」による信頼性チェック 5.1 直近のリリース内容の確認 5.2 直近のアプリケーションエラーやシステム障害の確認 5.3 SLOの達成状況の確認 5.4 データベースのシステムメトリクスの確認 6 SLO運用開始後の工夫と取り組み 6.1 SLI/SLOの設定変更の記録をADR形式で残す「SLO-DR」 6.2 チームで行う継続的学習「SLO Study」 6.3 フルサイクルエンジニアリングチームへの体制移行 6.4 開発組織への定期報告 7 SLOを導入して得られた効果 7.1 明確な判断基準による会議の充実化 7.2 信頼性維持のためのアクション促進 7.3 他チームへの改善依頼の円滑化 7.4 技術的な意思決定の改善 8 SLOの導入は早ければ早いほどよい 8.1 SLO文化を浸透させるハードルが低い 8.2 SLOはソフトウェア設計の意思決定を支援する 8.3 信頼性は事業にとって最初から重要な指標である おわりに 1 SLO導入の背景 スタートアップ事業として立ち上がったFAANSはサービスローンチに向けた立ち上げフェーズを経て、現在は成長フェーズに移行しています。私達はさらなる顧客価値の提供のために、新機能のリリースや既存機能を強化するためのスピーディーな開発を日々行っています。一方で、FAANSではサービス企画段階から「当たり前品質の追求」を掲げてきました。ブランド実店舗で働くショップスタッフは、忙しい実店舗業務の傍らでFAANSを通じてコーディネート画像を投稿したり、FAANSを使ってお客様を接客したりします。そのため、アパレルブランド企業やそのショップスタッフがFAANSを利用する業務において、不満やストレスを感じることのないよう、サービス品質を維持することは極めて重要です。とはいえ限られたエンジニアリングリソースの中で、機能開発によるさらなる価値提供の取り組みとユーザーが不満を抱かないサービス品質維持の取り組みを両立することは、工夫なしでは実現できません。その両立を図るためにSLOを導入するに至りました。 2 FAANSのシステムとそれを支える開発組織 具体的なSLOの導入について話をする前に、まずはその前提知識となるFAANSのシステムの特徴とFAANSの開発組織の体制を概説します。 2.1 システムの特徴 FAANSのシステムは以下のような特徴を有しています。 FAANSのユーザーが利用するクライアントアプリとしてWeb/iOS/Androidに対応しています。 バックエンドシステムのインフラリソースは全てパブリッククラウド環境に存在します。そのほとんどがGoogle Cloudで構築されており、メール配信処理などで一部AWS(Amazon Web Services)を使用しています。 Web APIサーバーは役割の異なる複数種類のシステムコンポーネントが存在します。それらは全てGKE(Google Kubernetes Engine) *1 の1つのKubernetesクラスタ上でPodとしてサービングされています。以下はその一部です。 FAANSのiOS/Android/Webアプリからのリクエストを直接捌く クライアントアプリ用API 。 他のWeb APIサーバーから非同期でオフロードされたジョブを実行する 非同期ジョブ用API 。 アパレルブランド企業の自社ECサイトのシステムから直接アクセスされる 外部システム連携用API 。 ワークフローエンジンとしてKubernetesネイティブなArgo Workflows *2 を採用しており、Web APIサーバーが稼働するGKEクラスタに相乗りしています。スケジュールやイベント駆動で実行されるバッチ処理は基本的には全てArgo Workflowsのワークフローとして稼働しています。 ユーザーのマスタデータなどが管理されているオンライントランザクション向けのデータベースとしてGoogle CloudのCloud SQL(PostgreSQL) *3 を使用しています。このデータベースはWeb APIサーバーやバッチ処理からアクセスされています。 WEARやFulfillment by ZOZOといった弊社の別プロダクトのWeb APIにアクセスするWeb APIやバッチ処理も多く、社内の別チーム管轄の別プロダクトに依存したプロダクトです。 2.2 開発組織の体制 続いて、FAANSの開発組織についてです。以下はFAANSのプロダクト開発・運用に関わるメンバーが所属するブランドソリューション開発本部の組織図です。 ※引用元スライド: https://speakerdeck.com/zozodevelopers/company-deck 弊社ではチームをブロックという単位で編成しています。この中でFAANSのプロダクト開発と運用に中心的に関わるブロックを簡単に説明します。まず、プロダクト戦略部FAANSプロダクトマネジメントブロックにはFAANSのPO(プロダクトオーナー)やPM(プロジェクトマネージャー)といったロールのメンバーが所属しています。FAANSの開発と運用に携わるエンジニアはFAANS部に所属しています。フロントエンドブロックはFAANSのWeb/iOS/Android用のクライアントアプリの開発を、バックエンドブロックがFAANSのバックエンドシステム全体の開発と運用をそれぞれ担当しています。なお、以前はWEARバックエンド部のSREブロックがFAANSとWEARの2つのプロダクトのSRE業務を兼務していました。しかし、現在ではFAANS部バックエンドブロックにその責務は委譲されています。この体制移行の意思決定については後述の「6.3 フルサイクルエンジニアリングチームへの体制移行」で説明します。また、この図には記載していませんが、別の本部に所属するBizDev職メンバーやQA(品質保証)エンジニアもFAANSのプロダクトの開発や運用に深く関わっています。 3 最初のゴール設定 SLOのコアとなるプロセスは極端に単純化すれば以下に集約されます。 ユーザーの満足度に強く関連しているであろう代表指標= SLI(サービス品質指標) を選定し、ユーザーの信頼性を測定可能なものとする。 選定したSLIに対してユーザーが満足しているか、していないかに対応する目標値= SLO を定める。 SLOを満たしていない、つまり エラーバジェット が尽きた場合はSLOを満たすようにする改善を開発タスクより優先して実施する。 一方で、SLOは組織的な取り組みであるため、実用的な運用に乗せるためには戦略的な導入計画を考える必要があります。SLOを導入するにあたって、私達は慎重に「最初のゴール」を設定しました。 3.1 バックエンドシステムのみを対象としたSLOを運用に乗せる 理想的には、SLOはシステム全体、すなわちバックエンドシステムに限らず、クライアントアプリを含めたエンドツーエンドでの監視と運用をすることが望ましいです。ユーザーはクライアントアプリを介してバックエンドシステムを利用するので、バックエンドシステムのサービス品質がいくら高くても、クライアントアプリのサービス品質が悪ければユーザーハピネスに繋がりません。しかし、私達は導入段階で小さく始めることを選び、敢えてバックエンドシステムのみを対象にすることとしました。クライアントアプリは、今後の拡張フェーズでSLOの対象に加える予定です。このように小さなステップから始める理由は、SLOの運用が初期段階では試行錯誤の連続であり、最初からシステム全体に適用すると運用が複雑になりすぎる可能性があるためです。初期段階では対象範囲を絞ることで、SLOの設定や運用フローを確立し、チーム全体がその運用に慣れることを優先しました。この段階での成功体験をもとに、次のステップとして対象範囲を拡大していく方が、最終的な全体最適を図るためにも有効だと判断しました。 3.2 SLOアラートは導入せず、SLOの達成状況の定期的な確認に留める もう1つの重要な決定として、SLOアラートの導入を見送りました。SLOアラートは本来、サービスの品質が低下した際に迅速に対応するための仕組みですが、初期段階でこれを運用に組み込むと、試行錯誤が多い中でアラートが頻発し、かえってノイズとなる恐れがあります。これを防ぐため、まずはアラートを設けずに定期的なSLOの達成状況のチェックに留め、運用に慣れるまで柔軟に改善を重ねる体制を取りました。具体的には、SLOの達成状況を関係者で確認し、現状の目標の達成状況や運用課題を共有する形で進めています。その詳細は「5 『SLO定例』による信頼性チェック」で説明します。 このように、 最初のゴールをあえて小さく設定し、段階的に運用を確立していくことで、無理なく改善を重ねることが可能となる と考えました。 4 最初のSLI/SLOの選定 SLOは、SREのコアとなるプラクティスです。最初のSLI/SLOの設定を考える上で、まずはGoogleのSREチームによって執筆された2冊の書籍の該当章に目を通し、理解を深めました。それが 「SRE サイトリライアビリティエンジニアリング ―Googleの信頼性を支えるエンジニアリングチーム」 と、その副読本である 「サイトリライアビリティワークブック ―SREの実践方法」 です。これらの書籍では、SLI/SLOの概念から実際の運用方法までが体系的に解説されています。なお、私達がSLOを導入したタイミングでは和訳本がまだ存在していなかった 「SLO サービスレベル目標 ―SLI、SLO、エラーバジェット導入の実践ガイド」 という書籍が昨年発刊されました。SLOにまつわるトピックで1冊書かれた貴重な書籍です。これからSLOの導入を検討する方々には、参考文献としてぜひおすすめしたいです。また、これらに加えて各社のSLO導入事例を取り上げたWeb上の記事にも目を通し、他の企業がどのようにSLOを運用しているか、どのような課題に直面したかを学びました。これにより、理論だけでなく現実世界でのSLO導入に伴う具体的な実践方法や成功要因についても理解を深めることができました。 4.1 選定方針 書籍や記事で得たSLOに関する知識をベースにFAANSのシステムの特性を踏まえて考え、FAANSの最初のSLI/SLOを選定する上での方針を以下のように整理しました。 4.1.1 対象システムはWeb APIサーバーのみとする 最初のSLOを選定するにあたって、まずは小さく始めることを意識し、バックエンドシステムの中でもWeb APIサーバーのみを対象とする方針を立てました。この選定には、Web APIサーバーがFAANSにおけるサービスの中核を成しているという理由があります。FAANSのユーザーは、日常的にFAANSのクライアントアプリを通じてサービスを利用します。そして、ユーザーが行うアクションは、すべてWeb APIを介して処理されています。Web APIはユーザー体験の根幹を担っており、可用性やパフォーマンスが低下すれば、即座にユーザー体験へ悪影響を及ぼします。ユーザーであるアパレルブランド企業とそのショップスタッフにとって、Web APIサーバーはFAANSを利用する上で最も重要なシステムコンポーネントです。これを効果的に監視・管理することがSLO運用の初期段階で不可欠だと判断しました。なお、定時実行されるバッチ処理といったその他のシステムコンポーネントの信頼性の追跡に関してはSLO運用の拡大フェーズで検討することとしました。 4.1.2 重要機能の単位とシステムコンポーネントの単位の2軸でSLOを定める SLOを効果的に運用するためには、 システムの属性をうまくカバーできる必要最小限の選択をする ことが重要です。私達は、そのためのアプローチとして、 重要機能の単位 と システムコンポーネントの単位 の2軸でSLI/SLOを定めることにしました。 まず、重要機能の単位のSLO設定において、ユーザー体験の中で最も重要な操作やシナリオを把握するために、簡易的なCUJ(クリティカルユーザージャーニー)を実施しました。CUJとは、ユーザーがサービスを利用する際の主要なステップやアクションを追跡し、業務やサービスの成功に直結するポイントを特定するプロセスです。このプロセスを通じて、どの機能がユーザーにとって欠かせないのか、またその機能に関係するAPIの中で重要なものはどれなのか精査しました。例えば、ECサイトであれば「商品検索」「カートへの追加」「購入手続き」の各ステップがCUJの重要なポイントとなり、それに対応するAPIが重視されるでしょう。このCUJの結果をもとに、具体的な測定対象APIを選定しました。これにより、ユーザー体験の中で本質的な価値を持つ操作に焦点を当てることができ、SLOがユーザーにとって最大限の価値を提供できるような形となると考えています。 次に、システムコンポーネントの単位のSLO設定です。前述の通り、対象システムはWeb APIのみとするため、システムコンポーネントとしてはWeb APIサーバーの種別の単位となります。具体的には、前述のクライアントアプリ用Web APIサーバーや外部システム連携用Web APIサーバーなどです。そして、Web APIサーバーには複数のAPIが実装されていますが、それら全てのAPIを対象としたリクエスト処理に対する総合的な品質に対してSLOを定めることを指します。ただし、ヘルスチェックエンドポイントのようにユーザー体験に直接的な影響を与えないAPIは、サービス品質の測定結果に不要なノイズを生じさせる可能性があるため対象外としています。 このように、重要機能の単位とシステムコンポーネントの単位という2軸でSLOを定めた理由は、 業務の優先度と技術的な健全性の両面をカバーする ためです。システム全体の可用性やパフォーマンスを考慮しつつ、ビジネスにとって重要なユーザージャーニーの品質を確保することが、このアプローチの根幹にあります。SLOは、その設定が業務やサービスに与えるインパクトによって初めて価値を持ちます。もし、設定されたSLOがビジネスの優先度を反映しておらず、業務に影響を与えない指標にばかり焦点を当てていた場合、そのSLOは十分な価値を提供できないでしょう。この点を踏まえ、システムの技術的要素とビジネスの主要な機能の両方をカバーできるバランスを保つことが実用的で効率的なSLO運用のためには重要だと考えました。 4.1.3 レイテンシーと可用性の2つのSLIを選定する 私達は、Web APIサーバーというシステムのユーザーの信頼性を測る指標として レイテンシー と 可用性 の2つにフォーカスすることとしました。 まず、Web APIのレイテンシー、つまり応答時間は、ユーザー体験に直結します。APIのレスポンスがわずかに遅れるだけでも、特にリアルタイム性が求められるアプリケーションでは、ユーザーはフラストレーションを感じ、場合によってはサービスを離脱してしまいます。例えば、モバイルアプリやWebサービスでの検索やデータの読み込みが数秒以上かかると、ユーザーは「遅い」と感じ、その印象がサービス全体の評価に影響を与えることになります。ただし、前述の非同期ジョブ用APIは、そもそも処理に時間がかかることを前提として非同期で行われるためレイテンシーがそれほど重要ではないことから、今回はSLIの対象から除外しました。なお、レイテンシーのSLOは例えば『30日間のローリングウィンドウで99パーセンタイル値のレイテンシーが500ミリ秒以下』といった形で具体的に定義されます。 続いて、可用性(Availability)は、サービスがユーザーに常にアクセス可能な状態であることを示す指標です。可用性が低下するとユーザーはサービスにアクセスできなくなり、エラーやダウンタイムが発生すれば顧客に対する信頼性が著しく損なわれます。現代の多くのサービスは、24時間365日の稼働が当然とされています。Web APIサーバーは、他のシステムやクライアントアプリとの連携を担う中心的な役割を果たしているため、その可用性が低下すれば単にAPI自体の問題に留まらず、サービス全体へ広範な影響が及びます。なお、私達の場合は、Web APIサーバーや各APIの可用性を 成功したリクエスト数/全体のリクエスト数 というイベントベースの稼働率として算出しています。また、可用性のSLOは例えば『30日間のローリングウィンドウで99.5%以上の稼働率』といった形で具体的に定義されます。 私達がSLO運用の初期段階でレイテンシーと可用性にフォーカスしたのは、これらの指標がユーザー体験とサービスの信頼性に最も大きく影響を与えるからです。複雑な指標を多数導入するよりも、まずはWeb APIのようなリクエスト処理システムのSLIにおける2つの基本指標に絞り、運用フローをシンプルかつ効果的にスタートさせることが重要だと考えました。これにより、チーム全体がSLIの監視と改善サイクルに慣れ、徐々に運用の精度を上げていく狙いです。 4.1.4 クラウドインフラのSLA未満の水準のSLOを定める FAANSのバックエンドシステムは前述の通りGoogle CloudやAWSといったパブリッククラウド上に構築されています。そのため、そのシステムのサービス品質はパブリッククラウドのサービス品質に依存することとなります。例えば、FAANSのWeb APIのシステムはDNS、ロードバランサー、サーバーインスタンスやデータベースインスタンスなどのインフラコンポーネントで構成されています。Web APIへのHTTPリクエストがエラーを返すことなく正常に処理されるためには、これらのインフラコンポーネントが正常に稼働している必要があります。パブリッククラウドが提供するプロダクトの中には SLA(サービス品質保証) が定められているものも多いです。これら個々のインフラコンポーネントの役割を担うプロダクトの可用性SLAを調べたところ、最も低い水準だったものはGKE AutopilotのPodの『99.9%以上の稼働率』というSLA *4 でした。よって、FAANSのWeb APIサーバーの可用性SLOを定義する上で、『99.9%以上の稼働率』というインフラのSLA未満の水準で定義する必要があると考えました。 その理由を具体例を用いて説明します。例えば、Web APIのシステムを構成するクラウドインフラの可用性SLAが『99.9%以上の稼働率』だったとします。しかし、実際にしばらく計測してみると安定して『99.99%以上の稼働率』でした。そこで、Web APIの可用性SLOを「30日間のローリングウィンドウで『99.95%以上の稼働率』」と定義しSLOを運用し始めたとします。すると、しばらくの間はSLOを満たした状態が続いていたのですが、ある時Web APIの可用性SLOが未達状態に陥ってしまいました。調べてみると原因はクラウドインフラの可用性の低下であることが判明し、低い時では『99.90%の稼働率』にまで下がっていました。SLOの目標値である『99.95%以上の稼働率』を下回る品質が一定期間続きエラーバジェットを使い切ったので、SLOを満たす状態に戻す改善を早急に実施する必要があります。ところが、この時原因はクラウドインフラの可用性が低下したことなので提供元のクラウドベンダーに相談しても、可用性が改善されるとは限りませんし一般的には期待できません。なぜならば、『99.90%の稼働率』にまで下がっていたとしても『99.9%以上の稼働率』というSLAを満たせているからです。クラウドベンダーは顧客との間で合意済みのサービス品質で依然として提供できているため、顧客のための改善のアクションを取る必要性は基本的にはないのです。 この例からも分かる通り、クラウドインフラのSLAを超える水準のSLOを定めて運用することは現実的とはいえません。ただし、ここで重要なことは、 あくまで現状のインフラ構成のままの場合の制約である ことです。SLOはユーザーの満足度に基づいて決めることが重要です。もし、クラウドインフラのSLAがあるべきSLOの基準を超えていなかった場合、インフラ構成そのものを変えるという選択肢も検討すべきでしょう。SLAの水準が高くなるようにインフラ構成を変えることで、ユーザーの満足度に基づいたSLOがインフラリソースのSLAの水準を超えないように調整できる可能性があるからです。 4.1.5 依存している社内の別プロダクトのサービス品質やSLOは一旦考慮しない 前述の通り、FAANSのバックエンドシステムはWEARなどの社内の別プロダクトのシステムに依存しています。そのため、FAANSのサービス品質は依存先の別プロダクトのサービス品質の影響を受けます。例えば、FAANSのあるWeb APIエンドポイントはAPIの内部処理で社内の別プロダクトのWeb APIに同期的に1回アクセスしているとします。この場合、このFAANSのAPIのレイテンシーの品質は社内の別プロダクトのAPIのレイテンシーの品質を上回ることはありません。そして、別プロダクトのAPIのレイテンシーの品質が悪化すれば、それに引きずられる形でFAANSのAPIのレイテンシーも悪化します。このような依存関係が存在しますが、私達は 依存先プロダクトのサービス品質やSLOを一旦は考慮せず、ユーザー満足度に基づいたSLOを定めて運用し始めてみる こととしました。そのように判断した理由を説明します。ユーザーが満足するか、しないかの基準でFAANSのあるAPIのレイテンシーSLOを考えたときに、例えば『99パーセンタイル値で500ミリ秒以内』という目標値が妥当だという結論に至ったとします。一方で、このAPIの内部処理で同期的に1回アクセスするWEARのAPIのレイテンシー品質が『99パーセンタイル値で700ミリ秒』という実測でした。つまり、依存するWEARのサービス品質の実測に対してこのSLOは無理があるということになります。とはいえ、必ずしもこのSLOを達成まで持っていけないとは限りません。私達が管理していない別プロダクトであっても、同じ会社のその別プロダクトの開発チームに品質改善の相談や依頼をするというアクションはとれます。そして、その際にSLOは他チームに品質改善の必要性を理解をしてもらう上で説得力のある論拠となり得ます。まずは、そのようなアクションをとってみることが重要だと考えました。FAANSのSLOを踏まえて別プロダクトのサービス品質の改善やSLOの見直しを行うといった結果につながるかもしれません。もちろん、このやり方で全てが滞りなく解決されるとは限らず、難しい場面もあるかもしれませんが、その場合はチーム間で協議して現実的な落とし所を探っていけばよいと考えました。ただし、この時 私達が定めたSLOは絶対的に正しい閾値ではない 点には注意する必要があるでしょう。SLOは初期フェーズで適切な閾値を設定することは難しく、運用の中で適切な閾値となるようにイテレーティブに改善していくものです。また、いくら閾値を改善しても、絶対的に正しい閾値には到達し得ないものでもあります。私達はこのような前提を理解した上で、FAANSのSLOを絶対的な論拠とはせず、他チームと協調的に話を進めるべきだと考えています。 4.2 ステークホルダーとの合意 前述の選定方針を踏まえて選定した最初のSLI/SLOを実際に設定して運用を開始するには、関係者との合意が必要です。まず、関係者全員にSLOとは何か、そのメリットや基本的な考え方を丁寧に説明することから始めました。特に非エンジニア向けにSLOの理解を深めてもらうために、山口能迪さんによる 「SLOをもっとカジュアルに活用しよう」 という記事を事前に読んでもらうことを意識しました。この記事は、SLOの要点を非エンジニアにもわかりやすく簡潔に説明しており、初めてSLOに触れる人にとって理解しやすく、導入への前向きな姿勢を促す素晴らしい内容のため重宝させていただいています。なお、関係者ごとにどのような点で合意を取るべきかを明確にすることも重要です。POやPMとは、SLIの選定とSLOの目標値が適切であるかを丁寧にすり合わせ、その基準を下回った場合にエンジニアリングリソースを優先的に修正や改善に投入する必要があることを理解してもらいました。SLOがビジネス価値やユーザー体験に直結することを納得してもらい、リソース配分の重要性を認識してもらうことが大事です。また、エンジニアリングチームとは、エラーバジェットが尽きた際にサービスの安定性回復を優先し、機能開発を一時停止することに合意します。これにより、システムの信頼性がビジネスやユーザー体験にどれほど重要かを共有し、リソース投入のタイミングについて共通認識を持つことができます。 5 「SLO定例」による信頼性チェック 「3 最初のゴール設定」にも設定したように、私達はSLOの運用開始に伴い、SLOの達成状況や運用上の課題を定期的に確認し、必要な改善アクションを迅速に実行するための体制を整える必要があります。そこで、バックエンドシステムの開発・運用に関わるバックエンドブロックとSREブロックの2チームによる SLO定例 という定例会議を立ち上げました。SLO定例は、 FAANSに必要な信頼性を維持すること を目的としており、SLO運用に関連する認識合わせや議論だけでなく、信頼性維持に寄与するその他の情報共有や意思決定も行う場です。ただし、後述の「6.3 フルサイクルエンジニアリングチームへの体制移行」により、SREブロックはFAANSの業務から離れたため、現在はバックエンドブロックのみでこの定例会議を行っています。そのような経緯や試行錯誤を経た最新の会議形式を説明します。 会議の流れは以下のようになっています。 前回のNext Actionの対応状況の確認 直近のリリース内容の確認 直近のアプリケーションエラーやシステム障害の確認 SLOの達成状況の確認 データベースのシステムメトリクスの確認 Next Actionの整理 続いて、これらを個別に説明します。 5.1 直近のリリース内容の確認 GitHubで管理されている前回のSLO定例以降にリリースされたプルリクエスト一覧をチームで確認し、信頼性に影響を与える可能性があるリリースを特定します。信頼性に関わるリリースとは、信頼性向上を目的とした修正だけでなく、大規模な新機能のリリースなど、システム全体のパフォーマンスや可用性に影響を及ぼす可能性のある変更も含まれます。この確認を最初に行うことで、リリースがシステムに与えた影響を理解しやすくなり、後続のログやメトリクスの分析がより効果的なものとなります。 5.2 直近のアプリケーションエラーやシステム障害の確認 私達は、アプリケーションエラーを監視するツールとしてSentryを利用しており、この場では前回のSLO定例から現在までに発生したアプリケーションエラーの一覧をSentryで確認します。エラーが発生すると即座に通知され、迅速にエラー内容の把握と必要なアクションをとる体制を築いています。そのため、この会議の場では原因の深掘りや解決策の策定は行わず、どのエラーがどれだけの頻度で発生したかとそれぞれの対応状況を俯瞰的に確認し、全員で状況を共有するのみに留めています。また、稀に発生する中規模以上のシステム障害に関しては、その発生時期や進行中の再発防止策の状況も確認します。これにより、全員が現状をしっかりと把握し、迅速な対応や適切な判断ができる体制を整えています。さらに、この確認をSLOの達成状況の確認前に行うことで、SLOの改善や悪化時の要因分析がしやすくなります。 5.3 SLOの達成状況の確認 私達は、システム監視ツールとしてDatadogを利用しており、各種システムメトリクスがDatadogで確認できるようになっています。そのため、SLOの達成状況はDatadogのダッシュボードを活用してリアルタイムに監視できるようにしました。このダッシュボードには、例えばAPIごとのエラーレートやレイテンシーが一目で確認できるウィジェットなども配置されており、SLOに変化が生じた際にはその原因を特定しやすい設計となっています。なお、このダッシュボードは 「WEARにおけるSLOを用いた信頼性改善の取り組み」 で紹介されているDatadogのダッシュボードを参考に作っています。エラーバジェットの枯渇状況を確認し、原因を特定して適切な対応策を議論することで、SLOのプロセスが回るようになっています。 5.4 データベースのシステムメトリクスの確認 私達が利用しているCloud SQL(PostgreSQL)の監視として、アラート監視と定期的なメトリクス監視の二重体制を構築しています。まず、アラート監視に関して、データベースのログやメトリクスを対象とした適切なアラート設定を入れて、問題を迅速に検知して対応できるようにすることはデータベースの監視において重要です。また、それとは別で、状況の変化を時系列のメトリクスで管理しキャパシティプランニングや障害の予兆の把握に役立てることを目的とした、定期的なメトリクスの確認も重要です。このようなメトリクス監視もこの会議で行っています。なお、このメトリクス監視で見るべきメトリクスの一覧もダッシュボード化して、容易に確認できるようにしています。 6 SLO運用開始後の工夫と取り組み SLOの運用開始後、運用の過程でさまざまな工夫や取り組みを行ってきました。本章ではその一部をご紹介します。 6.1 SLI/SLOの設定変更の記録をADR形式で残す「SLO-DR」 SLI/SLOは最初に定義した設定を一切変えずに恒久的に使い続けるわけではなく、その設定自体もイテレーティブに見直すものです。例えば、既に運用しているSLOの設定をより適切な閾値となるように調整したり、運用していく中で見出したより適切なSLIに差し替えたり、新機能のリリースに伴い新たなSLI/SLOを盛り込むことがあります。FAANSではSLI/SLOの設定を変更する際にADRの形式で設定変更の意思決定の内容とそのコンテキストをドキュメントに残す規約とし、そのドキュメントを私達は SLO-DR と名付けました。 ADR *5 とは、Architecture Decision Recordの略で、ソフトウェアアーキテクチャに関する意思決定とそのコンテキストを残すドキュメント手法の一種です。FAANSの開発チームでは以前からADRによるドキュメント文化が浸透しており、ADRの形式は慣れ親しんだものでした。また、ADRは個々の意思決定を独立したドキュメントとして作成しますが、一般的には一度作成したドキュメントを廃止することはあっても、内容を更新することはない追記型のスタイルです。この追記型のスタイルはSLOの設定に関する意思決定がどのような変遷を辿ったかというコンテキストが追いやすく、今回の要件に適していました。 例えば、新規で構築したAという名前のWeb APIサーバーがあり、Aの可用性SLOの設定に関して、ある期間に時系列順で以下のタイトルで3つのSLO-DRのドキュメントが作成されたとします。 2024/08/01 新規構築したAのWeb APIサーバー全体の可用性SLOを30日間のローリングウィンドウで『99.9%以上』の稼働率として定義した 2024/10/01 Aの全体の可用性SLOを30日間のローリングウィンドウで『99.9%以上』→『99.5%以上』の稼働率に変更した 2024/12/01 Aの全体の可用性SLOを30日間のローリングウィンドウで『99.5%以上』→『99.8%以上』の稼働率に変更した 最初と最新の状態だけを比べれば『99.9%以上』から『99.8%以上』に目標値を下げたという変化としてまとめられますが、実際にはその過程で一度『99.5%以上』という設定を経由しています。一度『99.5以上』に下げてその後『99.8%以上』に上げたという個々の意思決定とそのコンテキスト、そしてそれらの時系列の変遷という情報には将来の意思決定の際に有用な情報が隠れていることがあります。この例では比較的単純な意思決定の流れを示していますが、実際のより複雑なケースでは、個々の意思決定とそのコンテキストがさらに重要な要素となります。SLO-DRでは、そのような情報が喪失せず、かつ追いやすい形式になっています。一方で、SLI/SLOの設定は頻繁に見直されることがあるわけではないことから、追記型がゆえのドキュメント数の増大に伴う認知負荷に関しては長期的な視点に立っても懸念がないと判断しました。また、最新のSLI/SLO設定の全体像は前述のダッシュボードでも容易に把握できます。私達は、SLI/SLO設定や運用開始日、エラーバジェットポリシーなどの決定内容と、そのコンテキストであるCUJや関係者との協議と合意の記録をまとめたドキュメントとして作成し一覧化して管理しています。 6.2 チームで行う継続的学習「SLO Study」 私達のチームでは、SLOに関する知識を共有し、運用の知見を深めるために SLO Study と名付けた継続的な学習の場を設けています。FAANSにはSLOの運用経験があるメンバーは少なく、SLOに対する関心や知識レベルにもばらつきがあります。そこで、全員がSLOに関する共通の知識を身に付け、チーム全体でSLOの効果的な運用を考えられる体制を築くことを目指して、この取り組みを開始しました。具体的には、事前にSLO Study用のドキュメントに記載の表にSLOに関するWeb上の記事のURLとそこから得た学びや議論したいことを記入しておきます。そして、SLO定例の最後の余った時間を使って記入者がその内容を発表し、定例の参加者で議論します。 SLO運用のあるべき姿は、事業やシステム、さらには組織の特性によって異なるため、一般化された知識だけではすべての現場に適用するのは難しいと感じています。よって、各々の開発組織が自分たちに合ったSLOのあり方を見つけ出すために、独自の試行錯誤を積み重ねていく必要があるでしょう。Google社がSLOのプラクティスを提唱して以来、多くの企業やサービスでSLOの取り組みが行われ、試行錯誤を経てきました。それぞれの現場で得られた実践的な知見を取り入れることは、私達にとって最適な運用方法を見つける上で非常に参考になります。SLO Studyの場では、SLO関連の資料や実際の運用事例をキャッチアップし、学んだことを「FAANSに活かせるか」「FAANSの場合どう適用するか」という視点で議論しています。このような負担の小さく無理のない継続的学習の取り組みを通じて、SLOに対する共通理解を深め、チーム全体での一体感を持ってSLO運用の改善を進めることが目標です。特に、書籍に記載されている一般的な知識だけでなく、各社の具体的な事例を学ぶことで、私達の現場に合った最適なSLOのあり方を模索していきたいと考えています。 6.3 フルサイクルエンジニアリングチームへの体制移行 SLOの運用を進める中で、SREブロックにアサインされていたFAANSの信頼性維持に関するタスクが思うように進まないという課題が浮上しました。この課題に対し、チームトポロジーの考え方を用いることで、状況を客観的に整理できました。 チームトポロジーとは、書籍 「チームトポロジー 価値あるソフトウェアをすばやく届ける適応型組織設計」 で紹介されている、組織のチーム設計において適応型のフレームワークを提供するモデルです。特にチームが担う認知負荷を最適化することを重視しています。この認知負荷が過剰になると、チームのパフォーマンスが低下し、システムの安定性に影響を及ぼすことが指摘されています。 FAANSとWEARは、それぞれ異なるビジネスドメインに属しており、どちらも複雑な要件を持っています。FAANSは新しいサービスながらも急速に成長しており、独自のビジネスニーズと技術的な要件が求められます。一方、WEARは長い歴史を持つ大規模なシステムであり、その運用には深い知識が必要です。これら2つの異なるビジネスドメインに対応することは、SREブロックに大きな認知負荷を強いる要因となっており、これは構造的な課題でもありました。さらに、FAANSとWEARは歴史的な経緯で両者の技術スタックの統一性が低いという事情もあります。そのため、SREブロックは異なる技術基盤の両システムに対応する必要があり、さらに認知負荷が増大していました。現に、SREブロックからは「WEARに手一杯で、FAANSに十分なアテンションを張れない」という声が上がっていました。このアテンションという言葉は、チームが持つ認知負荷に関連する概念で、適切な注意力を割けないことが認知的な過負荷の表れです。このような状況から明らかなのは、問題の本質が単なるリソース不足ではなく、過剰な認知負荷にあるということです。たとえSREブロックの人員を増やしても、認知負荷が軽減されない限り、この問題は解決しません。そこで、私達は チーム間の責任境界の見直し を行い、バックエンドブロックの責任範囲を広げてSREブロックの負担を軽減することによって、両者のフロー効率を改善する道を選びました。 歴史の浅いFAANSのバックエンドシステムは、WEARに比べて小規模なシステムで運用負荷が低いため、バックエンドブロックがSREブロックの責務を引き継いでも認知負荷的に無理はありません。さらに、バックエンドブロックはこれまでもインフラ構成や監視設定の変更、インフラ起因の問題解決に積極的に取り組んできた経験があります。また、バックエンドブロックにはSREブロックが担当していた運用業務の知識やスキルを持つメンバーが複数名いることもあり、体制移行は円滑に進行しました。この結果、現在ではSREブロックがFAANSの運用から離れ、バックエンドシステムの開発と運用はバックエンドブロックで自己完結する体制に移行しました。 バックエンドブロックにとっては責務が拡大したことでやるべき業務が増える一方で、大きなメリットもあります。運用を含む開発ライフサイクル全体を一貫して管理できるフルサイクルエンジニアリングチーム *6 として機能し始め、分業体制でのコミュニケーションコストやサイロ化の問題が解消されます。その結果として、開発ライクサイクル全体へのフィードバックループがより効率的に回りやすくなるのです。ただし、開発ライフサイクルの中でQAに関しては、高い専門性を有したQAエンジニアが複数名おり開発ライフサイクルのボトルネックにはなっていないため、引き続き外部化されたままの体制を維持しています。 6.4 開発組織への定期報告 SLOは、開発組織の全体に共有されるべき重要な指標です。バックエンドシステムを中心にSLO運用を開始していますが、SLOの設定や達成状況、そして取り組んでいる改善アクションは、プロダクト開発・運用に携わる全ての関係者によって把握されている状態が理想です。そこで、私達はFAANSのプロダクト開発のための情報共有や相談の場である週次の定例会議で、SLO運用に関する報告をするようにしました。この場でSLOの状況を定期的に共有することで、機能拡充や新機能開発に偏りがちな意識を、信頼性という側面にも広げ、バランスの取れた価値提供を意識し続けることができると考えています。これは、私達が目指す組織全体へのSLO文化の浸透における重要なステップの1つだと捉えています。特に、信頼性維持に関するタスクを行う際に、そのタスクが今なぜ必要で、どのように全体の価値提供に寄与するのかを組織全体で理解することが重要だと考えています。SLOの定期報告を通じて、信頼性維持の取り組みが単なる技術的メンテナンスにとどまらず、ユーザーやビジネスにとって直結した価値提供の一環であることが明確になります。結果として、組織全体で信頼性に対する意識が強化され、持続的な改善活動につながっていくと考えています。 限られた時間の中で効率的にSLOの情報を共有するため、報告のフォーマットにも工夫を凝らしました。この定例会議は、プロダクト開発に関わる全てのメンバーが集まる唯一の場です。エンジニアだけでなくプロジェクトマネージャーやデザイナー、ビジネスサイドのメンバーも参加しています。そのため、技術的な背景を持たないメンバーにも理解できるシンプルかつ視覚的に分かりやすい形式が求められます。SLOの詳細な分析やアクションの議論は、専用のSLO定例で行うため、定例会議では現状のSLOの達成状況と必要なアクションを簡潔に示すことに集中しています。各SLOの達成状況は 『達成』(=エラーバジェットに余裕がある状態) または 『未達』(=エラーバジェットが枯渇している状態) として色分けし、一目で判断できるようにしました。また、前回の報告からの変化は赤色の文字で記載し、未達状態のSLOに関するアクションプランも簡潔に記載することで、状況の変化や必要な対応を迅速に把握できるようにしています。 具体的には以下の項目を含めるようにしました。 測定日 : 各SLOの測定時点を明記する。測定日はSLO定例の開催日に対応。 SLOの設定内容とその達成状況 : SLOの設定内容と各SLOの『達成』または『未達』という達成状況を色分けして記載。 前回測定時との比較 : 前回測定時の達成状況も併記することで改善や悪化といった変化が読み取れるようにする。 品質改善アクション :『未達』状態のSLOに関しては、『達成』に持っていくためのアクションプランを記載する。 補足情報 : システムコンポーネントやSLO関連の用語の解説を添えることで、背景を理解しやすいようにする。 一方で、具体的なSLIの数値や過去の傾向分析といった細かなデータは報告には敢えて含めていません。それらは前述のSLOダッシュボードで確認でき、SLO定例で議論されるため、開発定例では最小限の情報に絞り込み、報告のスムーズな進行を心掛けています。 具体的には以下のようなフォーマットの資料で報告しています。 7 SLOを導入して得られた効果 SLOの導入によって、私達の開発・運用プロセスにおける意思決定が大きく改善されました。 7.1 明確な判断基準による会議の充実化 SLO導入以前も、バックエンドシステムの運用に関わるエンジニアが集う定例会議の中で、APIのレイテンシーやエラーレートなどのメトリクスを確認してはいました。しかし、それらがどの程度問題であるのか、具体的にどのようなアクションが必要なのか判断することが難しく、会議の進行が散漫になることがありました。メトリクスは収集できていても、問題の有無やアクションの必要性が不明確だったため、何となく会議を終えてしまうケースも少なくありませんでした。 SLO導入後は、その定例会議が前述のSLO定例として生まれ変わりました。各サービスにおいて設定されたSLOに基づいて判断できるようになり、会議でのディスカッションがより具体的かつ建設的なものとなりました。これにより、サービス品質に関する合意形成がスムーズに進み、どのタイミングでアクションを取るべきかが明確になりました。結果として、会議が締まりのあるものに変わり、効果的な意思決定を行う場としての役割を果たせるようになっています。 7.2 信頼性維持のためのアクション促進 SLOを満たせておらずエラーバジェットが尽きた場合には、即座に対策を講じるための具体的な行動に移る習慣が根付いてきました。もちろん、全ての問題が一度に解決されるわけではありませんが、少なくともSLOを基準に優先順位をつけ、後回しにされがちなサービス品質の課題に対しても確実に対応が取られるようになりました。これにより、従来は見過ごされていたような品質問題に対しても、早期に改善のためのアクションが取られるようになり、ユーザー体験の向上につながっています。例えば、APIのエラーレートがSLOを下回ることがあれば、その原因を特定し、必要な修正や最適化を実施する体制が整っています。以前であれば、「重大な問題でなければ後回し」という姿勢が取られていた場面でも、SLOに照らし合わせることで緊急性が明確となり、速やかに改善に取り組むことが可能になりました。 7.3 他チームへの改善依頼の円滑化 SLOの導入により、私達が依存している社内の他プロダクトの開発チームに対して、品質改善を依頼する際の根拠も強化されました。以前は、依存先の他プロダクトのAPIのレイテンシーがなんとなく遅いとは感じつつもどこまで改善すべきかも不明確で、他チームに働きかける具体的なアクションへ繋がりにくい状態でした。しかし、SLOによってその判断基準が明確になったことで、そのようなアクションに繋がりやすくなりました。また、「SLOを満たしていない」という明確な基準を提示できるため、依頼内容が具体的かつ論拠のあるものになり、依頼先にとっても協力してもらいやすいものとなりました。この結果、プロダクト間での協力体制も強化され、全体のサービス品質向上に寄与しています。 7.4 技術的な意思決定の改善 SLOの導入により、技術的な意思決定の際に信頼性への意識が高まりました。システムアーキテクチャの設計やパフォーマンス最適化には、トレードオフを踏まえた判断が求められます。SLOという信頼性基準が明確に定義されたことで、どの程度の信頼性が必要かという具体的な指標が提供され、意思決定の根拠がより明確になりました。例えば、レイテンシーに関するSLOが設定されていることで、負荷テスト実施の際にも目標とすべき性能値の意思決定がスムーズになり、試験結果に基づく判断がより合理的に行えるようになりました。また、SLOが信頼性の指標として組み込まれたことで、アーキテクチャ設計の際にも信頼性を意識した選択がより自然に行われるようになりました。 8 SLOの導入は早ければ早いほどよい SLOを運用していく中で感じたこととして、本記事のタイトルにもなっている SLOの導入は早ければ早いほどよい ということがあります。もちろん、早ければ何でもよいわけではなく、導入のスピードを重視するあまり重要な要素を見落としては本末転倒です。しかし、早いタイミングでSLOを導入することには多くの利点があると感じました。 8.1 SLO文化を浸透させるハードルが低い SLOを効果的に運用するためには、開発組織にその文化を浸透させることが不可欠です。一般的に、組織が大きくなるほど新しい文化を浸透させるのは難しくなります。開発組織が拡大するにつれて、SLO文化の浸透には労力と時間が必要となるでしょう。FAANSは、まだ成長段階にあり、開発組織も比較的小さいです。その点において、SLOの概念を関係者に伝える際の障壁が低く、皆で同じ目標に向かいやすい環境でした。これは信頼性への意識向上とSLOに基づいた意思決定が迅速かつ効果的に行えるようになった一因だと考えています。 8.2 SLOはソフトウェア設計の意思決定を支援する 前述の「7.4 技術的な意思決定の改善」からも明らかなように、サービス品質の基準とはソフトウェア開発の非機能要件の一部であり、ソフトウェア設計において重要な役割を果たします。SLOが早期に設定されていることで、開発プロセスの初期段階から信頼性の基準を考慮した意思決定が促進されます。後から信頼性を確保するよりも、最初からその基準を意識した設計をする方が遥かに効率的です。また、設計や実装のトレードオフを明確に理解し、最適なバランスを追求できるようになります。そして、システム全体の安定性が向上し、開発チームはより自信を持ってプロダクトの成長に貢献できるようになると考えています。 8.3 信頼性は事業にとって最初から重要な指標である そもそもユーザーの信頼性とは事業にとって初期段階から重要な指標です。サービスがローンチされ、ユーザーが実際に利用し始めた瞬間から、信頼性は欠かせない要素となります。ユーザー体験の質を維持するためには、信頼性を継続的に追跡し、改善し続けることが不可欠です。これを怠り、後回しにすることは、事業にとって大きなリスクとなります。 おわりに 本記事では、FAANSにおけるSLOの導入事例と、それによって得られた効果や運用の中での工夫と気付きを紹介しました。SLOの導入は、サービス品質を継続的に改善し、信頼性を維持するための重要なステップでした。導入初期の段階では、SLOに基づくフィードバックループを確立し、運用を通じて改善を重ねることで、一定の成果を達成できたと感じています。 今後の目標は、現在のSLO運用をさらに洗練させ、より効果的なフィードバックループを回し続けることです。その一例として、バーンレートアラートを導入し、エラーバジェットの消費速度をリアルタイムで把握し問題を早期に検知・対応する体制を整備することを検討しています。このような取り組みを通じて、信頼性に対する迅速なアクションをさらに強化し、SLOの達成をより確実にすることを目指します。また、このフェーズで得られた成功体験を基にSLOを定めるシステムの範囲を拡大し、組織全体でSLO文化を深く醸成していきたいと考えています。 本記事が読者の皆さんのSLO導入のきっかけや、導入手順と運用方法の参考となれば幸いです。また、FAANSでは、機能開発と信頼性維持の両方にコミットし、フルサイクルな開発プロセスを実現できるエンジニアを募集しています。私達と共に、信頼性を高めながらプロダクトの価値を最大化していく挑戦をしませんか。 corp.zozo.com *1 : 関連記事 FAANSにおけるCloud RunからGKE Autopilotへのリプレイス事例 *2 : 関連記事 Kubernetesネイティブなワークフローエンジンとは!FAANSでArgo Workflowsを導入した話 *3 : 関連記事 Cloud FirestoreからPostgreSQLへ移行したお話 *4 : なお、このSLAは私達のSLO導入時点におけるものですが、本記事の執筆時点においてもそのSLAに変わりはありません。 Google Cloudの公式ドキュメント *5 : 関連記事 ZOZOFITにおけるADRを利用した意思決定を残す文化作り *6 : 関連記事 Full Cycle Developers at Netflix — Operate What You Build
アバター
はじめに こんにちは、SRE部カート決済SREブロックの伊藤( @_itito_ )です。普段はZOZOTOWNのカート決済機能のリプレイス・運用・保守に携わっています。また、DB領域でのテックリードを担っており、データベース(以下DB)周りの運用・保守・構築に関わっています。 現在、ZOZOには DBを専門で扱う部署はありません 。一部メンバーでDatabase Reliability Engineeringのワーキンググループ(以下DBRE-WG)を構成して、DBの信頼性を高めるための活動をしています。 本記事ではZOZOにおけるDBRE-WGの概要と発生していた課題と、いかにして開発メンバーを招き、その結果どのような効果があったかの事例をご紹介します。 はじめに ZOZOにおけるDBRE活動について SRE部で行っているワーキンググループについて DBRE-WGで行っていること DB関連での問い合わせ・レビュー対応 各種案件におけるDB周りのサポート イベント時の監視対応 DB周りでの自動化やパフォーマンス可視化 技術共有会の実施 DBRE活動を進める上で発生した課題 カート決済SREとしてDBと関わることとの違い 課題解決に向けた取り組み 開発チームへの提案 DBAとDBREについて 開発チームとの話し合い メンバー参加後の活動 DBRE-WGに参加してもらった結果 問題となっていたDBのパフォーマンス改善 参加メンバーの自主的な動きによる効果 振り返ってみると 展望 DBのパフォーマンス改善 体制について 最後に ZOZOにおけるDBRE活動について SRE部で行っているワーキンググループについて 現在私が所属しているEC基盤開発本部SRE部は複数のブロック(チーム)で構成されています。このSRE部内の、ブロックを跨いだ活動を促進するための横断組織として複数のWGが存在しており、この中の1つとしてDBRE-WGが存在します。 SRE部内のワーキンググループ構成例 DBRE-WGで行っていること DBRE-WGは「各プロダクトのデータベース健全性を維持向上させる」ことを目的として、以下のような取り組みを実施しています。 DB関連での問い合わせ・レビュー対応 DBの設計や運用に関する質問や、パフォーマンス悪化や予期せぬエラーの発生といった緊急性の高い問い合わせなど、様々な問い合わせに対応しています。作成予定のテーブルの設計が問題ないか、ZOZO内でのDBの開発ガイドラインに沿っているかなどのレビューも行っています。 各種案件におけるDB周りのサポート DB設計が重要な役割を担う場合や、保守期限が迫っていてDB更改をする必要がある場合など状況に応じてDBREが参画します。参考までに、過去にDBREメンバーが主導してリプレイスを実施した記事は以下のとおりです。 techblog.zozo.com イベント時の監視対応 ZOZOTOWNでは1年を通じて様々なセールイベントを開催しており、大きな負荷が想定されるイベントではリアルタイムで監視しています。特に最大級のアクセスが発生する新春セールには最も力を入れており、当日も監視しますが、それに備えた負荷試験においてのDB負荷状況の確認も行っています。 techblog.zozo.com DB周りでの自動化やパフォーマンス可視化 手動運用していた作業の自動化やパフォーマンスの可視化なども進めています。可視化については具体的には以下の記事で紹介しています。 techblog.zozo.com 技術共有会の実施 不定期ではありますが、全社的な技術力向上を目的としてDBに関わる技術共有会を開催しています。 DBRE活動を進める上で発生した課題 上記の活動を進める上でいくつかの課題が生じてきました。その状況を図示したのが次の画像です。 DBRE活動における課題 特に、特定のDBにおいて、パフォーマンスの悪化やトラブル・問い合わせが増加傾向にあり、改善したい課題でした。 クエリタイムアウト起因のエラー数が増加傾向 しかし専任というわけではないので大きく時間を割くことが難しく、問題の原因となるクエリを見つけたとしても、そのサービスに詳しくないため改善のための手順が増えてしまい、改善を進めづらい状況でした。 カート決済SREとしてDBと関わることとの違い 冒頭でも述べた通り、私はカート決済SREとしても活動しています。いわゆるEmbedded SREのような立場であり、開発側を担当しているカート決済部と連携を取りながらDBの運用・保守をしています。 カート決済SREとして活動しているときは前述のような課題を感じず、振り返ってみると立ち位置の違いが大きいように感じました。 カート決済SRE兼DBREとしての立ち位置 問題が起きているDBに対しても、同じような立場で動ける人を増やすことで効率良く改善が進むと考え、そのためのアクションを取ることにしました。 課題解決に向けた取り組み 開発チームへの提案 上記から、パフォーマンス問題が発生しているDBに関わる 開発チームのメンバーから数人、DBRE-WGの活動に参加してもらえないか 提案することを決めました。 SRE側から増やすことも考えましたが、SQLを自在に書ける人材が少なく、1から学習する必要があるため、あまり現実的ではないと判断しました。(組織変更などもあり、2024年11月現在は問題となったDBに大きく関わるDBREメンバーも存在) また、開発側から参画してもらうことで初期学習コストが低い以外にも、下記のようなメリットが考えられました。 開発側の方がサービスの実装に詳しく、直近の問題にも対応できること 開発側でノウハウが蓄積されれば根本から解決できる可能性があること DBREと開発側との連携不足の解消 DBRE-WGの活動へと参加してもらう理由については、双方の連携を向上させるとともに、実際に発生している問題を題材にペアプロすることでスキルの伝達を速やかにできると考えたためです。 DBAとDBREについて 開発側に打診するにあたって、DBAの役割を担える人材を増やしたいという目的を話しています。ここでDBAとDBREの違いについて明確に整理するために、ChatGPTからの回答を引用します。 DBA(Database Administrator) ・役割: データベースの管理、設定、保守を行う。 ・主な業務: データベースのインストール、バックアップ、リカバリ、パフォーマンスのチューニング、セキュリティの管理など。 ・目的: データベースが正常に機能し続けることを保証する。 DBRE(Database Reliability Engineering) ・役割: データベースの信頼性、可用性、スケーラビリティを向上させることに焦点を当てる。 ・主な業務: システム全体のアーキテクチャを考慮し、障害時の復旧手法の設計や、自動化を推進することなど。 ・目的: 高可用性のシステムを実現し、ビジネスニーズに応じたパフォーマンスを維持する。 今回大きく問題となっていたのはパフォーマンス面であり、SRE的な部分までお願いする予定はないため、DBREではなくDBAを増やすことを目的としています。また、元々DBRE-WGはSRE部の中の1つの活動であり、「DBREに参加 ≒ SRE側への引き抜き」のような誤った形で捉えられないようにする意味でもこの辺りを明示しています。 開発チームとの話し合い 実際の話し合いには以下のような内容をまとめた資料を用いてプレゼンを実施しました。 DBRE-WGとは 現状のDBREにおける課題感 開発側メンバーを誘いたい理由 DBのパフォーマンス状況 悪化傾向にあり、エラー数も増加傾向にあることを示すグラフの提示 期待する人物像 懸念点 メンバーjoin時の双方の工数が具体的にどのくらい増えるか DBRE業務をどこまでお願いできるか 結果として、DBに関して同じ課題感を抱えていると認識し合い、ぜひ協力したいという意見をいただきました。 メンバー参加後の活動 上記を経て2名の開発メンバーに参加してもらうことになりました。 参加に伴って問い合わせやテーブル設計のレビューなどをペアプロ形式で行うとともに、DBのパフォーマンス改善に向けた定例会を設けました。 定例会では、以下の例のように最近のDBの状況を確認し、ボトルネックを特定したうえで、それに対する改善策を検討・実施しました。 エラー状況確認からのアクション例 DBRE-WGに参加してもらった結果 問題となっていたDBのパフォーマンス改善 改善活動を行ったことでクエリタイムアウト起因のエラー数が減少し、それに伴うレスポンスタイムの改善を確認できました。 クエリタイムアウト数の減少とレスポンスタイムの改善 参加メンバーの自主的な動きによる効果 上記以外にも、参加してもらったメンバーによる効果が以下のようにありました。 エラー発生時の初動対応の迅速化 背景:エラーが多数発生するとSlack通知が行われ、原因を調査するためのスレッドが立ち上がる 以前まで:調査が行われ、DBが関係していそうならばDBREに問い合わせが行われる メンバー参加後:参加メンバーがエラー発生時から積極的に見てくれるため、早期段階でDBの関係有無の周知とDB側調査が開始される 既存のアプリ改修による運用改善 背景:処理が失敗してしまうとDB全体の動きに影響を与えてしまうバッチアプリが存在する 以前まで:成否が重要なものの、既存アプリだとわかりづらく、運用でのカバーとなっていた メンバー参加後:アプリ自体の改修を実施し、万が一失敗した場合には、重要なアラートが通知されるSlackチャンネルに通知が届くようになった 振り返ってみると 書籍、 データベースリライアビリティエンジニアリング において、DBREの基本原則として以下の記述があります。 1.1.2 周囲を巻き込め 才能あるDBREは、サイトリライアビリティエンジニア(SRE)よりもはるかに希少な存在です。DBREを雇えたとしても、せいぜい1人か2人が関の山でしょう。これはつまり、多くのことを自分たちで、つまり限りあるリソースを最大限に活用して、自給自足で成し遂げる必要があるということです。 意図していたわけではありませんでしたが、開発チームも一緒になって改善を進めるというアプローチで、上記を実現できており、相乗効果を生んでいるように感じています。 展望 DBのパフォーマンス改善 前述のように改善効果があったものの、まだまだ改善すべき点は多くあります。そのため、引き続き改善に向けた活動を継続していきます。 体制について 理想としては次の画像のような体制が望ましいと考えています。 各サービスと近い位置にDBAを担える人がいる体制 サービスの実装に精通したDBAがいることで、問題が発生しても迅速に対応できるほか、有識者によるDB設計やクエリのレビューが行われることで、サービスの品質向上が期待できると考えています。 また、弊社はマイクロサービス化を進めており、それぞれのチームでクラウド管理しているDBの数も増えています。各チームのノウハウや、Aurora MySQLのアップグレードのような定期的な作業なども、個別に調査するのではなく、情報を共有し横展開することで全体の効率化が進むと考えています。 このような体制を目指し、これからもDBの信頼性を高めるための活動を続けていきます。 最後に ZOZOでは、一緒にサービスを作り上げてくれる仲間を募集中です。ご興味のある方は、以下のリンクからぜひご応募ください! corp.zozo.com
アバター
はじめに 2024年10月15日に『 ZOZOMETRY 』という計測技術を活用したサービスを正式ローンチしました。今回はZOZOMETRYのサービス概要、計測技術および計測精度について紹介します。 ZOZOMETRYとは ZOZOMETRYとは、事業者の採寸業務を効率化し、採寸が必要な服の売上拡大やコスト削減に貢献する法人向けのサービスです。以前、ZOZOTOWNで提供していた個人向けのサービスでは、ZOZOSUITを着用しての計測が必須でしたが、ZOZOMETRYではZOZOSUITあり、ZOZOSUITなしの異なる計測方法が提供されています。 biz.zozometry.com 計測技術について ZOZO New Zealandのノースと新事業推進本部の西澤です。ZOZOMETRYの計測技術を説明するにあたり、まずはZOZOSUITのローンチ以来、ZOZOの計測サービスがどのように進化してきたかを解説します。 計測サービスの進化 ZOZOSUITは当初、ZOZOプライベートブランドのサイズ推奨用技術として2018年にローンチしました。2020年にはデザインとアルゴリズムをアップグレードしたZOZOSUIT2(現在はZOZOSUITと名称変更)として、パートナー企業募集を実施しました。ZOZOSUITに続き、2019年にはネットでシューズ購入時のサイズ課題を解消させるZOZOMATをローンチしました。その後、ZOZOSUITで使用されている計測技術と、ZOZOMATで足形状の特定に使われるシルエットフィッティング技術の延長として開発されたのが、「ZOZOSUITなし計測」と呼ばれる最新の計測技術となっています。 ZOZOSUITを使った計測は幅広い分野で役立つことが証明され、医療、アパレル、フィットネス、ゲームなど、様々な業界におけるZOZOSUITの応用に関して、多くのクライアントと関わってきました。 また、外部の研究機関との取り組みにより、 脊柱側弯症の検出 や リンパ浮腫の評価 など、今までになかったZOZOSUIT関連プロジェクトの出発点となりました。そのような様々な業界との取り組みの中で、多くの事業者が単に顧客の体をスキャンするだけにとどまらない多様なニーズを持っていることが明らかになりました。 この課題に対して、ZOZOMETRYというBtoBプラットフォームを通じて、事業者が独自の測定ポイントを定義できるようにしました。これにより、業界ごとの専門知識に支えられながら、ビジネスニーズに合わせてカスタマイズできる測定技術を体験することが可能となります。 ZOZOMETRYの計測技術の概要 ZOZOMETRYでは、用途に合わせて「ZOZOSUIT着用あり」または「ZOZOSUIT着用なし」の2つの測定モードを専用アプリで選択できます。 ZOZOSUITは12種類のサイズ展開があり、約2万個の特徴的なフィデューシャルマーカーを使用して体型の3Dモデルを生成します。特殊なアルゴリズムによって高精度な身体測定が可能です。 ZOZOSUITを用いた計測は高精度であるものの、計測方法の手間とZOZOSUIT自体の配送までの待ち時間が課題点となっていました。そのため、ハンズフリーの計測技術である「ZOZOSUITSなし計測」を開発しました。2年間に及んだ開発期間中には、最大450件のZOZOSUITデータと、近年蓄積されたZOZOSUITなし計測のプロトタイプからの追加データ200件の分析が行われました。 ZOZOSUITなし計測を実現させる上で特徴的な問題となったのは、身体上のフィデューシャルマーカーを検出できるZOZOSUITとは異なり、身体を特定するための基準点がなかったことでした。解決策となったのは、ZOZOMATのシルエットフィッティング技術の応用でした。ZOZOSUITの計測技術を活用しながら、ZOZOSUITがない状態を補正します。 様々な背景や肌の色調を考慮できるシルエット検出機能を取り入れることで、ZOZOSUITなしの場合も体型の3Dモデルを構築することが可能となりました。もちろん、計測を成功させるには、iPhoneの前面カメラにアクセスできることと、(正確な測定を確実にするため)ぴったりとした服装を着用することが条件となっています。 ZOZOSUITなし計測の機能は2024年1月に初めてボディマネジメントサービス「ZOZOFIT」に統合されました(現在は米国でのみ利用可能)。以来、ZOZOFITは毎日約800件の計測データを処理しており、これまでに実施された計測データの総数は約5万件となっています。このサービスは、独自のビジネスニーズに合わせて139箇所から測定ポイントを定義できます。今後はZOZOMETRYの高精度なZOZOSUIT計測、または手軽なZOZOSUITなし計測を通して、カスタマイズ可能な身体測定サービスをぜひ世の中の企業様にご体験いただければと考えています。 このサービスは、各企業の特定のニーズに応じて柔軟に対応可能です。ぜひ、これらのサービスを世の中の企業様にご体験いただければと考えています。 ZOZOMETRYの計測精度について 計測プラットフォーム開発本部データ開発ブロックの嶺村と松山です。このセクションではZOZOMETRYのZOZOSUITなし計測およびZOZOSUITあり計測の精度についてご説明します。スキャン後に生成される人体の3Dモデルの精度と、他社の類似サービスとの比較結果についてご紹介します。 3Dモデルの生成精度について 検証内容 3Dモデルの生成精度については、ベンチマークと比較した正確性の精度(accuracy)と、同じ計測対象を複数回計測した場合のばらつきの精度(precision)の検証観点があります。今回の記事では前者の観点での検証結果についてご紹介します。 検証方法としては、第三者メーカー製の3Dボディスキャナー(以下、3Dボディスキャナー)の3Dモデルをベンチマークとし、ZOZOSUITなし計測またはZOZOSUITあり計測で生成された3Dモデルとの比較誤差を算出しています。3Dモデル同士の比較誤差の算出方法は以下の通りです。 人間型のマネキンや人体など、共通の計測対象をZOZOSUITなし計測、ZOZOSUITあり計測および3Dボディスキャナーで計測し、3Dモデルを生成します。 3Dモデル同士を直接比較する前に、ZOZOSUITなし計測、ZOZOSUITあり計測および3Dボディスキャナーの各モデルを移動および回転させ位置合わせします。各計測ツールによって生成された3Dモデルで姿勢(背中の曲がり方や腕、脚の開き具合など)が微妙に異なる可能性があるため、事前にこの方法で3Dモデル同士の姿勢を可能な限り一致させます。 ZOZOSUITなし計測またはZOZOSUITあり計測で生成された3Dモデルの各頂点に対して、3Dボディスキャナーで生成された3Dモデルへの最短の垂直距離を計測します。両者の距離は正の値になる(頂点が外側に位置する場合)ことも、負の値になる(頂点が内側に位置する場合)こともあります。弊社の検証ではいずれのケースでも距離の絶対値を『誤差』として算出しています。この方法で3Dメッシュ全体の頂点の距離を計算し、その平均値を『平均誤差』として計算します。 上記の計算方法で計算したZOZOSUITあり計測およびZOZOSUITなし計測の平均誤差は以下の通りです。 ZOZOSUITなし計測:平均誤差10mm以内 ZOZOSUITあり計測:平均誤差3.7mm以内 スマートフォンアプリを活用したツールでありながら、ZOZOSUITなし計測、ZOZOSUITあり計測のいずれも3Dボディスキャナーの計測結果に近い精度で3Dモデルを生成できています 1 。また、ZOZOSUITあり計測ではより3Dボディスキャナーに近い高精度な3Dモデル生成が可能です。 他社サービスとの比較 検証の概要 ZOZOMETRYと類似した人体計測を提供している他社サービスとの精度比較の結果についてもご紹介します。他社サービスからは3Dモデルへのアクセスが難しかったため、先述の3D同士の比較とは異なり、手計測(以下、ハンドメジャーと呼称)との比較検証を実施しました。検証内容の詳細と検証結果について記載していきます。 ハンドメジャーについて 弊社には、外部の研究機関にて身体計測を専門とする研究者の先生から、ISO規格で定められた国際標準のハンドメジャーの計測方法を学んだ専任のチームが存在します。この専任チームは、プロダクトの精度検証のために定期的にハンドメジャーを実施しているプロフェッショナルチームです。各計測ツールで算出された計測値と比較する正解値としては、このチームで行ったハンドメジャーの値を利用しています。 他社サービスについて 本記事では比較対象として、ZOZOMETRYと同様に携帯端末によりスキャンを行い身体の各箇所の計測値を算出しているA社(仮称)のサービスを取り上げます。A社の公開している計測箇所の一部の定義がZOZOMETRYと同様にISO規格に準拠しているため、同じ定義の計測箇所で比較検証を実施しました。 検証対象データについて 本検証については、以下のデータを収集して比較しています。 データ数 42件の計測データ(ZOZOSUITなし計測、ZOZOSUITあり計測、A社サービスで計測したデータ数がそれぞれ42件あります)。いずれも日本国内に在住している被検者を対象に計測。 対象者の体形レンジ 被験者の身長レンジ: 148cm ~ 186cm 被験者のBMIレンジ: 17.3 ~ 41 計測環境 ZOZOSUITなし計測、ZOZOSUITあり計測ともに照明、背景について当社の想定する理想的な撮影環境下において計測を実施しています。 A社サービスについては、サービス内で表示される注意事項に遵守した環境で計測を実施しています。 計測誤差の算出方法 ZOZOスタッフの計測した各部位のハンドメジャーの値と比較して、ZOZOSUITなし計測、ZOZOSUITあり計測、A社サービスの計測値が相対値で何パーセントずれているかを計算しています。今回対象としたすべてのスキャンデータにおいて、各計測箇所における誤差の平均値および標準偏差を集計しました。 計測精度の比較結果 ※計測箇所の名称はZOZOMETRYサービス内の呼称に準拠 傾向としては以下のようになりました。 平均誤差で見ると、どの計測箇所もZOZOSUITあり計測の精度が最も誤差が小さい結果となりました。特にA社サービスと比較すると、計測箇所によっては半分または三分の一以下に誤差を抑えられています。標準偏差の値もZOZOSUITあり計測の結果が最も小さくなるケースが多く、全体的に誤差が小さく抑えられていることがわかります。 ZOZOSUITなし計測での結果については、ZOZOSUITあり計測の精度には及ばないものの、A社サービスと比較して平均誤差を小さく抑えられています。ZOZOSUITなし計測の標準偏差についても同様に、ZOZOSUITあり計測よりはばらつきが出るものの、A社サービスとの比較ではどの計測箇所においてもばらつきが少ない結果でした。 以上の傾向から、ZOZOSUITあり計測、ZOZOSUITなし計測ともに今回取り上げた計測箇所についてはA社サービスより高精度な計測結果が期待できると考えられます。また、より高い精度が求められるケースにおいては、ZOZOSUITあり計測での計測が望ましいといえます。 なお、正式ローンチ以前よりオーダーメイドバイクスーツ制作のためZOZOMETRYを導入いただいていた南海部品株式会社様からも、計測精度の高さについてはコメントをいただいています。ZOZOMETRY申し込みサイトに掲載されている導入事例の記事もぜひご参照ください。 biz.zozometry.com 今回の検証では、A社のサービスと定義が共通している計測箇所4か所での比較をしました。ZOZOMETRYの正式ローンチ時点では、この4か所を含めて最大139箇所の計測が可能(10月15日現在)で、今後も新たな計測箇所が随時追加されていく予定です。 まとめ 本記事ではZOZOSUITがこれまでどのように使用されZOZOMETRYの開発に至ったのか、またその計測精度について紹介しました。また他にもZOZOMETRYのシステムについていくつか記事を執筆しています。バックエンドなどのシステムについて詳しく知りたい方は、ぜひそちらも合わせてご確認ください。 techblog.zozo.com ZOZOでは、一緒にサービスを作り上げてくれる方を募集中です。ご興味のある方は、以下のリンクからぜひご応募ください。 corp.zozo.com 本検証に利用した3Dボディスキャナーの計測精度は±0.5%の公称誤差(1000mmの周囲長に対し±5mmの計測誤差が出る精度) ↩
アバター
DevRelブロック改めDeveloper Engagementブロックの @ikkou です。ZOZO開発組織の1か月の動向をMonthly Tech Reportとしてお伝えします。 ZOZO TECH BLOG 2024年10月度は11本の記事を公開しました。10月度は 10月15日に正式ローンチを迎えたZOZOMETRY の関連記事を集中的に4本公開しています。11月中にもう1本ZOZOMETRY関連記事を公開する予定です。 techblog.zozo.com techblog.zozo.com techblog.zozo.com techblog.zozo.com 登壇 ZOZO Tech Meetup ~データガバナンス / データマネジメント~ 10月22日に自社主催のオフラインイベントとして『 ZOZO Tech Meetup ~データガバナンス / データマネジメント~ 』を開催し、データシステム部と事業推進部に所属する計5名が登壇しました。 techblog.zozo.com 本イベントはオフライン限定としてオンライン配信は実施しませんでした。イベントレポートには当日の様子とともに全登壇者の登壇資料を掲載しています。特にデータガバナンスやデータマネジメントに興味や課題をお持ちの方はぜひご覧ください。 エンジニアのキャリアランチ - スタッフエンジニア編 by Forkwell 10月24日に開催された『 エンジニアのキャリアランチ - スタッフエンジニア編 by Forkwell 』に技術戦略部の堀江( @Horie1024 )が登壇しました。 現在配信中📡『エンジニアのキャリアランチ - スタッフエンジニア編 by Forkwell』に技術本部 テックリードの堀江 @Horie1024 が登壇しています🎙️ ランチにあわせてぜひご視聴ください! https://t.co/4OEeocEyR6 #Forkwell_キャリアランチ — ZOZO Developers (@zozotech) 2024年10月24日 Forkwellのアカウントをお持ちの方はアーカイブを視聴できます。ぜひご覧ください。 AIレコメンドシステムの最前線を語る 10月28日に開催されたオンラインイベント『 AIレコメンドシステムの最前線を語る 』にデータシステム部の寺崎( @f6wbl6 )が登壇しました。登壇資料を公開しているので、当日の配信を見逃した方はぜひご覧ください。 本日12-13時にオンラインで開催される『AIレコメンドシステムの最前線を語る』に推薦基盤ブロック長 兼 推薦研究ブロック長の寺崎 @f6wbl6 が『ZOZOTOWNでの推薦システム活用事例の紹介』というタイトルで登壇します🎙️ ランチにあわせてお気軽にご視聴ください! https://t.co/1KXbIvYvMI #gen_ai_conf — ZOZO Developers (@zozotech) 2024年10月28日 speakerdeck.com Recommendation Industry Talks #4 10月30日に開催されたオフラインイベント『 Recommendation Industry Talks #4 』にデータシステム部の寺崎( @f6wbl6 )が登壇しました。登壇資料を公開しているので、当日参加できなかった方はぜひご覧ください。 【満員御礼】今夜ウォンテッドリー株式会社様で開催される『Recommendation Industry Talks #4』に推薦基盤ブロック 兼 推薦研究ブロックの寺崎 @f6wbl6 が『ZOZOTOWN のホーム画面をパーソナライズすることの難しさと裏話を語る』というタイトルで登壇します🎙️ https://t.co/CMeETydq5x #RecIndTalks — ZOZO Developers (@zozotech) 2024年10月30日 speakerdeck.com 掲載 Software Design 2024年11月号 ZOZOTOWNリプレイスプロジェクトについて全8回で連載中の「 Software Design 2024年11月号 」が10月18日に発売されました。第7回のテーマは「検索機能リプレイスの裏側」です。ぜひご覧ください。 ZOZOTOWNリプレイスプロジェクトについて連載中の「Software Design 2024年11月号」が本日10月18日(金)に発売されました! 第7回のテーマは「検索機能リプレイスの裏側」です。今回もぜひお楽しみください! #zozo_engineer https://t.co/BUG17iWT19 — ZOZO Developers (@zozotech) 2024年10月18日 第6回までの連載は全文を公開しています 。あわせてご覧ください。 Software Design総集編【2018~2023】 10月12日に発売された『 Software Design総集編【2018~2023】 』に、データシステム部の塩崎が『 Software Design 2021年9月号 』に寄稿した記事『BigQueryによるデータ基盤構築の舞台裏 失敗から学んだ健全な運用とは』が掲載されています。 『Software Design総集編【2018~2023】』は本日(10月12日)発売です! 付属のDVD-ROMおよび同梱の電子版ダウンロードコードから、6年分のバックナンバーPDFを入手できます。 ITの基礎情報のほか、多くのITエンジニアやIT現場の知見の宝庫です。ぜひお手元に1冊置いておいてください。… pic.twitter.com/9mOnn9V1hm — SoftwareDesign (@gihyosd) 2024年10月12日 エンジニアtype 手前味噌ですが、私がエンジニアtypeさんから取材を受けた記事『 「DevRelの目的は、採用ではなくブランディング」ZOZOのDevRelが目指すのは、業界への恩返し 』が10月30日に公開されました。 type.jp ZOZOにおけるDevRelや技術広報の考え方について語っています。技術情報の発信については過去にZOZO DEVELOPERS BLOGやマイナビニュースのTECH+(テックプラス)にも掲載されています。あわせてご覧ください。 technote.zozo.com news.mynavi.jp その他 2026年度エンジニア新卒採用本選考の応募受付開始 10月1日よりエンジニア新卒採用本選考の応募受付を開始しました。あわせてYouTubeに『 2026年度エンジニア向け新卒会社説明動画 』も公開しています。ご応募をお待ちしています! \応募受付開始!2026年度エンジニア職 新卒採用🔥/ 本日よりエンジニア新卒採用本選考の応募受付が開始🤝❤️‍🔥 面接以外にもパネルトークや希望エンジニアとのコーヒーチャットなど幅広いコンテンツを通して、会社理解を深めながら選考を進めることができます☕ みなさまのご応募をお待ちしています! pic.twitter.com/LPuw7TvtRU — ZOZO Developers (@zozotech) 2024年10月1日 www.youtube.com Findy Team+ Award 2024 受賞 ZOZOは開発生産性が優れたエンジニア企業を称える式典『 Findy Team+ Award 2024 』にてTeam AwardのSequential Approach Div.部門で受賞いたしました。 ZOZOは『Findy Team+ Award 2024』にてTeam AwardのSequential Approach Div.部門で受賞いたしました! 開発生産性が優れたエンジニア組織を表彰「Findy Team+ Award 2024」〜約450社・20,000チームから、多様な観点で優れた48社を選出〜 https://t.co/HvdqEoyz6k #FindyTeamAward — ZOZO Developers (@zozotech) 2024年10月31日 表彰式にはデータシステム部の寺崎( @f6wbl6 )が出席しました。 Team Award〜Sequential Approach Division〜受賞企業様です!👏 #FindyTeamAward pic.twitter.com/FClN5QguHr — Findy Team+ファインディ【公式】 (@FindyTeamPlus) 2024年10月31日 現場からは以上です! ZOZOでは、一緒にサービスを作り上げてくれる方を募集中です。ご興味のある方は、以下のリンクからぜひご応募ください。 corp.zozo.com
アバター
はじめに こんにちは、WEARフロントエンド部Androidブロックの酒井柊輔です。普段はファッションコーディネートアプリWEARのAndroidアプリを開発しています。 WEARアプリは2024年5月に大規模なリニューアルをしました。そのため新たに多くの画面やUIを開発する必要がありました。しかしWEARアプリはビルド時間が長く、少しの変更を確認するだけでも数分かかるため、新規のUIの作成やUIの変更と確認に多大な時間を要していました。 このような課題を弊チームでは、UIの開発と確認をするための、ビルド時間の短い簡易アプリを作成することで解決しました。本投稿ではそのUI確認用簡易アプリを用いた課題解決アプローチの詳細と、その成果についてご紹介します。 目次 はじめに 目次 WEARプロジェクトのモジュール構成 ビルド時間が大幅にかかるという課題 解決への取り組み 具体的なアプローチ 作成したUI開発用アプリの概要 各開発者専用のUI確認用モジュールの構成 UiApplication UiActivity UiFragment build.gradle UI開発用アプリで得られた成果 依存モジュールの制限によるビルド時間の短縮 既存画面やUI共通部品を利用できる 各開発者が独自の環境を運用できる おわりに WEARプロジェクトのモジュール構成 弊チームでは現在マルチモジュール化を進めており、以下の図のようなモジュール構成(イメージ)で当時は開発をしていました。 ├── Project │ ├── :app │ ├── :feature │ │ ├── :home │ │ │ ├── HomeFragment │ │ │ ├── HomeFragmentViewModel │ │ │ └── HomeScreen │ │ ├── :search │ │ │ ├── SearchFragment │ │ │ ├── SearchFragmentViewModel │ │ │ └── SearchScreen │ │ └── :mypage │ │ ├── MyPageFragment │ │ ├── MyPageFragmentViewModel │ │ └── MyPageScreen │ ├── :core │ │ └── :ui │ │ ├── CommonButton.kt │ │ ├── CommonCard.kt │ │ └── etc... │ ├── :infrastructure │ └── :domain :app :元々利用していたモジュール。各モジュールに分割しきれていないファイル群(navigation関連ファイル、ネットワークアクセス関連ファイル等)が格納されている :feature :アプリの画面や機能毎に分割されたモジュール群 :home , :search , :mypage :各画面に関連するファイル群を格納するモジュール :core :アプリ共通のファイルを格納するモジュール群 :ui :UI共通部品を格納するモジュール :infrastructure :ネットワークアクセスロジックがまとめられているモジュール群 :domain :ビジネスロジックや共通のモデルがまとめられているモジュール群 ビルド時間が大幅にかかるという課題 些細な変更を確認するにも、多大なビルド時間を要することが課題でした。 当時はWEARの大規模リニューアル開発の真っ最中だったので、多くの新たなUIをJetpack Composeで作成する必要がありました。しかしアプリの長いビルド時間によって、作成したUIの確認と修正のサイクルを効率よく回せず、開発が滞ってしまう問題を抱えていました。 解決への取り組み ビルドが遅い原因を調査したところ、モジュール分割しきれていないファイル群が入っている:appのビルドに大幅な時間を要していることが分かりました。 幸い、UIに関するファイルはほとんど:appから別モジュールへ分割できている状態でした。そのため弊チームでは課題を、 :appをはじめとする不要なモジュールを抜いた、必要最低限の依存関係を持つ簡易アプリを、UI開発用に作ることで解決しました。 具体的なアプローチ 作成したUI開発用アプリの概要 UI開発用アプリの開発環境として、Project配下にui-appというディレクトリを作成しました。ui-appの中には各開発者のUI確認用モジュールが格納されています。 ├── Project │ ├── ui-app │ │ ├── :developer1 │ │ ├── :developer2 │ │ └── :developer3 │ ├── :app │ ├── :feature │ │ ├── :home │ │ │ ├── HomeFragment │ │ │ ├── HomeFragmentViewModel │ │ │ └── HomeScreen │ │ ├── :search │ │ │ ├── SearchFragment │ │ │ ├── SearchFragmentViewModel │ │ │ └── SearchScreen │ │ └── :mypage │ │ ├── MyPageFragment │ │ ├── MyPageFragmentViewModel │ │ └── MyPageScreen │ ├── :core │ │ └── :ui │ │ ├── CommonButton.kt │ │ ├── CommonCard.kt │ │ └── etc... │ ├── :infrastructure │ └── :domain 各開発者専用のUI確認用モジュールの構成 各開発者のモジュールの構成は以下のようにしました。 ├── :developer1 │ ├── src │ │ └── main │ │ ├── java │ │ │ └── com.xxx │ │ │ ├── UiApplication │ │ │ ├── UiActivity │ │ │ └── UiFragment │ │ └── res │ │ ├── mipmap-xxhdpi │ │ │ └── ic_launcher.webp │ │ └── AndroidManifest.xml │ ├── .gitignore │ └── build.gradle.kts UiApplication Applicationです。最小構成での実装です。 class UiApplication : Application() { override fun onCreate() { super .onCreate() // サードパーティライブラリの初期化処理等 } } UiActivity Activityです。replaceメソッドの第二引数に任意のFragmentを渡すことで、好きな画面を表示できるようにしています。 class UiActivity : FragmentActivity() { override fun onCreate(savedInstanceState: Bundle?) { super .onCreate(savedInstanceState) val containerId by lazy { View.generateViewId() } setContent { AndroidView( factory = { context -> FragmentContainerView(context).apply { id = containerId } }, update = { supportFragmentManager.commit { replace(containerId, UiFragment()) } }, ) } } } 例えば:feature:homeをこのモジュールでimplementしていたとしたら、 replace(containerId, HomeFragment()) とすればホーム画面を表示できます。 UiFragment Fragmentです。主にJetpack Composeで作成したUIを確認する用途で利用していました。 単純にsetContent内に作成したUI配置し、端末上で表示して確認することを行なっていました。例えば:core:uiをこのモジュールでimplementしていたとしたら、作成したUI共通部品をsetContent内から参照し確認できます。 class UiFragment : Fragment() { override fun onCreateView( inflater: LayoutInflater, container: ViewGroup?, savedInstanceState: Bundle?, ): View = ComposeView(requireContext()).apply { setViewCompositionStrategy( ViewCompositionStrategy.DisposeOnLifecycleDestroyed(viewLifecycleOwner), ) setContent { Surface( modifier = Modifier.fillMaxSize(), ) { // 作成したComposeのUI CommonButton() } } } } build.gradle UI開発用アプリモジュールのbuild.gradleです。 plugins { apply( "com.android.application" ) apply( "org.jetbrains.kotlin.android" ) apply( "org.jetbrains.kotlin.plugin.compose" ) } android { // 既存プロジェクトの設定と同じものを記述 } dependencies { // UI確認に最低限必要な依存関係 implementation xxx implementation yyy implementation zzz // 後から各開発者が必要に応じて追加する依存関係 implementation project( ":feature:home" ) implementation project( ":feature:search" ) implementation project( ":feature:mypage" ) implementation project( ":core:ui" ) } pluginsにはモジュールのビルドに必要な com.android.application と、Kotlinを扱うのに必要な2つのプラグインを記述しました。 dependenciesには最低限必要な依存関係のみ予め記述しておき、その他の依存関係は各開発者が必要に応じて自身のモジュールのbuild.gradleに記述する運用としました。 WEARでは、:feature:homeや:core:ui等のUI開発に必要な依存関係のみをimplementすることで、ビルド時間のかかる不要な依存関係(:app等)を省いたアプリを実現しました。 UI開発用アプリで得られた成果 このようなアプリを作成することで、以下のような成果を得られました。 依存モジュールの制限によるビルド時間の短縮 既存画面やUI共通部品を利用できる 各開発者が独自の環境を運用できる 依存モジュールの制限によるビルド時間の短縮 ビルド時間が5〜10分かかっていたのを10秒程度に短縮でき、チームの開発効率が上がりました。 また、UI作成のトライアンドエラーのサイクルを回しやすくなったので、Android開発にまだ慣れていないチームメンバーの技術キャッチアップの手助けにもなりました。 既存画面やUI共通部品を利用できる 別Projectではなく同Project内にUI開発用アプリを作ることで、既存画面に新規作成UIを組み込みながら開発できたり、アプリ内で利用されるUI共通部品を利用した開発も行えたりしました。 WEARでの事例だと、:feature:homeをimplementして既存のホーム画面を利用した開発をしたり、:core:uiをimplementして共通UI部品を利用した開発をしたりしました。 各開発者が独自の環境を運用できる developer1, developer2のように、各開発者のモジュールを作成することによって各々が独自のUI開発用アプリの環境を作ることができました。 WEARチームではこれらの各開発者のモジュールを、他のコードと同様にGitで管理していました。そのため作成したUIを確認できるようなコードを開発者専用のモジュールに記述しておけば、レビューする人がPR確認時にそのモジュールを手元でビルドしUIを確認することにも利用できました。 おわりに 本記事では、ビルド時間の短いUI開発用アプリの作成方法とその運用方法、得られた成果をご紹介しました。 UIに関するファイルのモジュール分割が既にできていれば、どの開発現場でも適用できる事例であると思います。もし同様の問題を抱えていれば、アプリの作成を検討してみてはいかがでしょうか。 ZOZOでは、一緒にサービスを作り上げてくれる方を募集中です。ご興味のある方は、以下のリンクからぜひご応募ください。 corp.zozo.com
アバター
はじめに 技術評論社様より発刊されている Software Design の2024年5月号より「レガシーシステム攻略のプロセス」と題した全8回の連載が始まりました。 3年前に行われたZOZOTOWNの大規模なリニューアルを行う際、リプレイスプロジェクトと関連する課題を解決するためにBFF(Backends For Frontends)の導入が行われました。今回は、その経緯と効果を紹介します。 目次 はじめに 目次 はじめに ZOZOTOWNの課題とBFFによる解決 通信量の増大 パーソナライズ機能の追加 BFFによる解決 アーキテクチャの説明 BFFをマイクロサービスとして構築 BFF構成にて見えてきた課題 キャッシュの導入 Redisをキャッシュに使う キャッシュを導入したことによる新たな問題 キャッシュスタンピードの対策 サービスの可用性 BFFは可用性が大事 各マイクロサービスに依存しないしくみ 運用時に見つけた課題 サーキットブレーカーの導入 意図しているエラー条件 BFFにおける障害試験の重要性 BFFのこれまでとこれから おわりに はじめに こんにちは。株式会社ZOZO技術本部SRE部の三神と技術本部ECプラットフォーム部の藤本です。ZOZOTOWNでは約3年前に大規模なリニューアルを実施し、BFF(Backends For Frontends)を導入しました。第6回ではBFFの導入に至った経緯やそのしくみ、そして導入後にどのような変化があったのかについて紹介します。 ZOZOTOWNの課題とBFFによる解決 2021年3月に実施したZOZOTOWNの大規模リニューアルの一環として、BFFを導入するという判断をしました。BFFはアーキテクチャ設計パターンのひとつで、クライアントからのリクエストを一元管理し、フロントエンドとバックエンドの間で双方の複雑さを吸収して処理を効率化するためのものです。BFF導入の背景には、ZOZOTOWNリプレイスプロジェクトやリニューアル時にやりたかったことに関連して、いくつか解決したい課題がありました。その中でもとくに大きなものとして次の2つがありました。 通信量の増大 1つ目はクライアントからの通信量の増大です。連載第1回(本誌2024年5月号)でお伝えしているとおり、ZOZOTOWNリプレイスプロジェクトでは、VBScriptのモノリスなアプリケーションからGoやJavaを使ったマイクロサービスへ移行を進めていました。これまでのモノリスなアプリケーションとして動いていたところからマイクロサービスへ機能を切り出していくと、内部の機能の呼び出しだったところが各マイクロサービスに対しての通信へ置き換わることとなります。 このマイクロサービスの呼び出しに伴う通信を、そのままブラウザやスマートフォンアプリといったクライアントから直接行おうとすると、サーバとの通信回数が何倍にも増えてしまいます。もし1回のサーバとの通信で必要な情報が集められない場合は、複数回同じサーバに通信する必要が出てきてしまいます。とくにスマートフォンの場合は、通信回数が増えることで電池の消費も増えてしまうのでより大きな問題となります。 パーソナライズ機能の追加 課題の2つ目は、ユーザーの性別や年齢、お気に入り情報などからコンテンツの内容を変化させるパーソナライズ機能の追加です。ZOZOTOWNを訪れるユーザーの興味や関心はさまざまなので、それぞれのユーザーの好みに合わせたコンテンツを表示することで、より便利に使ってもらえることを目指しています。 リニューアル時のパーソナライズ機能の追加には、表示する条件の変更が柔軟に行えるようにしくみを整えることも含まれていました。日常的なサービスの運営として、パーソナライズ機能で表示するコンテンツの種類や数を、キャンペーンやセール、季節などに合わせて調整できるようにする計画だったため、処理をクライアント側に実装するわけにはいきませんでした。もしクライアント側に実装すると、変更のたびにリリースが必要になってしまい、柔軟な変更という部分が損なわれてしまいます。こちらも1つ目の課題と同様に、パーソナライズの条件の変更のたびにスマートフォンのアプリをアップデートするのは現実的ではないので、避けなければなりませんでした。 BFFによる解決 1つ目の課題は、クライアントと各マイクロサービスの間にZOZO Aggregation APIというBFFを配置して、通信量を抑えることで解決しました(図1)。クライアントへのレスポンスも、重複した内容を削りながら必要としている情報を整理してレスポンスできるようになっています。また今後さらに必要なマイクロサービスが増えたとしても、ZOZO Aggregation API内でレスポンスを1つにまとめられるので、クライアント側の通信に大きな影響を与えずに済みます。もちろん表示するコンテンツを増やした場合はレスポンスのサイズも増えますが、クライアントの通信回数を増やした場合よりも抑えられると考えています。 図1 クライアントとマイクロサービスの間にZOZO Aggregation APIを配置 そして2つ目の課題は、サービスを「表示するコンテンツを選択するサービス(推薦サービス)」と「コンテンツの中身を提供するサービス」に分けて、ZOZO Aggregation APIからそれぞれのサービスを順に呼び出すことで解決しました。推薦サービスを独立させることによってクライアントの中に処理を持たせないという仕様はクリアできました。しかし、各サービスをクライアントから直接呼び出してしまうと通信量の増大という課題が残ってしまうことになるので、リニューアルのタイミングでBFFを入れる判断をしました。追加したパーソナライズ機能は、ユーザーごとに表示するコンテンツの種類や数の調整を推薦サービスが行い、その結果をもとにZOZO Aggregation APIがコンテンツに必要な情報を各マイクロサービスから集めて、最後にクライアントが必要としている形に整形してレスポンスする流れになっています(図2)。表示するコンテンツを変更したい場合も、ZOZO Aggregation APIと推薦サービスの間で調整すればよく、クライアント側が意識する必要はほぼなくなっています。 図2 ZOZO Aggregation APIによるパーソナライズ機能の実現 アーキテクチャの説明 BFFをマイクロサービスとして構築 ZOZOTOWNではAPIゲートウェイパターンのアーキテクチャを採用しており、認証認可やカナリアリリース機能を備える高機能なZOZO API Gatewayを内製しています。このZOZO API Gatewayを軸にZOZOTOWNのシステムは構成されています。 そこで、ZOZOTOWNトップページの表示内容を生成するAPIとしてZOZO Aggregation APIをZOZO API Gateway配下の1マイクロサービスとして設置し、リクエストもZOZO API Gatewayを経由してルーティングする形で構築しました。 BFF構成にて見えてきた課題 ZOZO Aggregation API導入後のシステム要件を整理する中で、各マイクロサービスの最大負荷が設計当初の想定以上に高いことが判明しました。 リニューアル後のトップページでは、ZOZOTOWNを利用する各ユーザーに対して趣味、嗜好に合わせた魅力的な商品をリーチするために今まで以上に多くのデータを使ってパーソナライズを行っています。そのため各マイクロサービスへのリクエストがリニューアル前に比べて格段に増加していました。それに加えて「ZOZOWEEK」等の大規模セール時は通常時と比較して圧倒的にユニークユーザー数が多くなるので、スパイクを考慮すると各マイクロサービスへのリクエストがリニューアル前の数倍以上になる可能性が出てきました。 リニューアル後の大規模セール時に発生するスパイクをシミュレーションすると、既存の各マイクロサービス構成では負荷に耐えられないことがわかりました。各マイクロサービスが耐えきれずレスポンスが遅延して、ZOZO Aggregation APIのレスポンスも遅延すると、トップページ生成時間が長くなるのでZOZOTOWNでの体験を著しく損なってしまいます。 キャッシュの導入 この問題の対策として、各マイクロサービスの増設、もしくはキャッシュの導入を検討しました。前者の増設による対策の場合、すべてのマイクロサービスをイベントごとに増設する必要があり、そのための工数や維持費用が膨れ上がり現実的な解決策とは言えませんでした。そこで、後者のキャッシュによる解決策を中心に検討を進めていきました。 レスポンスの遅延はトップページにおけるアクセス増が原因なので、AkamaiやFastlyといったCDNを用いたキャッシュによる負荷軽減策を模索しました。しかし、パーソナライズを実現するにあたり、多種多様なデータの組み合わせを想定しているため、ユーザーごとに表示される内容に差異が多くなる仕様になっていました。したがって、ZOZO Aggregation APIにて集約した後のページをキャッシュするCDNのような方式は負荷対策として効果的ではありませんでした。 Redisをキャッシュに使う そこで、トップページ生成に必要なデータを細かくキャッシュする方式を検討しました。ZOZO Aggregation APIではパーソナライズ条件に基づいて取得したデータをモジュール(部品)として扱っており、モジュールを組み合わせてトップページを生成しています。モジュール単位であれば、同一条件下でのレスポンスデータ生成においてキャッシュが利用できます。そのため、必要なリクエストをすべてマイクロサービスへ送るのではなく、マイクロサービスから取得したデータをモジュール単位でキャッシュするシステム構成に変更しました。 具体的には、マイクロサービスへ接続するときのURLとパラメーターをキーに、マイクロサービスから実際に取得できるレスポンスを値としてAmazon ElastiCache(Redis)に保存できるようにZOZO Aggregation APIを改修しました(図3)。マイクロサービスにリクエストを送る代わりにRedisからキャッシュを取得することで、直接リクエストする回数を減らして負荷の軽減を図る目的です。 図3 モジュール単位のキャッシュ これにより、もう一度同じ条件のモジュールを取得する場合は先にRedisを参照することで、マイクロサービスに接続する回数を減らせました。キャッシュを導入した効果はすばらしく、インフラの増強を最小限に抑えることができました。 キャッシュを導入したことによる新たな問題 キャッシュを使うことでコストの問題は解決できましたが、ZOZOTOWNの商品情報は随時更新されていくので、いつまでも同じキャッシュを使い続けることはできません。ZOZOTOWNでは毎日午前0時にクーポンを切り替えているため、少なくとも1日に1回はキャッシュに保存した商品情報を更新する必要があります。実際はクーポンの切り替え以外でも、価格や説明など商品の情報は1日に複数回更新される場合があります。 一般的に、キャッシュを保存するときは有効期限を設けて、期限が来たら自然に消えていくように設計することが多いと思います。この場合、キャッシュの有効期限が切れたタイミングで、瞬間的にマイクロサービスへリクエストが殺到することになります(図4)。せっかく負荷を減らしたにもかかわらず、マイクロサービスへの負荷が一気に増大してしまうということです。この現象は一般的にCache Stampede(キャッシュスタンピード)、Dog piling(ドッグパイル)などの名称で呼ばれています。本記事では当時社内で利用していたキャッシュスタンピードの名称を使用します。 図4 キャッシュが参照できないときにマイクロサービスヘリクエストが殺到する キャッシュスタンピードの対策 キャッシュスタンピードを防ぐ代表的な方法は3つあります。 次の有効期限に参照するキャッシュを事前に作る 有効期限が切れる前に延長する ロックを使って1プロセスだけオリジンから取得する 当時は未来の商品公開情報を生成するしくみが存在していなかったため、1の方法は採用できませんでした。また2の方法は、キャッシュ有効期限は延長されるものの保存している内容がそのまま残るため、商品情報を更新したいという要件には合いませんでした。結果として、残った3の方法を選択しました。 ZOZO Aggregation APIはKubernetes上で動作しているので、単純にアプリケーション内部でロックを取得しただけではほかのPodとはロックを共有できません。そのため、RedisのSETコマンドにNXオプションを付与して、Redis上でロックを取得することにしました。 NXオプションはキーが存在しない場合のみ値を設定して、キーが存在する場合は何もせず失敗します。ロックを取得できた場合はオリジンから商品情報を取得してキャッシュの更新処理を行い、ロックを取得できなかった場合はキャッシュが更新されるのを一定時間待つようにしています。これによりキャッシュスタンピードを防ぎつつ、キャッシュ更新時の遅延も抑えながら安定してレスポンスを返すことができています。 サービスの可用性 BFFは可用性が大事 BFFはフロントエンドからリクエストを受け付けるため、BFFに障害が発生するとサービス全体に直結しやすい傾向にあります。つまり、BFFはサービス可用性を考えるうえで重要なポイントです。 ZOZO Aggregation APIに関しても、BFFとして設計を進めていくうえで障害時のシナリオをシミュレーションしたところ、大きな課題を発見しました。ZOZO Aggregation APIは複数のマイクロサービスからモジュールとして商品のデータを取得する必要があるため、初期の設計では、いずれかのマイクロサービスに障害が発生した際に引きずられてカスケード障害が発生することが懸念されました。しかし、ZOZO Aggregation APIは初期の設計でも3つ以上のマイクロサービスと通信してトップページに必要なモジュールを生成していたので、ZOZO Aggregation APIとその3つのマイクロサービスがすべて正常に動作することが、正常にトップページを生成する条件となっています。そのため、可用性の低いシステムになっていました。 BFF導入後のアーキテクチャでZOZOTOWNの可用性を担保するにはこの課題の対策が必須となりました。 各マイクロサービスに依存しないしくみ そこでZOZO Aggregation APIでは、いずれかのマイクロサービスにて障害が発生した場合は、取得できた情報とデフォルトとして定義された情報を組み合わせたモジュールを生成してレスポンスを行う仕様にしました。タイムアウトとリトライ制御を各マイクロサービスに設定しておき、マイクロサービスが規定の時間内に正常なレスポンスを返さない場合はほかのマイクロサービスから取得できたデータとデフォルト定義されたデータにてモジュールを生成します。 実際に運用が始まると、障害の際にマイクロサービスに障害が発生して一部のデータを取得できない状態になりました。しかし本仕様のおかげでZOZO Aggregation APIは障害にならず、ZOZOTOWNのトップページを表示し続けることができました。 運用時に見つけた課題 ZOZO Aggregation APIにはリリース後もさまざまな機能が追加されており、マイクロサービスの通信先もリリース時と比べて増えている状態でした。リリース初期は同じKubernetesクラスター内のマイクロサービスとの通信がほとんどでしたが、社内の別環境にあるAPIや社外のAPIからデータを取得して生成するモジュールも出てきました。通信先が増えてもZOZO Aggregation APIにて各マイクロサービスの障害に引きずられないしくみを導入しているので安心していましたが、障害発生時に挙動を確認した際に気になる点がありました。 先の仕様ではZOZO Aggregation APIから各マイクロサービスに対してタイムアウトとリトライ制御を使って障害判定をしていたため、障害発生時に200を返すことによりレスポンスタイムの悪化が発生していました。仮にマイクロサービスにて10分間障害が発生するとZOZO Aggregation APIは「レスポンスは遅延しているが200を返す」状態で10分間動作し続けていることになります。マイクロサービスの障害に引きずられないしくみを導入したのはZOZOTOWNのユーザー体験を損なわないことが目的ですが、この状態はユーザー体験が良いとは言えないので対策することになりました。 ZOZO Aggregation APIでは各マイクロサービス間との通信におけるタイムアウトとリトライ制御にIstioを利用しているため、Istioを活用して対応する方法がないかを検討しました。Istioを調査する中でサーキットブレーカー機能があるとわかり、ZOZO Aggregation APIと各マイクロサービスとの通信にサーキットブレーカーを導入することで障害発生時のレスポンスを改善できるのではと考えました。 サーキットブレーカーの導入 サーキットブレーカーとは、あるサービスの障害を検知した場合には通信を遮断、その後サービスの復旧を検知すると通信を復旧させるしくみです。サーキットブレーカーを導入することで、各マイクロサービスに障害が発生した際にサーキットブレーカーがそれを検知し、ZOZO Aggregation APIと該当マイクロサービスとの通信を即座に遮断します。遮断されている状態ではZOZO Aggregation APIが該当マイクロサービスに通信をすると即座にエラーレスポンスが返るので、先のしくみにより取得できたデータからのレスポンスデータをもとにモジュールを生成します。マイクロサービスの障害が収束するとサーキットブレーカーがそれを検知してZOZO Aggregation APIとの通信を復旧させます(図5)。 図5 サーキットプレーカー導入による変化 サーキットブレーカーを導入したことで、ZOZO Aggregation APIは障害発生時でも都度タイムアウトを待たずにレスポンスを返せるようになりました。また先のしくみと合わせることで、特定のマイクロサービスに障害が発生したとしてもユーザー体験を損なわないシステムになり、BFFとして信頼性が高い状態となりました。 意図しているエラー条件 このように可用性担保のためさまざまな対策が行われたZOZO Aggregation APIですが、1つだけ可用性を考慮せず、意図して500エラーをレスポンスする条件があります。それは「キャッシュから正常なデータを取得できない状態」です。 ZOZO Aggregation APIはキャッシュを導入することで各マイクロサービスの負荷軽減を行っています。キャッシュからデータが取得できない場合に、各マイクロサービスから直接データを取得する挙動だと、セールなどの高負荷時に対象マイクロサービスがダウンする可能性があります。ZOZO Aggregation APIのキャッシュに障害が発生したことで各マイクロサービスが高負荷になり、ZOZOTOWNの別機能に影響が出るという事態は防がなければいけません。そこで、キャッシュにて障害が発生した場合は、ZOZO Aggregation APIにて500エラーを返して各マイクロサービスと通信をしない仕様にしています。 なおキャッシュ障害を検知した場合は、予備で用意しているキャッシュに通信先を変更することで迅速な復旧ができるようにしています。 BFFにおける障害試験の重要性 前述のとおりBFFは可用性がとても重要なので、障害時の動作を把握するために、障害試験にはかなり注力しています。サーキットブレーカー導入時はもちろんのこと、新たな通信先が追加されるたびに、さまざまなエンドポイントにて障害発生時の動作を確認しています。 ZOZO Aggregation API自体の障害発生シミュレーションは当然行いますが、外部サービスも含めて多種多様なマイクロサービスと通信するため「各マイクロサービスがダウンした場合の挙動」を定義しておき、障害試験で想定通りのレスポンスが返答されるか確認することが大事です。Istioを使ってZOZO Aggregation APIと各マイクロサービス間の通信に遅延を発生させて、サーキットブレーカーの発動と発動後のレスポンス内容が想定どおりになっているかはリリース前にチェックしています。 これらのチェックを行っているため、ZOZO Aggregation APIはリリースから今年で3年が経過しているにもかかわらず、安定した運用を続けられています。 BFFのこれまでとこれから ZOZOでは、BFFアーキテクチャの国内での実例がまだ少なかった2021年から、ZOZO Aggregation APIを構築して運用を続けてきました。運用していく中でキャッシュスタンピードをはじめとしたさまざまな課題が見つかりましたが、開発者とSREが一丸となって改善を続けてきました。結果を見れば、この3年間におけるZOZOTOWNの安定性にZOZO Aggregation APIは大きく貢献しており、当初想定していたアーキテクチャのメリットを享受できています。 リリース当初はZOZOTOWNトップページの表示内容を生成するAPIでしたが、現在はトップページだけではなくカート画面や検索画面等に表示するデータも扱う、ZOZOTOWNにおける中核を担うAPIとなりました。req/sやキャッシュの使用量も含めて右肩上がりになっており、用途はこれからも増えていく予定のため、今後の増強も予定しています。 また、3年の運用でZOZO Aggregation APIに機能が増えてきたことで、さまざまな課題が見えてきました。たとえば、さまざまな機能が追加されてロジックに複雑さが出てきたことや、関係者が増えたことによりコミュニケーションコストも増えてきたこと、マイクロサービスとBFFの責務があいまいになっている部分があることなどが挙げられます。これらの問題に対応するために、機能ごとにBFFとしての機能を分割する案や、デバイス別に分割する案といったさまざまな角度からこれからのZOZO Aggregation APIについて議論を進めています。今後のZOZOにおけるBFFの方針が決まった際には テックブログ 等で公開したいと思っています。 おわりに 連載第6回では2021年に導入したZOZOのBFFであるZOZO Aggregation APIについて、導入により発生したメリットや、運用上の課題、今後の展望について紹介しました。 BFFアーキテクチャのひとつの形としてBFFの導入を検討している方の参考になればうれしく思います。 本記事は、技術本部 SRE部フロントSREブロック ブロック長の三神 拓哉と同 ECプラットフォーム部マイグレーションブロックの藤本 拓也によって執筆されました。 本記事の初出は、 Software Design 2024年10月号 連載「レガシーシステム攻略のプロセス」の第6回「ZOZOTOWNにおけるBFFアーキテクチャ実装」です。 ZOZOでは、一緒にサービスを作り上げてくれる方を募集中です。ご興味のある方は、以下のリンクからぜひご応募ください。 corp.zozo.com
アバター
はじめに こんにちは。Developer Engagementブロックの @wiroha です。10月22日に「 ZOZO Tech Meetup ~データガバナンス / データマネジメント~ 」を開催しました。ZOZOTOWNを支える開発において「データガバナンス / データマネジメント」にフォーカスして、弊社エンジニアが具体的な事例を交えながら紹介するイベントです。 登壇内容まとめ 弊社から次の5名が登壇しました。 コンテンツ 登壇者 #1 データガバナンスチームの結成で得た学び 事業推進部 田中 #2 ZOZOのデータマネジメントの取り組み:これまでとこれから データ推進ブロック 髙木 #3 dbt-coreで実現するCore DataMartsのデータモデリング〜dbt編〜 推薦基盤ブロック 栁澤 #4 dbt-coreで実現するCore DataMartsのデータモデリング〜Cloud Composer編〜 データ基盤ブロック 奥山 #5 全部見せます!BigQueryコスト削減の手法とその効果 データ基盤ブロック 塩崎 #1 データガバナンスチームの結成で得た学び 事業推進部 田中による発表 speakerdeck.com 田中からのコメント 抽象度の高い学びの共有で恐縮ですが、データガバナンスに取り組んでいる/これから取り組むみなさまのお役に立てれば幸いです。これから迎えるZOZOのデータ活用の成熟期を、今回ご紹介したデータエンジニア、アナリティクスエンジニア、データマネージャに加え、ビジネス職のあらゆるスタッフやMLエンジニア、データアナリスト、データサイエンティストといった専門家たちと楽しんで行きたいと思います。 #2 ZOZOのデータマネジメントの取り組み:これまでとこれから データ推進ブロック 髙木による発表 speakerdeck.com 髙木からのコメント ZOZOで行っているデータガバナンス / データマネジメントについて一部ですがお話させていただきました。多くの方へ届けるためにオンライン開催も検討したのですが、オフラインならではの意見交換も活発に行うことができ、個人的にもとても楽しい時間を過ごすことができました! まだまだデータマネージャーとして働いている方は少ないかと思いますが、これからどんどん発展していく領域でもあるので、今回のイベントをきっかけにZOZO含めて興味を持っていただければとても嬉しいです。絶賛採用中なので、気軽にカジュアル面談をお申込みいただければと思います! #3 dbt-coreで実現するCore DataMartsのデータモデリング〜dbt編〜 推薦基盤ブロック 栁澤による発表 speakerdeck.com 栁澤からのコメント dbt-coreを使ったデータモデリングの実践についてお話しさせていただきました。会場では多くの方々にご質問をいただき、またデータモデリングに関する議論もできて、とても楽しかったです! 限られた時間の中で全てをお伝えできませんでしたが、スライドをご覧いただくことで、少しでも同じ悩みをお持ちの方々のお役に立てると嬉しいです。 #4 dbt-coreで実現するCore DataMartsのデータモデリング〜Cloud Composer編〜 データ基盤ブロック 奥山による発表 speakerdeck.com 奥山からのコメント Cloud Composer(Airflow)からdbtモデルの更新・データ品質チェックを依存関係を保ちながら行うためのポイントについて発表しました。dbt導入を検討しているものの、実行基盤・インフラ部分の実装に悩んでいる方々の一助になれば幸いです! 参加者にはデータエンジニアの方も多く、データパイプラインの設計やツールの選定などたくさんの知見を交換できて嬉しかったです! #5 全部見せます!BigQueryコスト削減の手法とその効果 データ基盤ブロック 塩崎による発表 speakerdeck.com 塩崎からのコメント BigQueryの裏技めいたコスト削減手法などを紹介しました。昨今の様々な事情によりコスト削減熱の高まりを観測することが多くなってますので、コスト削減に取り組んでいる方々の一助になれば幸いです。 いただいた質問への回答 当日は進行の都合上、発表ごとに質疑応答の時間を取れなかったため、後日回答するという形で質問を募りました。一部の質問についてテキストにて回答いたします。 Q. 聞き洩らしたかもしれませんが、データマネジメントチームの影響がつかめていないです。プロダクトに依存せず横ぐしですべてのデータを見ている印象を受けましたが合っていますでしょうか...? A. プロダクトに依存せず横串で対応するチームの認識で間違いありません。データマートで言えば全社で使える汎用分析データマートをデータマネジメントチームから提供し、その先のより細かい分析やBI用途のデータはデータアナリストや事業部のメンバーが作成しています。ただ、プロダクトによっては内部で完結しているケースもあるので、新たに領域を拡大していくのも課題としてはあります。 Q. LookMLを運用するうえでのツラいという話の詳細が気になりました。 A. 前提として、LookMLは優れたデータモデリング言語であり、今後もLookerをBIツールとして利用する予定です。ただ、データモデリングの全てをLookMLで行うと、管理の複雑化やパフォーマンス最適化の難しさという課題がありました。また、一時的にLookMLに詳しい人材が不足したこともあり、運用面での問題が浮き彫りになりました。そこで、重要なビジネスロジックはdbtに集約してデータモデルの安定性を確保しつつ、柔軟な表現が求められる部分はLookerのセマンティックレイヤーで対応することで、効率的な運用を目指しています。これにより、一貫性を保ちながらも、ビジネスニーズに柔軟に対応できる体制を整えたいと考えています。 Q. dbt docsがビジネスユーザーにツラいという話の詳細が気になりました。 A. 言葉足らずでしたが、奥山からあったように弊社ではSQLデータマートとdbtデータマートをBigQuery上で共存させています。dbt docsではdbtデータマートのみしか対応できないため、処理の方法に関わらず全体を俯瞰できるデータカタログが必要となっています。 Q. 誰でもSQLを使える点に驚きました。アクセスコントロールをどうやっているのか気になりました。 A. 個人情報や広く公開すべきではない営業秘密などに対してはBigQueryの列レベルセキュリティ機能を使っており、一部の限られた人のみが閲覧可能です。一方でそれ以外のほぼすべての情報は全社員が活用できるようにアクセス権限を設定しています。 最後に 登壇者のみなさん 非常にたくさんの方にご参加いただき、ありがとうございました。懇親会では登壇者への質問・意見交換が活発に行われ、有意義な時間を過ごすことができました。今後もイベントを開催していきますので、ぜひご参加ください! ZOZOではデータアナリスト、データマネージャー等のさまざまなポジションで一緒に働く仲間を募集中です。カジュアル面談も実施しておりますので、ご興味のある方は以下のリンクからぜひご応募ください。 corp.zozo.com www.wantedly.com
アバター
はじめに こんにちは、データサイエンス部の広渡です。データサイエンス部では、取り組みの一環として検索クエリのサジェスト(以下、サジェスト)の改善に力を入れています。 ここでサジェストは一般的に「Query Auto Completion」と呼ばれる、検索窓にキーワードが入力された際に続きを補完したキーワードを提示する機能を指します。 弊チームではサジェスト改善の取り組みとして、パーソナライズ化を進めています。本記事では、パーソナライズ化の一環として、ユーザーの性年代に適したサジェスト(以下、性年代別サジェスト)を実現した事例について紹介します。 参考として、近年のサジェスト改善事例に関する記事もご覧ください。 techblog.zozo.com 目次 はじめに 目次 背景・課題 性年代別サジェストとは 性年代別サジェストの実現方法 方針 Elasticsearchでの実現方法 結果 定性評価 A/Bテスト まとめ おわりに 背景・課題 ZOZOTOWNでは、ユーザーログを活用してサジェストを実現しています。なお、本記事ではサジェストに候補として表示された検索クエリをサジェストクエリと呼ぶことにします。 ユーザーログはサジェストクエリの作成と並び順に活用されています。並び順は、過去の検索クエリのクリック数やクリック後の商品の購入数などをベースにしたスコアを算出し、そのスコアに基づいて決定されています。ユーザーログを活用した詳しい改善事例は以下の記事を参照してください。 techblog.zozo.com 以前のサジェストでは、ユーザーログを一括りにしてサジェストクエリを作成しており、どのユーザーにもZOZOTOWNのメインユーザーである20〜30代女性向けのサジェストクエリが多く表示されていました。 サジェストクエリ作成時にユーザーの性別や年代を考慮していないため、例えば、男性ユーザーがキーワードを入力中に「Tシャツワンピース」など女性向けと考えられるサジェストクエリも表示されることになります。以下は実際のサジェストクエリの例です。 そこで、ユーザーログを性別や年代ごとに活用することで、ユーザーの性年代に適したサジェストクエリを提供する性年代別サジェストに取り組みました。 性年代別サジェストとは 性年代別サジェストとは、ユーザーの性別と年代の組み合わせごとにサジェストクエリを作成し、ユーザーの性年代ごとにそれぞれ異なるサジェストクエリを表示するものです。 性別と年代の組み合わせは以下のようなイメージです。 性別:男性、女性 年代:10代、20代、... 男性x10代、男性x20代のような性別と年代の組み合わせごとにサジェストを作成します。それを用いて以下の図に示すようにユーザーの性年代に応じたサジェストクエリを表示します。 性年代別サジェストの実現方法 ここでは、性年代別サジェストを実現した方法について紹介します。 方針 まず、性年代別サジェストを実現するために、2つの方針を考えました。 性年代別でサジェストクエリとなるキーワードごと変える。 ユーザーログを性年代別にフィルタリングし、サジェストクエリとなるキーワードを作成する。 例えば、20代男性ユーザーが「Tシャツ レディース」を検索したログがなければ、他の性年代のユーザーが検索していたとしてもサジェストクエリとならない。 サジェストクエリとなるキーワードは同じだが性年代別でスコアを変える。 全てのユーザーログでまとめてサジェストクエリとなるキーワードを作成した上で、その性年代が検索したキーワードでないサジェストクエリは削除せず、表示順が下位になるようにスコアを小さくする。 例えば、20代男性ユーザーが「Tシャツ レディース」を検索したログがなくても、他の性年代のユーザーが検索していたらサジェストクエリとなる。 各方針のイメージです。20代男性が検索窓に「Tシャツ」を入力した場合を想定しています。 今回は方針2の「サジェストクエリとなるキーワードは同じだが性年代別でスコアを変える」方針に定めました。 前者は、その性年代でクリックされにくいサジェストクエリを取り除けるかもしれませんが、サジェストクエリの数は少なくなる懸念があります。後者は、前者のデメリットをカバーし、改善前のサジェストクエリの数に保つことができるというメリットがあると考えました。 スコア算出のロジックは既存のものを使用し、性年代ごとのクリック数やクリック後の商品の購入数をもとにそれぞれのスコアを算出しました。これは、性別や年代ごとのクリック数や購入数をスコア算出に活用することで、性年代に適したサジェストクエリが表示されているかどうかを、効果の測定を通じて判断するためです。 Elasticsearchでの実現方法 ZOZOTOWNでは、ユーザーが入力したキーワードからサジェストクエリを抽出する検索エンジンとしてElasticsearchを採用しています。サジェストクエリとしたい文字列をインデクシングし、その文字列に対して前方一致させることで実現しています。 ここではElasticsearchを用いた性年代別サジェストの実現方法について紹介します。 まず、Elasticsearchで Mapping と言われるドキュメント設定は以下のようにしました。この設定はインデクシング時に活用されます。 { " mappings ": { " dynamic ": " false ", " properties ": { " suggest ": { " type ": " keyword " } , ... " score ": { " properties ": { " mens_gene_20_29 ": { " type ": " float ", " index ": false } , ... " mens_all ": { " type ": " float ", " index ": false } , ... " all_gene_20_29 ": { " type ": " float ", " index ": false } , ... " all ": { " type ": " float ", " index ": false } } } } } } 主なポイントはサジェストの並び順を決定するための「score」フィールドにサブフィールドを追加し、性別と年代に応じたスコアを持たせた点です。 性別と年代に応じたスコアの詳細は以下の通りです。 性年代別でのスコア(上記mens_gene_20_29に該当) 性別でのスコア(上記mens_allに該当) 年代別でのスコア(上記all_gene_20_29に該当) 全体でのスコア(上記allに該当) 性年代別だけでなく、性別、年代別、全体でのスコアを持たせた理由は2つあります。1つ目はユーザーの性別と年代の両方の情報が取得できなかった場合に対応させるためで、2つ目はサジェストクエリのソートに活用するためです(後述)。 次に、Elasticsearchへのリクエストクエリは以下のようにしました。ここでは、検索窓にキーワードが入力された際に、サジェストクエリ候補に前方一致させフィルタリングしソートします。この例では、男性20代ユーザーが「Tシャツ」を入力した場合を想定しています。なお、下記のクエリは実際のクエリを簡略化しています。 { " query ": { " prefix ": { " suggest ": " Tシャツ " } } , " sort ": [ { " score.mens_gene_20_29 ": { " order ": " DESC " } , " score.mens_all ": { " order ": " DESC " } , " score.all_gene_20_29 ": { " order ": " DESC " } , " score.all ": { " order ": " DESC " } , } ], " size ": 10 } ここで工夫した点は、多段ソートをするようにした点です。上記の例では、20代男性 → 男性 → 20代 → 全ての順にソートしています。 以下はこの時の動作イメージです。 複数のサジェストクエリ候補間でユーザーの性年代でのスコアが等しい場合は、ユーザーの性でのスコアの高い方が上位になります。ユーザーの性年代と性でのスコアも等しい場合は、ユーザーの年代でのスコアの高い方が上位になります。こうすることで、なるべくユーザーに好まれやすいサジェストクエリが表示されるようにしました。 スコア算出に用いる性年代別のログは、性年代ごとにデータをフィルタリングするため、全体のログと比べてデータが少なくなるという欠点があります。多段ソートによって、性年代だけでなく、複数のフィルタリング条件を組み合わせたソートが可能になります。これにより、性年代でのスコアではクリックされやすさを十分に反映できなかったサジェストクエリに対しても、より多くのログから算出されたスコアを基に並び替えることができ、この欠点を補うことが可能です。 結果 ここでは定性的な結果とABテストの結果について紹介します。 定性評価 以下が改善前後でのサジェストの比較です。 20代男性 が検索窓に「Tシャツ」を入力した場合を想定しています。左側が改善前で右側が改善後のサジェストを示しています。 改善前は「Tシャツ レディース」などの女性向きのサジェストクエリが表示されていましたが、改善後では「Tシャツ メンズ」などの男性向きのサジェストクエリがより上位に表示されていることがわかります。 性別や年代を入れ替えて様々な条件でチーム内定性評価をしたところ、既存のサジェストよりも良い評価が得られました。 A/Bテスト 性年代別サジェストを評価するためにZOZOTOWNのユーザーに対して2週間A/Bテストを行いました。 以下が結果のサマリです。計測した指標は他にもありますが抜粋しています。 指標 結果 1ユーザー当たりの受注金額 100.20 % サジェストクリック率 100.21 % GMV相当の1ユーザー当たりの受注金額は有意差なしとなりましたが、サジェスト機能指標であるサジェストクリック率は有意差あり勝ちとなりました。 まとめ 本記事では、性年代別のサジェストを実現した事例を紹介しました。性年代別のサジェストを実現することで、サジェストを改善できました。 今後の展望として、性年代別でスコア算出ロジックを変更すること、さらにはユーザー一人ひとりにパーソナライズ化したサジェストを実現することを考えています。 おわりに ZOZOでは検索エンジニア・MLエンジニアのメンバーを募集しています。ご興味のある方は、以下のリンクからぜひご応募ください。 corp.zozo.com
アバター
目次 目次 はじめに 我々のチームについて ZOZOMETRYについて ZOZOMETRYでのBtoB開発で取り入れたこと プールモデルによるマルチテナント管理 Cognito+DBによるユーザー情報の管理 RLSによる行単位でのデータアクセス制御 RLSの利用を見送った理由 理由1 : コネクションプールの管理 理由2 : O/RマッパーでのRLSの利用 DDDにおけるテナントのアクセス制御 MySQLを採用した理由 AWS Auroraとの互換性 PostgreSQL独自の機能の不使用 チームの経験と学習コスト 計測プロダクトとの整合性 PostgreSQLを採用したいケース Gitの運用フロー まとめ 最後に はじめに こんにちは。計測プラットフォーム開発本部バックエンドブロックの髙橋です。 先日、ZOZOMETRYという新規サービスをローンチしました。 corp.zozo.com 本記事ではZOZOMETRYをローンチするにあたり発生したBtoB開発における考慮すべきポイントと対応について解説します。 我々のチームについて 計測プラットフォーム開発本部バックエンドブロックでは、「世界中に計測技術を通じて、新しい価値をプラスする」をミッションとして掲げています。このミッションのもとZOZOMAT、ZOZOGLASS、ZOZOMETRYなどの計測プロダクトのバックエンド開発・運用をしています。主にScalaを使用し、堅牢で拡張性の高いシステムを目指しています。 ZOZOMETRYについて ZOZOMETRY とは、事業者の採寸業務を効率化し、採寸が必要な服の売上拡大やコスト削減に貢献するサービスです。以前、ZOZOTOWNで提供していたサービスでは、ZOZOSUITを着用しての計測が必須でしたが、ZOZOMETRYではZOZOSUIT着用あり、ZOZOSUIT着用なしの異なる計測方法が提供されています。 ZOZOMETRYでのBtoB開発で取り入れたこと 我々のチームでは、過去にBtoCサービスを開発・ローンチしており、BtoBサービスの開発経験はありませんでした。しかしZOZOMETRYは法人向けのBtoBサービスであり、BtoCサービスとは異なる課題がありました。特に契約企業ごとにマルチテナンシーなサービスを提供する必要のあるユースケースで我々が取り組んだ方法をご紹介します。 プールモデルによるマルチテナント管理 SaaS型のBtoBサービスでは、多くの場合、契約企業ごとにデータを分離する必要があります。これらの分離モデルとして、 サイロモデル・プールモデル・ブリッジモデル が知られています。 ZOZOMETRYのバックエンドシステムではローンチしたばかりのサービスである点からも、テナントごとに専用のリソースを用意することに関しては管理コストの増大につながる懸念がありました。そのためZOZOMETRYではテナントごとにAPIを用意することはせず、共通の1つのリソースでサービスを提供するためにプールモデルを採用しました。これにより、テナントごとに独立したリソースを用意することなく、複数のテナントを1つのリソースで運用できます。 Cognito+DBによるユーザー情報の管理 ユーザー認証はAWSが提供するCognitoを採用しています。外部サービスであるCognitoには認証に必要な最小限の情報(アカウントID、メールアドレスなど)のみを定義しています。各組織を区別するために必要なテナントIDも含めた、ユーザーの氏名などのmetadataはRDSに紐づける形で管理する方針としています。これにより、metadataの参照や更新が行われた場合にCognitoを経由する必要がなく、パフォーマンスや拡張性の観点から管理が容易となります。 CognitoのユーザープールとDBのテーブルの関係は以下のようになっています。CognitoのアカウントIDと、DB上のアカウントIDを紐づけることで、Cognitoのユーザー情報とDBのテナント情報を紐づけ、DB上のmetadataを取得しています。 また、この構造をユーザー認証にも用いています。Cognitoから発行されたアクセストークンのペイロードには、CognitoのアカウントIDがsub属性として含まれています。アプリケーション側では、アクセストークンからCognitoのアカウントIDを取得し、DB上のアカウントIDを取得してユーザーを特定します。 しかしプールモデルでは、上段で説明したように1つのリソースで全ての顧客のデータを保持し、1つのサーバーで運用するような形になります。そのため、リソースごとにテナントごとのデータ分離をアプリケーション側で意識する必要があります。我々はアプリケーション側でテナントIDを保持することで、テナント間のデータを分離した状態でサービスを提供することが可能になりました。 RLSによる行単位でのデータアクセス制御 プールモデルにおけるマルチテナント管理の手段としては一般的にいくつか存在しています。我々は当初、PostgreSQLが提供するRLS (Row Level Security)を利用する想定で設計を進めていました。 RLSはテーブルに対して行単位でアクセスを制御できる機能です。詳細は PostgreSQLのドキュメント をご覧ください。私たちのユースケースでは、RLSを利用して、テナントIDをセッション変数として保持し、テナントIDに紐づくデータのみを参照することを想定しました。これにより、以下のコードのようにテナント間のデータをアプリケーション側で意識することなく分離できると考えました。 -- テーブルの作成 CREATE TABLE users ( user_id SERIAL PRIMARY KEY, tenant_id INT , first_name VARCHAR ( 50 ), last_name VARCHAR ( 50 ) ); -- サンプルデータの挿入 INSERT INTO users (tenant_id, first_name, last_name) VALUES ( 1 , ' Alice ' , ' Smith ' ); INSERT INTO users (tenant_id, first_name, last_name) VALUES ( 2 , ' Bob ' , ' Jones ' ); SELECT * FROM users; /* user_id | tenant_id | first_name | last_name --------+-----------+------------+----------- 1 | 1 | Alice | Smith 2 | 2 | Bob | Jones */ -- テーブルにRLSを適用 ALTER TABLE users ENABLE ROW LEVEL SECURITY; -- ポリシーの作成 CREATE POLICY users_rls_policy ON users FOR SELECT USING (tenant_id = current_setting( ' service.tenant_id ' ):: int ); -- RLSを用いたSELECT SET LOCAL service.tenant_id = 1 ; SELECT * FROM users; /* user_id | tenant_id | first_name | last_name --------+-----------+------------+----------- 1 | 1 | Alice | Smith */ RLSの利用を見送った理由 しかし、我々は以下の理由からRLSを使ったテナントごとのデータ分離手法の採用を断念することにしました。以下に、その理由について説明します。 理由1 : コネクションプールの管理 PostgreSQLのRLSは、ポリシーでパラメーターから得られるテナントIDが一致する行を条件にしています。DBセッション内でテナントIDを設定することで、そのテナントに対するデータにアクセスが許可されます。しかし、コネクションプールを利用する場合、同じコネクションを使いまわすことで違うテナントのデータを参照してしまう可能性があります。 そのため、セッションごとにコネクションを張ることになり、コネクションプールの効率を悪くする懸念がありました。また、プールモデルでシステムを構成しているため、コネクションが枯渇した際に全てのテナントに影響が出る可能性もありました。 理由2 : O/RマッパーでのRLSの利用 RLSを用いる場合はO/Rマッパー側でセッション変数を設定する必要があります。しかしながらユーザーごとにポリシーを分けておらず、コネクションのポリシーを都度切り替える必要がありました。結果的にコネクションにテナントIDをアタッチするための生クエリを発行するコンポーネントを作らなければならず、カスタム実装が必要でした。 我々はプール型のシステムであり、共通のAPIサーバーを利用しています。そのため、ユーザーごとにポリシーをアタッチするような手法を用いるのが難しく、結果としてWHERE句にテナントIDを付加する手法と比較し、コストとリスクがあまり変わらないと判断しました。下図のように、テナントごとに異なるAPIサーバーを持っている場合であれば、RLSの効果的な利用が可能であったと考えています。 上記で触れたように、RLSを利用しない場合、内部的にはSQLクエリ上でテナントIDを指定する必要があります。これをエンドポイントごとに実装することなく、我々はアプリケーション側、実際はDDDにおけるユースケース層で定義し、実装することにしました。DDDにおけるテナントIDの取り扱いについては、以下に詳しく説明します。 DDDにおけるテナントのアクセス制御 DDDとは「Domain Driven Design」の略で、日本語では「ドメイン駆動設計」と呼ばれる設計手法です。DDDは、主にそのソフトウェアが対象とする領域(ドメイン)に焦点を当てて、それをソフトウェアに対して抽象化して適用し、その領域における問題を解決するための設計手法です。業務システムにおいて、ドメインとは主にビジネスロジックを表現するための概念です。バックエンドにおいては、システムのビジネスロジックを処理する主要な場所であることが多いことから、我々もシステムの設計にDDDを取り入れています。 そのため、我々はRLSが担うはずだった特定のテナントIDが割り当てられたデータのみのアクセス制限を行う処理を、共通に呼び出すビジネスロジックを集約するユースケース層に実装しました。これにより、実装者による実装漏れの懸念をほぼなくすことができます。ユースケース層に集約することにより、以下のメリットがあります。 コードの可読性と保守性の向上 ビジネスロジックが明確に分離されるため、テストの容易さが向上。コードの重複を避けることができる ユースケース層に集約されたビジネスロジックは、他のユースケースやアプリケーション層からも再利用可能 これらの点を考慮しながら、ユースケース層にビジネスロジックを集約し、DDDの原則に従った堅牢なアプリケーションを構築できます。 以下に、ユースケース層におけるテナントIDの取り扱いについてのコード例を示します。このコードでは、ユースケース層においてテナントIDを保持し、テナントIDに紐づくデータのみを参照する処理を実装しています。全てのユースケースがこのtraitをmixinすることで、チェック処理が漏れる懸念もありません。 trait UserUseCaseProtocol[Req <: UseCaseRequest[?], Res <: UseCaseResponse[?, ?]] { val userRepository: Repository[User] protected def execute(request: Req)(implicit ec: ExecutionContext): Future[Res] private def response(request: Req): Future[Res] = { for { _ <- ensureBelongingTo(request.userId, request.tenantId) res <- execute(request) } yield res } private def ensureBelongingTo( userId: Id[User], tenantId: Id[Tenant] )(implicit ec: ExecutionContext): Future[User] = { userRepository .resolveById(userId) .flatMap(ensureSameTenantId(_, tenantId)) } private ensureSameTenantId(user: User, tenantId: Id[Tenant]): Future[User] { if (user.tenantId == tenantId) Future.successful(user) else Future.failed(NotBelongingToTenantException(entity.id)) } } // --- Exception --- class NotBelongingToTenantException(userId: Id[User]) extends Exception このように、我々はPostgreSQLのRLSを使ったデータ分離を見送ることにしました。 MySQLを採用した理由 我々はZOZOMETRYでRLSを使わない意思決定をしたに過ぎず、このままPostgreSQLを使い続ける余地もありました。しかし、最終的に我々はPostgreSQLでの開発を断念し、MySQLを採用することに決定しました。その理由は以下の通りです。 AWS Auroraとの互換性 まず、我々はデータベースにAWSのAuroraを使用しています。AWSがAuroraの新機能をリリースする際、基本的にはMySQLファーストで行われます。現時点でも、クロスリージョンリードレプリカやマルチマスタークラスターなどはMySQLでしか対応されていません。 PostgreSQL独自の機能の不使用 次に、我々はhstore型などのPostgreSQL独自の型は使用しません。json型やhstore型については、RDBではなくドキュメントDBやKVSなど、本質的にそれらを扱うことに適したデータベースへ永続化するように分離します。また、今まで説明していたようにRLSも利用しないため、PostgreSQLの独自機能を使うメリットが少ないと判断しました。 チームの経験と学習コスト さらに、チームはこれまでのMySQLでの開発・運用経験を再利用可能です。新たにチームにジョインする人にはMySQLの知識が期待されます。MySQLを初めて扱う人には、例としてMySQLの固有なネクストキーロックなど、学習コストがかかりますが、チームとしての技術スタックを統一できます。 計測プロダクトとの整合性 最後に、我々のチームでは計測プロダクトの開発・運用にMySQLを採用しています。PostgreSQLの採用は計測プロダクトの中でもイレギュラーな技術スタックの決定となります。また、Auroraを使う上であってもMySQLを利用するメリットが大きいため、ZOZOMETRYでもMySQLを他の計測プロダクト同様に使用することにしました。 PostgreSQLを採用したいケース 一方で、PostgreSQLを採用したいケースもあります。例えば、複雑なクエリのパフォーマンス向上を図りたい場合や、hstore型などPostgreSQLにのみ存在する独自の型を使いたい場合です。しかし、我々のチームではこれらに遭遇するケースが少ないため、最終的にMySQLを採用することに決定しました。Auroraを使用する以上、PostgreSQLで機能の制限を受けることは避けたいと考えておりました。また、バックエンド側ではデータベースでJOINを行わない方針で開発を進めています。これは、データベースはアプリケーション層に比べてスケールが難しく、データベースに多くの仕事をさせないためです。 Gitの運用フロー ZOZOMETRYでは、リリースのタイミングや内容の管理が重要です。以前記事として出したように、チームで開発・運用しているプロダクトではGitHub Flowを採用し、以下のように運用しています。 techblog.zozo.com ZOZOMETRYでは定期リリースを採用することが決まったこと、BtoB向けのプロダクトであり変更に伴う顧客説明が必要となることから、定期リリースにおける最適なブランチ戦略を見直す必要があります。我々はGitHub Flowをベースに、releaseブランチを付加した運用フローを採用しました。これにより、リリースのタイミングや内容を管理し、リリース前に必要な調整ができます。 まとめ 本記事では、ZOZOMETRYのBtoBサービスにおける課題とその解決策について紹介しました。BtoBサービスではBtoCサービスとは異なる課題があり、それに対応することが求められますが、マルチテナンシーなサービスをプールモデルで提供し効率的なサービス提供を実現しました。また、アプリケーション側でテナントIDを保持することで、テナント間のデータを分離した状態でサービスの提供が可能になりました。引き続き、計測技術を用いて新しい価値を提供するために、技術的な課題に立ち向かいながらサービスの開発を進めていきます。 最後に 計測プラットフォーム開発本部バックエンドチームでは、グローバルに計測技術を開発していくバックエンドエンジニアを募集しています。ご興味のある方は、以下のリンクからぜひご応募ください! hrmos.co
アバター
はじめに こんにちは、データシステム部推薦基盤ブロックの寺崎( @f6wbl6 )と佐藤( @rayuron )です。 私たちは2024年10月14〜18日にイタリアのバーリにて開催されたRecSys 2024(18th ACM Conference on Recommender Systems)に現地参加しました。本記事では現地でのワークショップやセッションの様子をお伝えすると共に、気になったトピックをいくつか取り上げてご紹介します。 RecSysとは RecSysとは米国計算機学会(ACM)が主催する推薦システムに関する国際的なカンファレンスです。今回で18回目の開催となるRecSys 2024は2024年10月14〜18日にイタリアのバーリで開催されました。 recsys.acm.org RecSysでは推薦システムに関わる各国の大学の研究チームや、Google、Amazon、Netflix、Spotifyをはじめとする推薦の関連分野で活動する世界有数の企業を集め、推薦システムの幅広い分野における新しい研究成果を発表します。今回は、アメリカや中国などの53カ国から1,123人の研究者や開発者がRecSysに参加しました。 初日と最終日にチュートリアルとワークショップがバーリ工科大学で行われ、その他の日付で ペトゥルッツェッリ劇場(Teatro Petruzzelli) を会場としてメインカンファレンスが行われました。全日程を通して発表は全て英語で行われます。どの日も9:00頃からカンファレンスが開始され、朝夕2回のコーヒーブレークやランチを挟んで18:30頃に終了します。夜にはレセプションパーティーやソーシャルディナーが実施されたりと多くの人と交流できます。また今回は、メインカンファレンス終了後にオーケストラコンサートにも参加できました。 開催地のバーリについて RecSys 2024の開催地であるバーリは、アドリア海に面した南イタリアの美しい港町 今回の開催地であるバーリは、アドリア海に面した南イタリアの美しい港町です。街には白を基調とした外壁の建物が多く、青い海や空とのコントラストが印象的で魅力的でした。コーヒーブレークの合間に沿岸沿いを散策する参加者の姿が多く見られ、気分をリフレッシュしている様でした。 会場の様子 チュートリアルとワークショップの会場となったバーリ工科大学 初日と最終日には、チュートリアルとワークショップがバーリ工科大学で行われました。発表テーマは教室によって分かれているため、聞きたいプログラムを自分で選択し聴講しました。特にワークショップでは MuRS や Video Recsys の様に音楽や動画という特定のドメインに特化したテーマの他、 FAccTRec や CARS のように推薦を考える上で重要な観点に重きをおいたテーマでの発表がありました。 メインカンファレンスの会場は荘厳な雰囲気のペトゥルッツェッリ劇場 10/15〜10/17にメインカンファレンスがペトゥルッツェッリ劇場で行われました。荘厳な雰囲気が魅力的な会場でした。劇場の椅子に座り全員が同じ基調講演とセッションを聴講しました。 Michael I. Jordan 氏をはじめとする研究者が基調講演し、セッションでは大学の研究チームの発表やGoogleをはじめとする会社の研究チームの発表が行われました。セッションは以下のテーマで構成され、全体を通してLLMとSequential Recommendationに関する発表が多い印象でした。 Large Language Models Bias and Fairness Collaborative Filtering Cross-domain and Cross-modal Learning Multi-Task Learning Cold Start Sequential Recommendation Graph Learning Optimisation and Evaluation Robust RecSys Off-Policy Learning Women in RecSys 研究内容の紹介 ここからは、カンファレンスを通して特に気になった論文について取り上げてご紹介します。 Bootstrapping Conditional Retrieval for User-to-Item Recommendations Hongtao Lin, Haoyu Chen, Jaewon Yang, Jiajing Xu Hongtao Lin氏らによる Bootstrapping Conditional Retrieval for User-to-Item Recommendations のFigure 1より引用 この発表はPinterestの研究で、Two-Towerモデルによるretrievalタスクにおいて条件付けして取得するアイテムを制御する方法を提案しています。以降、条件付けしたretrievalのことを”conditional retrieval”と記載します。conditional retrievalの実現方法として大量のアイテムを取得して後処理で条件に一致するアイテムのみを抽出する方法や、近似近傍探索時にフィルタ条件を考慮する方法が考えられます。これらの方法だとフィルタリング項目に対してモデルが最適化されているわけではないため、フィルタリング項目との関連度は高いがユーザーとの関連度は低い、といった状況が生じると考えられます。 この研究ではアイテムのメタデータを特定のフィルタリング項目にマッピングするCondition Extraction Moduleという機構を設け、そこから得られたembeddingをユーザータワーで利用する手法を紹介しています。 提案手法は特定のトピックで抽出したアイテムをメール通知またはプッシュ通知するタスクで評価しており、複数の手法と比較しています。 手法 概要 index 指定されたトピックのアイテムを全件抽出して人気順の上位N件を取得するもの LR: Learned Retrieval 通常のTwo-Towerモデル + 内製のストリーミングトピックフィルタ*を適用したもの CR1: Conditional Retrieval(提案手法 A) 内製のストリーミングトピックフィルタを適用しないもの CR2: Conditional Retrieval(提案手法 B) 内製のストリーミングトピックフィルタを適用したもの *指定したトピックのアイテムを一定数取得または時間予算に達するまで取得するトピックフィルタの機構。 オンラインテストの結果、提案手法がCTR・コストの両方で優れていることが示されています。注目すべきポイントはインフラコスト面で、LRにストリーミングトピックフィルタを適用することでコストが大幅に増加している点に対し、CRのコスト増はLRの4〜6分の1程度に抑えられていました。これはLRの場合だと条件に合致するアイテムを大量にフェッチして処理する必要があるためで、この点から提案手法では条件に合致するアイテムを効率的に取得できていることがわかります。 発表時にはlimitationとして複数の条件によるconditional retrievalが行えないことや、必ずしも条件に合致したアイテムが取得できるわけではない点を挙げており、検索機能の代替にはならない点に言及していました。 感想・考察 こちらの手法はサービスのユースケース次第では簡単にconditional retrievalを実現できるため、非常に参考になる発表でした。クエリ実行時にアイテムのconditionにあたるembeddingをユーザーのfeatureとして入力するという発想はシンプルなので、これでconditionに沿ったアイテムが取得できるようになるのは意外な結果です。比較対象として用いているTwo-Tower+トピックフィルタはよくあるconditional retrievalの構成なので、似たような構成のシステムを運用している方は参考にしてみると良いでしょう。 Short-form Video Needs Long-term Interests: An Industrial Solution for Serving Large User Sequence Models Yuening Li, Diego Uribe, Chuan He, Jiaxi Tang, Qingyun Liu, Junjie Shan, Ben Most, Kaushik Kalyan, Shuchao Bi, Xinyang Yi, Lichan Hong, Ed Chi, Liang Liu この発表はGoogleとDeep Mindの研究で、YouTubeのショート動画など尺の短い動画コンテンツ(Short-Form Videos, SFVs)を大量に消費するサービスにおいてユーザーシーケンスを効率的に扱う方法を提案しています。SFVsでは尺の長い動画(Long-Form Videos, LFVs)と異なりユーザーシーケンスが長くなる傾向にあるため、モデルをサービングする際にどの程度のシーケンス長を考慮するかがポイントになります。シーケンス長をできるだけ長く扱うようにしたところオンラインメトリクスは大幅に向上したものの、サービングコストの増加が確認されたため、できるだけこれらの影響を小さくすることがこの研究のモチベーションです。なお論文中には記載がありませんが、使用するユーザーシーケンスを長くすることでモデルサービング時のレイテンシも悪化した、と発表中に言及されていました。 Online Metric Serving Cost (naive) User Model (sequence length 200) +0.14% +5.6% User Model (sequence length 1000) +0.38% +28.7% 使用するユーザーシーケンスを長くするとメトリクスは改善するがコストやレイテンシが悪化している。 提案手法はユーザーシーケンスをembeddingにするモデルの推論処理をサービングから切り離して非同期に行うというもので、embeddingのキャッシュと更新手続きの手順をフレームワークとして提案しています。 Yuening Li氏らによる Short-form Video Needs Long-term Interests: An Industrial Solution for Serving Large User Sequence Models のFigure 1より引用 このような構成を取るメリットとしてサービング時のインフラコスト改善だけでなく、ユーザーシーケンスをembeddingにするモデルをLLMなどの大規模モデルにできる点を挙げています。特にユーザーシーケンス長の限界を意識する必要がなくなるので、ユーザーの長期的な嗜好を捉えられるようになる点が大きなメリットと言えるでしょう。 embeddingのキャッシュと更新の手続きは以下のような流れで行われます。 キーバリューストアからユーザーIDに対応するembeddingを取得する embeddingが有効な場合はそのまま返却 embeddingが無効や期限切れだった場合はembeddingのリフレッシュ処理をトリガー 最新のユーザーシーケンスを取得してユーザーモデルでembeddingを計算しキーバリューストアに格納・embeddingを返却 Yuening Li氏らによる Short-form Video Needs Long-term Interests: An Industrial Solution for Serving Large User Sequence Models のFigure 2より引用 提案手法の評価としてSFVsの推薦タスクとLFVsの推薦タスクでA/Bテストをしており、SFVsではインフラコストの大幅な削減を達成し、LFVsでは一部のメトリクス改善につながったと報告しています。この発表の質疑では「ユーザーのembeddingが無効であるとどのように判断しているのか」という質問が出ており、一定期間で無効にする方法とユーザーの属性やコンテキストの変化で無効にする2つのパターンがあるとのことでした。 感想・考察 まず、YouTubeのような巨大サービスにおけるembeddingの扱いに関する方法などの詳細を直接聞けるのがRecSysに参加する大きな意義だと感じました。ZOZOTOWNでも似たようなシステム構成を採っている推薦システムは存在しますが、本発表でのembeddingの管理方法はさすが痒いところまで手が届いている、という印象です。YouTubeほどのサービス規模になるとインフラコストの削減やレイテンシの改善によるインパクトは計り知れず、メトリクスが改善していてもインフラコストがかかりすぎてリリースができないというのはこの規模のサービスならではの課題だと思います。 MARec: Metadata Alignment for cold-start Recommendation Julien Monteil, Volodymyr Vaskovych, Wentao Lu, Anirban Majumder, Anton van den Hengel この発表はAmazon Machine Learningによる研究で、ウォームアイテムに対する精度を保ちつつコールドアイテムの精度を改善する手法を提案しています。推薦システムにおけるコールドアイテムとは「ユーザーのインタラクションが少ない・もしくは全くないアイテム」を指しており、こうしたアイテムへのアプローチとして以下が挙げられています。 協調フィルタリングとコンテンツベース推薦のハイブリッド メタラーニングアプローチ ニューラル埋め込みアプローチ retrieval拡張 よく使われるのはひとつ目の手法ですが、コンテンツベース推薦のアプローチでコールドアイテム、協調フィルタリングでウォームアイテムへの推薦に対応しているため、モデルアーキテクチャが複雑かつ学習が収束しにくくなるという問題に繋がります。またそれぞれのモデルに対する影響もあり、ウォームアイテムへの推薦精度を悪化させるケースもあります。この研究ではウォームアイテムへの精度を変えずにコールドアイテムへの推論精度を高めつつ、よりスケーラブルなアプローチを提案しています。 提案手法は M etadata A lignment for cold-start Rec ommendation (MARec)と呼ばれるもので、バックボーンモデル、embeddingモデル、アライメントモデルの3つのモデルを組み合わせたアーキテクチャを採っており、それぞれのモデルの出力を使って損失を計算する構成となっています。 Julien Monteil氏らによる MARec: Metadata Alignment for cold-start Recommendation のFigure 1より引用 バックボーンモデルは図中のfBで表されているモデルでクリックデータを入力としており、図中のfEで表されているembeddingモデルはアイテムのメタデータをembeddingに変換します。そしてfAで表されているアライメントモデルはfBの学習で使用するクリックデータとfEから得られるembeddingのバランスをとるためのもので、ここが提案手法のキモになっています。 提案手法の評価は公開データセットに対するオフライン評価のみですが、コールドアイテムでの評価指標が最大47.9%アップリフトしており、一方ウォームアイテムでは最大マイナス1.5%の精度低下に抑えられていることが確認されました。 感想・考察 今回のRecSysではコールドスタート問題に関する発表が数多くありましたが、手法が最もシンプルかつ広範に渡る評価を行っている発表だったと思います。「コールドアイテムへの対策をしたモデルはウォームアイテムへの精度を悪化させる懸念がある」という観点も説明されると納得ですが自分たちのプロダクトで考慮できていなかった点なので、新たな観点として得られたのが個人的に良かったポイントです。課題として挙げていた「アーキテクチャが複雑化する」という点について提案手法も複雑そうには見えますが、中身としてはアライメントモデルを追加しているのみなので比較的簡単にこの手法を試せそうな印象です。今後、プロダクトへの導入結果が報告されるのを楽しみにしている研究のひとつです。 Building a Scalable, Real-time Sequence and Context-Aware Ranking Marjan Celikik, Jacek Wasilewski*, Ana Peleteiro Ramallo, Alexey Kurennoy, Evgeny Labzin, Danilo Ascione, Tural Gurbanov, Géraud Le Falher, Andrii Dzhoha and Ian Harris Marjan Celikik氏らによる Building a Scalable, Real-time Sequence and Context-Aware Ranking のFigure 1より引用 こちらの研究は、 CARS というワークショップで取り上げられた、ファッションECサイト「Zalando」の発表内容です。 オンラインショッピングサイトでは、膨大な商品データベースから、ユーザーの行動やコンテキストに基づきリアルタイムでパーソナライズされた商品を効率的に推薦することが重要です。本研究では、2ステージの推薦モデルを採用し、推薦精度とレイテンシの両方を向上させるアプローチが取られています。 候補生成フェーズでは、Two-Towerモデルが使用されています。このモデルは、ユーザーとアイテムの特徴を独立して処理し、ユーザーの行動履歴やコンテキストを基にユーザーembeddingを生成し、アイテムのembeddingと組み合わせて商品候補を生成します。embeddingの生成方法としては、以下の3つが提案されています。 RCGntr : 事前学習されたembeddingを使用するモデル RCGtr : 事前学習されたembeddingを初期値として、学習されたembeddingを使用するモデル RCGtr+ctx : RCGtrに加え、検索クエリや閲覧カテゴリなどのコンテキスト情報を組み込んだモデル RCGtrは、従来のGradient Boosting Treesを使用した候補生成と比較して4.48%のエンゲージメント向上を達成しています。 ランキングフェーズでは、ユーザーの行動履歴とコンテキストに基づいて、クリック、カート追加、購入といった複数のアクションを予測するポイントワイズのマルチタスク学習が採用されています。学習時にはすべてのターゲットアクションに対して等しい重み付けが行われますが、サービング時にはユースケースに応じて各アクションのスコアに動的な重み付けが適用され、ビジネスニーズに合わせて最適化されています。 上記のモデルは、従来のWide & Deep Learningモデルと比較して4.04%のエンゲージメント向上を実現しました。また、ランキングモデルの候補生成にRCGtr+ctxを使うと、RCGtrと比較して+2.40%のエンゲージメント向上を実現しました。そして、システム全体では、リアルタイムで約200ミリ秒のレイテンシを維持しています。 感想・考察 ランキングフェーズにポイントワイズなマルチタスク学習を適用しており、学習とサービング時に異なるタスクごとに異なる重みを使用する点がユニークでした。重みはユースケースに応じて動的に設定されると言及されていたので具体的な決め方について知りたいと思いました。 Dynamic Stage-aware User Interest Learning for Heterogeneous Sequential Recommendation Weixin Li, Xiaolin Lin, Weike Pan and Zhong Ming Weixin Li氏らによる Dynamic Stage-aware User Interest Learning for Heterogeneous Sequential Recommendation のFigure 2より引用 こちらは、Session 8: Sequential Recommendation 1で発表された、深圳大学の研究です。従来の推薦システムは、ユーザーの行動履歴に基づいて商品を提案していましたが、ユーザーの興味が時間の経過や特定の行動によって段階的に変化することを十分に反映できていませんでした。この課題に対処するため、DSUIL(Dynamic Stage-aware User Interest Learning)という新しいモデルを提案しました。DSUILは、ユーザーの行動シーケンスを「購入」などの重要な行動を基準に複数の段階に分割し、各段階でユーザーの興味がどう変化するかを学習します。 DSUILは、以下の4つの主要なモジュールから成り立ちます。 Dynamic Graph Construction : ユーザーの過去の行動に対し購入行動を境界としてサブグラフを作成する Dynamic Graph Convolution : 各サブグラフ内のアイテム間の依存関係を学習する Behavior-aware Subgraph Representation Learning : 閲覧や購入など異なる行動間の依存関係を捉え、サブグラフ内のユーザーの興味を表現する Interest Evolving Pattern Extractor : 複数のサブグラフを結合し最終的なアイテムを予測する 実験結果から、DSUILは既存の最先端手法と比較して優れた性能を示し、特に異なる段階間の依存性をモデル化することが、推薦精度の向上につながることを示しています。 感想・考察 消費者行動モデルのAISAS(Attention, Interest, Search, Action, Share)で説明される様に、消費者行動が段階的に変化することは明らかだと思います。この研究は従来のSequential Recommendationで考慮し切れていなかったユーザーの段階的な行動をモデリングする点で筋が良いなと思いました。 Self-Auxiliary Distillation for Sample Efficient Learning in Google-Scale Recommenders Yin Zhang, Ruoxi Wang, Xiang Li, Tiansheng Yao, Andrew Evdokimov, Jonathan Valverde, Yuan Gao, Jerry Zhang, Evan Ettinger, Ed H. Chi and Derek Zhiyuan Cheng Yin Zhang氏らによる Self-Auxiliary Distillation for Sample Efficient Learning in Google-Scale Recommenders のFigure 1より引用 こちらは、Session 11: Optimisation and Evaluation 1で発表されたGoogle DeepMindによる研究です。こちらの研究は、Googleの大規模な推薦システムにおいて、限られたデータから効率よく学習を進めるSelf-Auxiliary Distillationという手法を提案しています。 推薦システムでは、フィードバックデータをそのまま使用してモデルをトレーニングしますが、これらのラベルの情報価値は均一ではありません。例えば、クリック予測モデルでクリックされずにラベルを0とした中でも、ポジティブに近いネガティブや、完全なネガティブが存在します。そのため、否定的なラベルを単純に0とするのではなく、もっと細かく評価することが有効とされました。 Self-Auxiliary Distillationは、信頼性の高いポジティブラベルに重点を置いて学習を進めつつ、信頼性の低いネガティブラベルに対しては蒸留を通じて解像度を高め、モデル全体の精度を向上させる手法です。この方法では、次の2つのタスクを同時に処理します。 Main Task : ground-truthに基づいてモデルをトレーニングし、教師として確率的なソフトラベルを生成する Auxiliary Task : 教師モデルから生成されたソフトラベルと正解ラベルの両方を学習する この手法を使用することで、あるGoogle Appsの推薦システムではオフラインでのAUCが+17%向上し、オンラインの主要ビジネスメトリクスにおいても大きな成果が見られました。また、補助タスクを追加することで、モデルのサービング時のコストが増大することはなく、トレーニングにかかるコストもほとんど増加しません。 AppleのiOSのプライバシーポリシーによってラベルデータの取得が難しくなった環境でも、この手法が有効に機能しています。同意を得られないユーザーのデータが「真のネガティブラベル」と区別できない問題に対して、補助タスクで生成されたソフトラベルを使用することで、推薦システムのパフォーマンスを維持することに成功しました。 感想・考察 pseudo-labelを使用することで、ユーザーの潜在的な関心度を学習に取り入れている点は、純粋に賢いアイデアだと感じました。プラットフォームのプライバシー規制に対して適応力があるという点は面白い観点だと思いました。他にもbotアクセスによる推薦精度の低下への対応策にもなり得るのではないかと考えました。 おわりに RecSys 2024に参加して、豊富なインスピレーションを得ると共に自社の推薦機能に改善の余地があることを再確認しました。前述の通り今年のRecSysはSequential Recommendationの発表が多く、発表中の課題設定としてECでの購買行動を扱っているものも多かったためZOZOTOWNにおける推薦機能の改善にそのまま活かせそうな内容ばかりでワクワクしました。Industrial Paperの発表はサービス特有の課題設定を解くものでしたが、課題設定の観点とそのアプローチは自分たちがプロダクトを改善していく上でとても参考になります。 RecSys 2025はチェコのプラハで開催! RecSys 2025はチェコのプラハで開催されるとのことで、自分たちも発表者の立場として参加できるように推薦システムをアップデートしていきたいと思います。 ZOZOでは、一緒にサービスを作り上げてくれる仲間を募集中です。ご興味のある方は、以下のリンクからぜひご応募ください! corp.zozo.com
アバター
はじめに こんにちは、計測システム部SREブロックの @TAKAyuki_atkwsk です。普段は ZOZOMAT や ZOZOGLASS 、 ZOZOMETRY などの身体計測サービスの開発・運用に携わっています。 最近公開されたZOZOMETRYですが、正式ローンチに至るまでにチーム間のサイロ化によるデリバリー速度の低下という課題が見えてきました。そこで、モブプログラミング(モブプロ)を通してチーム間のコラボレーションを促進し、課題の解決を試みている事例をご紹介します。 目次 はじめに 目次 背景・課題 モブプロを試してみる 私たちのモブプロのやり方 事前準備 モブプロの流れ モブプロをやってみて 改善点 まとめ 背景・課題 私の所属する計測システム部では以下の組織図の通り、SRE、バックエンド、フロントエンド、研究開発の4つのチームが存在しています 1 。さらに、複数のプロジェクトが並行して進むことが多く、一人がプロジェクトを兼任することもあります。 ( ZOZOエンジニア向け会社説明資料 より引用) 各チームは役割によって責務が分けられていますが、SREチームとバックエンドチームの間で領域が重なる部分や依存する部分を進める際に上手くいかないことがありました。例えば、私たちはアプリケーションのソースコードとCloudFormationテンプレートをそれぞれ別のリポジトリで管理しています。前者はバックエンドチームが管理し、後者はSREチームが管理しています。ここで、バックエンドのメンバーがちょっとしたAWSリソースの追加や修正する場合にSREのメンバーに依頼する状況となっていました。また、逆のパターンでSREのメンバーからバックエンドのメンバーにちょっとしたソースコードの修正を依頼することもありました。 これらの出来事は、各チームが責務通りに作業しているとも捉えられますが、メンバー自身が作業したいにもかかわらずお作法や考え方が分からないために依頼した方が速そうという判断が一因になっていました。依頼することで結果的に作業待ちが発生し、ちょっと試して確認したいだけなのに時間が掛かってしまうことがありました。 冒頭で書いた「サイロ化によるデリバリー速度の低下という課題」の一例を取り上げました。サイロと言うには大げさかもしれませんが、両チーム間で実装・設計方針が揃っておらず大きな手戻りが発生したこともあり、コミュニケーションとコラボレーションの不足が要因としてあったと考えられます。 モブプロを試してみる チーム間のコミュニケーションとコラボレーションを促進するための方策の1つとして私たちはモブプロを実施することにしました。実はSREチーム内では以前からモブプロを取り入れていたので私自身は経験がありました。SREチームのモブプロでは、なかなか取り組めなかった運用改善系のタスクを複数人で一気に取り組むことや、メンバーの技術力の底上げや新規参画者に対するナレッジの共有を目的にしていました。これらについてはある程度効果が出ていました。 ただ、チームをまたいだモブプロの経験はほとんど無かったため、まずは特定のプロジェクトもしくはある程度の機能で試したいと考えました。その頃、ZOZOMETRYではクローズドローンチ期間を設けていくつかの企業にサービスを提供していました。この運用の中で、頻度は低いものの開発者がSQLを実行する必要のある作業が顕在化してきました。この一部はスクリプト化されていますが、手動でSQLを実行するのは属人性が高く人為的なミスの起きやすいものとなっています。そこで、権限を持つメンバーなら誰でも安全に作業できるよう、管理画面を作ることになりました。 さらに、メンバーと話して以下のことからモブプロの題材として管理画面が適していそうだと判断しました。 緊急性の高い要件が発生しにくい 並行するプロジェクトがある中で着実にタスクを進めたい 複数のチームで協調して作業する必要がある これでチームをまたいだモブプロを試していく準備が整いました。 私たちのモブプロのやり方 管理画面はいくつかのコンポーネントに別れていて、大まかにはフロントエンド、バックエンド(API)、これらを動かす基盤(AWSやKubernetesリソース)となります。コラボレーションを意識してAWSやKubernetesリソースの作成やCI/CDの整備、認証などの機能開発を中心にモブプロを行いました。 参加メンバーはSREメンバー1名(私)、バックエンドメンバー2〜3名、フロントエンドメンバー1名です。各メンバーはリモートワークしているので、以下のように音声と画面を共有しながら作業します。 SlackのhuddleもしくはGoogle Meetで音声・映像を同期、画面共有 Visual Studio Codeの Live Share でソースコードを共有 コミットに Co-authored-byトレーラー を付けてモブプロ参加者を共同作成者とする モブプロは1回1時間の枠で週2回のペースで実施しています。この後の「改善点」のセクションで触れますが、複数のプロジェクトに参画しているメンバーもいるためなかなか空いている時間が見つけられず、このような時間枠としています。 事前準備 モブプロの事前準備として取り組むテーマとオーナーを決めておきます。実際に「オーナー」と呼ぶことはありませんが、説明のため便宜的にそう呼ぶことにします。オーナーはテーマ、ゴール、具体的にやること、参考資料などを社内ドキュメントツールとして利用するコンフルエンスに簡単にまとめておきます。内容の例を以下に示します。 ## テーマ - ZOZOMETRY管理画面 フロントエンドのCI整備 ## ゴール - ECRリポジトリとIAM Roleが存在すること - GitHub ActionsワークフローでWebサーバーのイメージがビルドされ、ECRリポジトリにpushされていること ## 前回のおさらい - 前回のモブプロまとめページのリンク - 前回作成したプルリクエストのリンク ## やること - ECRリポジトリとIAM Roleの作成 - 作業するGitHubリポジトリ名: xxx - ECRリポジトリの名前: xxx - IAM Role: 既存のIAMRoleXxxを参考にする - GitHub Actionsワークフローの作成 - 作業するGitHubリポジトリ名: xxx - mainブランチへのマージ(push)をトリガーにする - 注意事項 - xxx - yyy - 別リポジトリの参考になるワークフローのリンク このように作業についてまとめておくことで、メンバーには効率的に共有できて認識も揃いやすくなると考えています。あまり時間を確保できない中でメンバーの理解を深めることにおいて、私たちなりの工夫したポイントになります。 モブプロの流れ ここからはモブプロ1回分の流れを説明します。 まず、冒頭の5〜10分でオーナーが先ほど紹介した事前準備のコンフルエンスを使い、今回のテーマ、ゴール、前回のおさらい、今回やることを共有し、参加メンバーの認識を揃えておきます。 このあと40分程度を実装の時間に費やします。一般的なモブプロと同様にタイピストとモブに分かれて作業を進めていきます。その日のゴールによっては慣れていないメンバーがタイピストになるようオーナーが調整することもあります。 最後の5分でふりかえりを行い、良かった点と改善できそうな点をメンバーで話し合います。以上がモブプロ1回分の流れとなります。 モブプロの実施スタイルはチームによって細かい部分が異なるので、社内の他のチームの事例も参考にしてみてください。 techblog.zozo.com モブプロをやってみて モブプロ内でのふりかえりの他に、SREとバックエンド互いの領域に対する習熟度についてのアンケートを実施しました。これらの内容を元にモブプロの効果について述べていきます。 モブプロに参加したメンバーの感想をいくつか紹介します。 互いの守備範囲の技術スタックの理解につながっていると思います Kubernetesの操作やインフラリソースの作成などで出来ることが増えたことが一番のグッドポイントでした! (管理画面の認証における)SSO設計についてみんなで話すのが楽しかったです まず、お互いの領域に対する技術的な理解が増したというような感想が寄せられました。また、以下のアンケート回答結果においてもできることが増えているのが分かります。A-1からB-7までの項目はお互いの領域における作業に対応しており、Aがつくものはバックエンドメンバーに対して、BがつくものはSREメンバーに対する質問です。 2 例えば、「Kubernetesリポジトリでリソースの追加や修正を環境に応じて実施できる」「ローカル環境でAPIサーバーを起動できる」といった質問です。 それから、2つ目の感想を残してくれたバックエンドメンバーは、モブプロ開始後に別のプロジェクトでKubernetesリソースの作成や変更のプルリクエストを出していました。これは、背景・課題の部分で述べた、ちょっとした修正でも依頼して作業待ちになってしまうことへの解消に繋がると考えています。 また、私にとっては不慣れな領域でも参加メンバーの知識を組み合わせながら実装できて達成感を得られましたし、実装中に質問されることで自分自身の理解しきれていない部分が改めて分かり学びになりました。 さらに、このモブプロの様子を聞いた他のメンバーが別の組み合わせでモブプロやモブ作業を実施するようになり、コラボレーションの輪が広がったと感じました。また、障害対応の場面で、互いにシステムの解像度が高まったことやメンバーの得意を知れたことで以前よりも協力できるようになりました。 改善点 概ねうまく実施できていますが、改善したいこともあります。それは、モブプロの時間の長さについてです。現在は1回の枠は1時間で週に2回実施しています。しかし、1回あたりの時間枠が短いことで、あともう少しで実装しきれたのに時間切れ、リズムが出てきて盛り上がってきたところで時間切れ、となることがあります。ですので、今後は1回あたり2時間程度 3 の時間枠を用意できるようにしたいと考えています。 まとめ 本記事ではモブプロを通してチーム間のコラボレーションを促進させた事例を紹介しました。どの組織にもあてはまるものではありませんが、チーム間でコミュニケーションを改善したい、協力体制を築いていきたいと検討している方がいれば、ぜひ参考にしてみてください。今後もモブプロをきっかけとしてメンバーや他のチームとコラボレーションして、ZOZOMETRYを始めとしたサービスを改善していきたいと考えています。 また、この記事以外にもZOZOMETRYに関する記事を連載しておりますので、興味のある方はぜひご覧ください。 techblog.zozo.com techblog.zozo.com techblog.zozo.com ZOZOでは、一緒にサービスを作り上げてくれる方を募集中です。ご興味のある方は、以下のリンクからぜひご応募ください。 corp.zozo.com この記事を書いている2024年9月末時点 ↩ A-4、A-5、B-7の質問はモブプロ実施後に行ったアンケートで追加されたものです。 ↩ 『 モブプログラミング・ベストプラクティス ソフトウェアの品質と生産性をチームで高める 』(2.4モビングインターバル)にはモビングセッションと呼ばれる、人々が1つのグループとしてモビングする継続的な時間は通常数時間に及ぶと書かれています。 ↩
アバター
はじめに こんにちは。計測プラットフォーム開発本部SREの纐纈です。最近はZOZOMETRYという法人向け計測業務効率化サービスの開発・運用に携わっています。今回ZOZOMETRYが正式に公開されることとなったので、合わせてこの記事を書くことになりました。 biz.zozometry.com 現在はパフォーマンスも良好なZOZOMETRYですが、ローンチ当初はパフォーマンスが良くなく、改善のために様々な検証をしました。今回はその経緯と検証内容を中心に、ZOZOMETRYのパフォーマンス改善についてお話ししたいと思います。 一般的にも、Lambdaを使ったサーバーレスアーキテクチャの構築やSQSを使った非同期処理の設計など、参考になる部分があるかもしれません。ぜひ最後までお付き合い頂ければ幸いです。 ZOZOMETRYの機能と構成紹介 まずは、ZOZOMETRYの機能と構成について簡単に紹介します。 ZOZOMETRYは、アプリでスキャンした体型データを元に、様々な体の部位の計測を可能にしています。計測部位に関しては、ユーザーの希望によって任意の組み合わせが可能です。部位の計測は、ZOZOグループの海外子会社が開発するSDKによって行われます。 これまでの計測サービスでは、このSDKをアプリに組み込んで計測していました。しかし、計測したい部位が企業によって異なるため、計測箇所を柔軟に変更できるようにする必要がありました。そのため、アプリで計測して、計測データをサーバーにアップロードし、サーバー側で計算する仕組みを導入しました。以降、このSDKを内包したサーバーのことをSDKサーバーと呼びます。以下、構成の簡略図です。 この図でのAPIサーバーは組織に登録されている計測部位のリストを取得し、計測値計算リクエスト後データベースに保存しています。これを計測値保存APIと呼びます。また、初期段階ではこれらの計測値保存APIやSDKサーバーは、K8s上のPodとして動作していました。SDKサーバーには計測値計算APIからのPod間通信でリクエストが送られる想定でした。 データの流れも補足すると、アプリで計測したデータはS3にアップロードされます。この計測データと前もってS3に格納されている計測箇所ごとのデータを元に、SDKサーバーによってそれぞれの計測箇所ごとの計測値を計算します。その後、その計測値データはデータベースに保存され、APIを通じて取得可能となります。 この構成を取ったことで、選択対象となる計測箇所の追加や更新が容易になり、複数の組織に対して異なる計測部位の提供がしやすくなりました。しかしながら、この構成によって計測値を計算するというサービスのコア機能にパフォーマンスの問題が発生してしまいました。次に、その経緯についてお話しします。 開発段階でのパフォーマンス ZOZOMETRYは正式に公開する以前に、クローズドローンチ期間を設け、いくつかの企業に提供していました。しかし、その限定的ローンチの直前に、パフォーマンスの問題が発覚しました。具体的には、SDKサーバーにかかる負荷がそこまで高くなくても(~10rps)、タイムアウトやクラッシュが発生してしまう状況でした。 なお、SDKサーバーは1つの計測箇所に対して1つのAPIを叩く形になっており、計測された際には、計測箇所数のリクエストが走ることになります。このため、数十箇所の計測箇所を計測したい組織の場合、SDKサーバーに対して一度に数十リクエストが走ることになります。 この仕様によって、少ない計測数でもリクエストが集中しやすくなっており、負荷によるクラッシュが発生しやすい状況でした。この問題を解決するために、SDKサーバーに負荷をかけるリクエストを直列にすることで、一時的な対応をしました。結果として、計測値結果の算出完了までのリードタイムは伸びてしまいましたが、幸いなことにローンチ時点では提供していた企業が少数だったため、これらの企業でのユースケースでは許容される範囲でした。というのも、仕様上スキャンアプリで計測直後に計測値を確認するわけではなく、スキャン後に別途、企業担当者がWebから計測結果を確認するという流れでした。そのため、計測値の保存に時間がかかってもそこまで支障がありませんでした。 しかしながら、今後の展開やクライアント数の増加を考えると、このままでは問題の発生する可能性が高いと判断し、ローンチ後に本格的なパフォーマンス改善をすることにしました。 ローンチ前の緩和策 計測値保存APIのLambda化とSQSの導入 ローンチ前の緩和策について、まずは紹介します。SDKサーバーが負荷に対して不安定かつ遅延も大きいという問題から、ひとまず同期的にリクエストを処理するのではなく、呼び出し元の計測値保存APIをLambdaに切り替えました。これには、SDKサーバーとの通信で起こるスレッドの占有によって、APIサーバーの他APIに影響を出さないという意図もありました。また、S3のイベントトリガーを使って、S3にアップロードされた計測データをトリガーにしてLambdaを起動し、SDKサーバーにリクエストを送るようにしました。さらに、失敗時の再処理をかけやすくできるように、SQSを挟みました。 この変更によって、スキャン後の計測値計算が非同期で行われることになったので、待ち時間がなくなり、計測体験も向上しました。また、Lambdaの同時実行数を設定することでSDKサーバーの最大負荷も調整できるようになりました。さらに、SQSを挟むことでリトライやDLQの設定が容易になり、計測処理が失敗した場合でも、再処理が可能になりました。 これによってSDKサーバーが安定稼働はするものの、計測箇所の数に応じて直列にSDKサーバーへリクエストを送るので、計測箇所の処理が終わるまでに2〜3分はかかるようになってしまいました。また、スループットに関しても30分の間に30件の計測を処理するのがやっとという状態でした。 スループットが低い理由としては、コストを抑えるためSDKサーバーのPodの台数が少なかったこともあります。HPAを設定していたものの、Podの起動に時間がかかるため、リクエストが集中するとPodの起動が追いつかず、再実行が必要になることがありました。 項目 値 計測値保存Lambdaのバッチ処理時間 120~180s 30分で処理可能な計測数 30 LambdaのSnapStart有効化 さらに、LambdaのSnapStartを有効化することで、Lambdaの起動時間を短縮しました。SnapStartは、Lambdaのコンテナを再利用することで、Lambdaの起動時間を短縮する機能です。SnapStartを有効化することで、Lambdaの起動時間が若干ではありますが短縮され、SDKサーバーへのリクエストが早く処理されるようになりました。 項目   値 計測値保存Lambdaのバッチ処理時間 90~180s 30分で処理可能な計測数 50~60 この時点で、1件の計測では1.5〜3分、50件の計測を処理するのに25分要する状態でした。ただし、失敗した場合でも自動でLambdaによって計測の再実行が可能になりました。それだけではなく、一定数リトライが失敗した場合でもSQSのDLQにメッセージが移動するように設定していたため、その失敗した計測を検知して再実行できるようになりました。 立て直し ここからは、このSDKサーバーの安定性とパフォーマンス改善のために行ったことを紹介します。 ローンチ後の改善 SDKサーバーのLambda化 ローンチ後の改善施策として、まずはSDKサーバーのLambda化を行いました。SDKサーバーの処理をLambdaに切り出すことで、SDKに負荷がかかってクラッシュすることを防ぎ、計測値計算APIの安定稼働を実現しました。なお、この時点ではまだ計測値の並列計算はしていない状態です。 この時点でのパフォーマンスは以下のとおりです。 項目 値 計測値保存Lambdaのバッチ処理時間 90~180s 30分で処理可能な計測数 165 設定値の調整 また、各種インフラの設定値も調整しました。例えば、Lambdaの同時実行数やタイムアウト時間、SQSのバッチサイズやリトライ回数など、パフォーマンスに影響を与える設定値を調整し、最適な値を探りました。 Lambda 同時実行数 Lambdaの同時実行数は、ReservedConcurrentExecutionsという設定値で制御されます。この値を調整することで、Lambdaの同時実行数をクォータ内で確保また制限できます。ただし、この数はアカウント全体で共有されているため、他のLambdaに影響する可能性があります。 また、Lambda化したSDKサーバーを並列で呼び出すため、計測値保存Lambdaの同時実行数と組織で登録可能な計測箇所数の乗数までは、Lambdaの起動数が増えます。そのため、この最大値がクォータに引っかからないように設定する、もしくは事前にクォータ(デフォルトでは1000)の引き上げ申請をする必要があります。 こちらに関しては、現段階では、同時に計測されるようなケースは少ないため、計測値保存Lambdaの同時実行数は小さい値で十分でした。ただし、このLambdaの起動数がクォータに引っかからないように、クォータの割合に応じた監視を入れており、引き上げのタイミングがわかるようにしています。 docs.aws.amazon.com タイムアウト時間 Lambdaのタイムアウト時間は、1リクエストの処理時間x SQSのバッチサイズに余裕を持たせた値を設定する必要があります。これは、最大SQSのバッチサイズ分のメッセージ数が1つのLambdaで処理されるためです。 また、SQSのメッセージ再送信までの時間もこのタイムアウト時間よりも長い値に設定する必要があります。これによって、Lambdaの処理がタイムアウトすることなく、正常に処理を終えることができます。 docs.aws.amazon.com SQS バッチサイズ SQSのバッチサイズは、1つのLambdaで処理させるメッセージの量を制御する設定値です。この値を大きくすると、Lambdaのタイムアウトに引っかかりやすくなります。逆に、小さくすると、Lambdaの並列数が上がり、キューの中で待ちになるメッセージが増えます。 docs.aws.amazon.com リトライ回数 SQSのリトライ回数は、Lambdaへ再送信する回数を制御する設定値です。この値を大きくすると、再実行の試行回数が増えるため、DLQでの検知が遅れます。逆に、小さくすると、リトライによって成功した可能性のあるメッセージもDLQに入れられてしまう可能性が高くなります。 こちらは今回の検証項目には含まれていませんが、参考までに記載しておきます。 docs.aws.amazon.com これらの設定値を調整した際のパフォーマンスは以下のようになりました。 検証した組み合わせは以下の通りです。 パターン1 Lambdaタイムアウト:180s SQSバッチサイズ:10 Lambda同時実行数:10 パターン2 Lambdaタイムアウト:300s SQSバッチサイズ:10 Lambda同時実行数:10 パターン3 Lambdaタイムアウト:300s SQSバッチサイズ:4 Lambda同時実行数:10 パターン4 Lambdaタイムアウト:300s SQSバッチサイズ:4 Lambda同時実行数:20 パターン 1 2 3 4 計測値保存Lambdaのバッチ処理時間 60~180s 60~300s 60~300s 60~300s 30分で処理可能な計測数 165 200 200 500 SQSメッセージの再送信数 3 3 2 2 計測値の並列計算の導入 最後に、計測値計算の並列処理を導入しました。これによって、複数の計測箇所を同時に計算できるようになり、計測値の計算処理が高速化されました。具体的には、計測値保存Lambdaのコードを改修し、複数の計測箇所を並行してリクエストするようにしました。これによって、すべてのメッセージを再送信することなく捌き切ることができるようになりました。 項目 値 計測値保存Lambdaのバッチ処理時間 ~60s 30分で処理可能な計測数 850 SQSメッセージの再送信数 0 結果 これらの構成変更や設定の調整によって、現在は計測値の計算処理は5秒程度、3分以内に最低でも160件は捌けるようになりました。SDKサーバーのクラッシュの懸念もなくなり、計測値の計算処理も安定しています。また、スケールアウトも容易になり、今後のクライアント数の増加にも対応しやすくなりました。 項目 改善前 改善後 計測1件あたりの処理時間 120~180s 5~10s 30分で処理可能な計測数 30 850 余談 さて、これらのパフォーマンス改善ですが、実はこれらを改善する前までビジネス的な優先度が低いとされていました。なぜなら、ローンチ直後には、クライアントからのフィードバックも特になく、負荷試験の結果から見ても先1年はビジネスチームからも問題がないとされていたからです。 とはいえ、以前のままでは将来的に問題の発生する可能性が高く、SREとしては喫緊のタスクがなかったこともあり、機能開発の裏でパフォーマンス検証を進めていきました。その後、検証結果を提示することで改善の効果とその工数を確認してもらいました。その結果、ビジネスチームからの期待値が上がり、本格的なパフォーマンス改善を進めることができました。コストに関しても、イベント駆動型の設計に切り替えたことで、インフラコストを抑えることができました。 学んだこと 最後に、今回のパフォーマンス改善を通じて学んだことをまとめます。 もちろん、パフォーマンスがあまり優れないAPIをLambdaに載せ替え、並列化することでレイテンシや安定性を向上させることができたのは、あまり新鮮ではなかったかもしれません。しかし、今回の改善を通じて、以下のようなことを学びました。 不確定要素が多い機能の実装は早めに設計を済ませる 今回、この計測値計算の機能はローンチ間際まで設計が進んでいませんでした。そのため、ローンチ後にパフォーマンスの問題が発生し、改善に時間がかかってしまいました。SDKの仕様や計測値計算の仕組みを早い段階で把握していれば、より適切なインフラ設計をできたと思います。 PoC段階でパフォーマンス試験を実施する 今回の計測値を計算する機能ですが、PoC段階では複数企業に対応したものではなく、単一企業を想定した実装となっていました。そのため、複数の企業に対応した際のパフォーマンスの問題がローンチ間際に発生しました。PoC段階で複数企業に対応したパフォーマンス試験を取り入れていれば、この問題を事前に発見し、改善できたかもしれません。 コミュニケーションコストが高い開発では、早い段階で認識を合わせる 今回のSDKの改善に取り組みづらかった理由として、SDKの開発をZOZOグループの海外子会社であるZOZO NEW ZEALANDが担っていたことが挙げられます。そのため、SDKの仕組みやコードの詳細を把握しきれていませんでしたが、SDKの仕組みを理解していれば、改善のアプローチも取りやすかったかもしれません。実装する上でボトルネックになりそうな箇所がある場合、早い段階で認識を合わせることが重要であると感じました。 終わりに 今回は、ZOZOMETRYのパフォーマンス改善についてお話ししました。ローンチ直後は問題があったものの、今では安定して計測値の処理も行えるようになりました。今後も引き続き、ZOZOMETRYの改善に取り組んでいきます。 また、この記事以外にもZOZOMETRYに関する記事を連載しておりますので、興味のある方はぜひご覧ください。 techblog.zozo.com techblog.zozo.com techblog.zozo.com ZOZOでは、一緒にサービスを作り上げてくれる方を募集中です。ご興味のある方は、以下のリンクからぜひご応募ください。 corp.zozo.com
アバター