TECH PLAY

株式会社ZOZO

株式会社ZOZO の技術ブログ

987

DevRelブロック改めDeveloper Engagementブロックの @ikkou です。ZOZO開発組織の1か月の動向をMonthly Tech Reportとしてお伝えします。 ZOZO TECH BLOG 2024年10月度は11本の記事を公開しました。10月度は 10月15日に正式ローンチを迎えたZOZOMETRY の関連記事を集中的に4本公開しています。11月中にもう1本ZOZOMETRY関連記事を公開する予定です。 techblog.zozo.com techblog.zozo.com techblog.zozo.com techblog.zozo.com 登壇 ZOZO Tech Meetup ~データガバナンス / データマネジメント~ 10月22日に自社主催のオフラインイベントとして『 ZOZO Tech Meetup ~データガバナンス / データマネジメント~ 』を開催し、データシステム部と事業推進部に所属する計5名が登壇しました。 techblog.zozo.com 本イベントはオフライン限定としてオンライン配信は実施しませんでした。イベントレポートには当日の様子とともに全登壇者の登壇資料を掲載しています。特にデータガバナンスやデータマネジメントに興味や課題をお持ちの方はぜひご覧ください。 エンジニアのキャリアランチ - スタッフエンジニア編 by Forkwell 10月24日に開催された『 エンジニアのキャリアランチ - スタッフエンジニア編 by Forkwell 』に技術戦略部の堀江( @Horie1024 )が登壇しました。 現在配信中📡『エンジニアのキャリアランチ - スタッフエンジニア編 by Forkwell』に技術本部 テックリードの堀江 @Horie1024 が登壇しています🎙️ ランチにあわせてぜひご視聴ください! https://t.co/4OEeocEyR6 #Forkwell_キャリアランチ — ZOZO Developers (@zozotech) 2024年10月24日 Forkwellのアカウントをお持ちの方はアーカイブを視聴できます。ぜひご覧ください。 AIレコメンドシステムの最前線を語る 10月28日に開催されたオンラインイベント『 AIレコメンドシステムの最前線を語る 』にデータシステム部の寺崎( @f6wbl6 )が登壇しました。登壇資料を公開しているので、当日の配信を見逃した方はぜひご覧ください。 本日12-13時にオンラインで開催される『AIレコメンドシステムの最前線を語る』に推薦基盤ブロック長 兼 推薦研究ブロック長の寺崎 @f6wbl6 が『ZOZOTOWNでの推薦システム活用事例の紹介』というタイトルで登壇します🎙️ ランチにあわせてお気軽にご視聴ください! https://t.co/1KXbIvYvMI #gen_ai_conf — ZOZO Developers (@zozotech) 2024年10月28日 speakerdeck.com Recommendation Industry Talks #4 10月30日に開催されたオフラインイベント『 Recommendation Industry Talks #4 』にデータシステム部の寺崎( @f6wbl6 )が登壇しました。登壇資料を公開しているので、当日参加できなかった方はぜひご覧ください。 【満員御礼】今夜ウォンテッドリー株式会社様で開催される『Recommendation Industry Talks #4』に推薦基盤ブロック 兼 推薦研究ブロックの寺崎 @f6wbl6 が『ZOZOTOWN のホーム画面をパーソナライズすることの難しさと裏話を語る』というタイトルで登壇します🎙️ https://t.co/CMeETydq5x #RecIndTalks — ZOZO Developers (@zozotech) 2024年10月30日 speakerdeck.com 掲載 Software Design 2024年11月号 ZOZOTOWNリプレイスプロジェクトについて全8回で連載中の「 Software Design 2024年11月号 」が10月18日に発売されました。第7回のテーマは「検索機能リプレイスの裏側」です。ぜひご覧ください。 ZOZOTOWNリプレイスプロジェクトについて連載中の「Software Design 2024年11月号」が本日10月18日(金)に発売されました! 第7回のテーマは「検索機能リプレイスの裏側」です。今回もぜひお楽しみください! #zozo_engineer https://t.co/BUG17iWT19 — ZOZO Developers (@zozotech) 2024年10月18日 第6回までの連載は全文を公開しています 。あわせてご覧ください。 Software Design総集編【2018~2023】 10月12日に発売された『 Software Design総集編【2018~2023】 』に、データシステム部の塩崎が『 Software Design 2021年9月号 』に寄稿した記事『BigQueryによるデータ基盤構築の舞台裏 失敗から学んだ健全な運用とは』が掲載されています。 『Software Design総集編【2018~2023】』は本日(10月12日)発売です! 付属のDVD-ROMおよび同梱の電子版ダウンロードコードから、6年分のバックナンバーPDFを入手できます。 ITの基礎情報のほか、多くのITエンジニアやIT現場の知見の宝庫です。ぜひお手元に1冊置いておいてください。… pic.twitter.com/9mOnn9V1hm — SoftwareDesign (@gihyosd) 2024年10月12日 エンジニアtype 手前味噌ですが、私がエンジニアtypeさんから取材を受けた記事『 「DevRelの目的は、採用ではなくブランディング」ZOZOのDevRelが目指すのは、業界への恩返し 』が10月30日に公開されました。 type.jp ZOZOにおけるDevRelや技術広報の考え方について語っています。技術情報の発信については過去にZOZO DEVELOPERS BLOGやマイナビニュースのTECH+(テックプラス)にも掲載されています。あわせてご覧ください。 technote.zozo.com news.mynavi.jp その他 2026年度エンジニア新卒採用本選考の応募受付開始 10月1日よりエンジニア新卒採用本選考の応募受付を開始しました。あわせてYouTubeに『 2026年度エンジニア向け新卒会社説明動画 』も公開しています。ご応募をお待ちしています! \応募受付開始!2026年度エンジニア職 新卒採用🔥/ 本日よりエンジニア新卒採用本選考の応募受付が開始🤝❤️‍🔥 面接以外にもパネルトークや希望エンジニアとのコーヒーチャットなど幅広いコンテンツを通して、会社理解を深めながら選考を進めることができます☕ みなさまのご応募をお待ちしています! pic.twitter.com/LPuw7TvtRU — ZOZO Developers (@zozotech) 2024年10月1日 www.youtube.com Findy Team+ Award 2024 受賞 ZOZOは開発生産性が優れたエンジニア企業を称える式典『 Findy Team+ Award 2024 』にてTeam AwardのSequential Approach Div.部門で受賞いたしました。 ZOZOは『Findy Team+ Award 2024』にてTeam AwardのSequential Approach Div.部門で受賞いたしました! 開発生産性が優れたエンジニア組織を表彰「Findy Team+ Award 2024」〜約450社・20,000チームから、多様な観点で優れた48社を選出〜 https://t.co/HvdqEoyz6k #FindyTeamAward — ZOZO Developers (@zozotech) 2024年10月31日 表彰式にはデータシステム部の寺崎( @f6wbl6 )が出席しました。 Team Award〜Sequential Approach Division〜受賞企業様です!👏 #FindyTeamAward pic.twitter.com/FClN5QguHr — Findy Team+ファインディ【公式】 (@FindyTeamPlus) 2024年10月31日 現場からは以上です! ZOZOでは、一緒にサービスを作り上げてくれる方を募集中です。ご興味のある方は、以下のリンクからぜひご応募ください。 corp.zozo.com
はじめに こんにちは、WEARフロントエンド部Androidブロックの酒井柊輔です。普段はファッションコーディネートアプリWEARのAndroidアプリを開発しています。 WEARアプリは2024年5月に大規模なリニューアルをしました。そのため新たに多くの画面やUIを開発する必要がありました。しかしWEARアプリはビルド時間が長く、少しの変更を確認するだけでも数分かかるため、新規のUIの作成やUIの変更と確認に多大な時間を要していました。 このような課題を弊チームでは、UIの開発と確認をするための、ビルド時間の短い簡易アプリを作成することで解決しました。本投稿ではそのUI確認用簡易アプリを用いた課題解決アプローチの詳細と、その成果についてご紹介します。 目次 はじめに 目次 WEARプロジェクトのモジュール構成 ビルド時間が大幅にかかるという課題 解決への取り組み 具体的なアプローチ 作成したUI開発用アプリの概要 各開発者専用のUI確認用モジュールの構成 UiApplication UiActivity UiFragment build.gradle UI開発用アプリで得られた成果 依存モジュールの制限によるビルド時間の短縮 既存画面やUI共通部品を利用できる 各開発者が独自の環境を運用できる おわりに WEARプロジェクトのモジュール構成 弊チームでは現在マルチモジュール化を進めており、以下の図のようなモジュール構成(イメージ)で当時は開発をしていました。 ├── Project │ ├── :app │ ├── :feature │ │ ├── :home │ │ │ ├── HomeFragment │ │ │ ├── HomeFragmentViewModel │ │ │ └── HomeScreen │ │ ├── :search │ │ │ ├── SearchFragment │ │ │ ├── SearchFragmentViewModel │ │ │ └── SearchScreen │ │ └── :mypage │ │ ├── MyPageFragment │ │ ├── MyPageFragmentViewModel │ │ └── MyPageScreen │ ├── :core │ │ └── :ui │ │ ├── CommonButton.kt │ │ ├── CommonCard.kt │ │ └── etc... │ ├── :infrastructure │ └── :domain :app :元々利用していたモジュール。各モジュールに分割しきれていないファイル群(navigation関連ファイル、ネットワークアクセス関連ファイル等)が格納されている :feature :アプリの画面や機能毎に分割されたモジュール群 :home , :search , :mypage :各画面に関連するファイル群を格納するモジュール :core :アプリ共通のファイルを格納するモジュール群 :ui :UI共通部品を格納するモジュール :infrastructure :ネットワークアクセスロジックがまとめられているモジュール群 :domain :ビジネスロジックや共通のモデルがまとめられているモジュール群 ビルド時間が大幅にかかるという課題 些細な変更を確認するにも、多大なビルド時間を要することが課題でした。 当時はWEARの大規模リニューアル開発の真っ最中だったので、多くの新たなUIをJetpack Composeで作成する必要がありました。しかしアプリの長いビルド時間によって、作成したUIの確認と修正のサイクルを効率よく回せず、開発が滞ってしまう問題を抱えていました。 解決への取り組み ビルドが遅い原因を調査したところ、モジュール分割しきれていないファイル群が入っている:appのビルドに大幅な時間を要していることが分かりました。 幸い、UIに関するファイルはほとんど:appから別モジュールへ分割できている状態でした。そのため弊チームでは課題を、 :appをはじめとする不要なモジュールを抜いた、必要最低限の依存関係を持つ簡易アプリを、UI開発用に作ることで解決しました。 具体的なアプローチ 作成したUI開発用アプリの概要 UI開発用アプリの開発環境として、Project配下にui-appというディレクトリを作成しました。ui-appの中には各開発者のUI確認用モジュールが格納されています。 ├── Project │ ├── ui-app │ │ ├── :developer1 │ │ ├── :developer2 │ │ └── :developer3 │ ├── :app │ ├── :feature │ │ ├── :home │ │ │ ├── HomeFragment │ │ │ ├── HomeFragmentViewModel │ │ │ └── HomeScreen │ │ ├── :search │ │ │ ├── SearchFragment │ │ │ ├── SearchFragmentViewModel │ │ │ └── SearchScreen │ │ └── :mypage │ │ ├── MyPageFragment │ │ ├── MyPageFragmentViewModel │ │ └── MyPageScreen │ ├── :core │ │ └── :ui │ │ ├── CommonButton.kt │ │ ├── CommonCard.kt │ │ └── etc... │ ├── :infrastructure │ └── :domain 各開発者専用のUI確認用モジュールの構成 各開発者のモジュールの構成は以下のようにしました。 ├── :developer1 │ ├── src │ │ └── main │ │ ├── java │ │ │ └── com.xxx │ │ │ ├── UiApplication │ │ │ ├── UiActivity │ │ │ └── UiFragment │ │ └── res │ │ ├── mipmap-xxhdpi │ │ │ └── ic_launcher.webp │ │ └── AndroidManifest.xml │ ├── .gitignore │ └── build.gradle.kts UiApplication Applicationです。最小構成での実装です。 class UiApplication : Application() { override fun onCreate() { super .onCreate() // サードパーティライブラリの初期化処理等 } } UiActivity Activityです。replaceメソッドの第二引数に任意のFragmentを渡すことで、好きな画面を表示できるようにしています。 class UiActivity : FragmentActivity() { override fun onCreate(savedInstanceState: Bundle?) { super .onCreate(savedInstanceState) val containerId by lazy { View.generateViewId() } setContent { AndroidView( factory = { context -> FragmentContainerView(context).apply { id = containerId } }, update = { supportFragmentManager.commit { replace(containerId, UiFragment()) } }, ) } } } 例えば:feature:homeをこのモジュールでimplementしていたとしたら、 replace(containerId, HomeFragment()) とすればホーム画面を表示できます。 UiFragment Fragmentです。主にJetpack Composeで作成したUIを確認する用途で利用していました。 単純にsetContent内に作成したUI配置し、端末上で表示して確認することを行なっていました。例えば:core:uiをこのモジュールでimplementしていたとしたら、作成したUI共通部品をsetContent内から参照し確認できます。 class UiFragment : Fragment() { override fun onCreateView( inflater: LayoutInflater, container: ViewGroup?, savedInstanceState: Bundle?, ): View = ComposeView(requireContext()).apply { setViewCompositionStrategy( ViewCompositionStrategy.DisposeOnLifecycleDestroyed(viewLifecycleOwner), ) setContent { Surface( modifier = Modifier.fillMaxSize(), ) { // 作成したComposeのUI CommonButton() } } } } build.gradle UI開発用アプリモジュールのbuild.gradleです。 plugins { apply( "com.android.application" ) apply( "org.jetbrains.kotlin.android" ) apply( "org.jetbrains.kotlin.plugin.compose" ) } android { // 既存プロジェクトの設定と同じものを記述 } dependencies { // UI確認に最低限必要な依存関係 implementation xxx implementation yyy implementation zzz // 後から各開発者が必要に応じて追加する依存関係 implementation project( ":feature:home" ) implementation project( ":feature:search" ) implementation project( ":feature:mypage" ) implementation project( ":core:ui" ) } pluginsにはモジュールのビルドに必要な com.android.application と、Kotlinを扱うのに必要な2つのプラグインを記述しました。 dependenciesには最低限必要な依存関係のみ予め記述しておき、その他の依存関係は各開発者が必要に応じて自身のモジュールのbuild.gradleに記述する運用としました。 WEARでは、:feature:homeや:core:ui等のUI開発に必要な依存関係のみをimplementすることで、ビルド時間のかかる不要な依存関係(:app等)を省いたアプリを実現しました。 UI開発用アプリで得られた成果 このようなアプリを作成することで、以下のような成果を得られました。 依存モジュールの制限によるビルド時間の短縮 既存画面やUI共通部品を利用できる 各開発者が独自の環境を運用できる 依存モジュールの制限によるビルド時間の短縮 ビルド時間が5〜10分かかっていたのを10秒程度に短縮でき、チームの開発効率が上がりました。 また、UI作成のトライアンドエラーのサイクルを回しやすくなったので、Android開発にまだ慣れていないチームメンバーの技術キャッチアップの手助けにもなりました。 既存画面やUI共通部品を利用できる 別Projectではなく同Project内にUI開発用アプリを作ることで、既存画面に新規作成UIを組み込みながら開発できたり、アプリ内で利用されるUI共通部品を利用した開発も行えたりしました。 WEARでの事例だと、:feature:homeをimplementして既存のホーム画面を利用した開発をしたり、:core:uiをimplementして共通UI部品を利用した開発をしたりしました。 各開発者が独自の環境を運用できる developer1, developer2のように、各開発者のモジュールを作成することによって各々が独自のUI開発用アプリの環境を作ることができました。 WEARチームではこれらの各開発者のモジュールを、他のコードと同様にGitで管理していました。そのため作成したUIを確認できるようなコードを開発者専用のモジュールに記述しておけば、レビューする人がPR確認時にそのモジュールを手元でビルドしUIを確認することにも利用できました。 おわりに 本記事では、ビルド時間の短いUI開発用アプリの作成方法とその運用方法、得られた成果をご紹介しました。 UIに関するファイルのモジュール分割が既にできていれば、どの開発現場でも適用できる事例であると思います。もし同様の問題を抱えていれば、アプリの作成を検討してみてはいかがでしょうか。 ZOZOでは、一緒にサービスを作り上げてくれる方を募集中です。ご興味のある方は、以下のリンクからぜひご応募ください。 corp.zozo.com
はじめに 技術評論社様より発刊されている Software Design の2024年5月号より「レガシーシステム攻略のプロセス」と題した全8回の連載が始まりました。 3年前に行われたZOZOTOWNの大規模なリニューアルを行う際、リプレイスプロジェクトと関連する課題を解決するためにBFF(Backends For Frontends)の導入が行われました。今回は、その経緯と効果を紹介します。 目次 はじめに 目次 はじめに ZOZOTOWNの課題とBFFによる解決 通信量の増大 パーソナライズ機能の追加 BFFによる解決 アーキテクチャの説明 BFFをマイクロサービスとして構築 BFF構成にて見えてきた課題 キャッシュの導入 Redisをキャッシュに使う キャッシュを導入したことによる新たな問題 キャッシュスタンピードの対策 サービスの可用性 BFFは可用性が大事 各マイクロサービスに依存しないしくみ 運用時に見つけた課題 サーキットブレーカーの導入 意図しているエラー条件 BFFにおける障害試験の重要性 BFFのこれまでとこれから おわりに はじめに こんにちは。株式会社ZOZO技術本部SRE部の三神と技術本部ECプラットフォーム部の藤本です。ZOZOTOWNでは約3年前に大規模なリニューアルを実施し、BFF(Backends For Frontends)を導入しました。第6回ではBFFの導入に至った経緯やそのしくみ、そして導入後にどのような変化があったのかについて紹介します。 ZOZOTOWNの課題とBFFによる解決 2021年3月に実施したZOZOTOWNの大規模リニューアルの一環として、BFFを導入するという判断をしました。BFFはアーキテクチャ設計パターンのひとつで、クライアントからのリクエストを一元管理し、フロントエンドとバックエンドの間で双方の複雑さを吸収して処理を効率化するためのものです。BFF導入の背景には、ZOZOTOWNリプレイスプロジェクトやリニューアル時にやりたかったことに関連して、いくつか解決したい課題がありました。その中でもとくに大きなものとして次の2つがありました。 通信量の増大 1つ目はクライアントからの通信量の増大です。連載第1回(本誌2024年5月号)でお伝えしているとおり、ZOZOTOWNリプレイスプロジェクトでは、VBScriptのモノリスなアプリケーションからGoやJavaを使ったマイクロサービスへ移行を進めていました。これまでのモノリスなアプリケーションとして動いていたところからマイクロサービスへ機能を切り出していくと、内部の機能の呼び出しだったところが各マイクロサービスに対しての通信へ置き換わることとなります。 このマイクロサービスの呼び出しに伴う通信を、そのままブラウザやスマートフォンアプリといったクライアントから直接行おうとすると、サーバとの通信回数が何倍にも増えてしまいます。もし1回のサーバとの通信で必要な情報が集められない場合は、複数回同じサーバに通信する必要が出てきてしまいます。とくにスマートフォンの場合は、通信回数が増えることで電池の消費も増えてしまうのでより大きな問題となります。 パーソナライズ機能の追加 課題の2つ目は、ユーザーの性別や年齢、お気に入り情報などからコンテンツの内容を変化させるパーソナライズ機能の追加です。ZOZOTOWNを訪れるユーザーの興味や関心はさまざまなので、それぞれのユーザーの好みに合わせたコンテンツを表示することで、より便利に使ってもらえることを目指しています。 リニューアル時のパーソナライズ機能の追加には、表示する条件の変更が柔軟に行えるようにしくみを整えることも含まれていました。日常的なサービスの運営として、パーソナライズ機能で表示するコンテンツの種類や数を、キャンペーンやセール、季節などに合わせて調整できるようにする計画だったため、処理をクライアント側に実装するわけにはいきませんでした。もしクライアント側に実装すると、変更のたびにリリースが必要になってしまい、柔軟な変更という部分が損なわれてしまいます。こちらも1つ目の課題と同様に、パーソナライズの条件の変更のたびにスマートフォンのアプリをアップデートするのは現実的ではないので、避けなければなりませんでした。 BFFによる解決 1つ目の課題は、クライアントと各マイクロサービスの間にZOZO Aggregation APIというBFFを配置して、通信量を抑えることで解決しました(図1)。クライアントへのレスポンスも、重複した内容を削りながら必要としている情報を整理してレスポンスできるようになっています。また今後さらに必要なマイクロサービスが増えたとしても、ZOZO Aggregation API内でレスポンスを1つにまとめられるので、クライアント側の通信に大きな影響を与えずに済みます。もちろん表示するコンテンツを増やした場合はレスポンスのサイズも増えますが、クライアントの通信回数を増やした場合よりも抑えられると考えています。 図1 クライアントとマイクロサービスの間にZOZO Aggregation APIを配置 そして2つ目の課題は、サービスを「表示するコンテンツを選択するサービス(推薦サービス)」と「コンテンツの中身を提供するサービス」に分けて、ZOZO Aggregation APIからそれぞれのサービスを順に呼び出すことで解決しました。推薦サービスを独立させることによってクライアントの中に処理を持たせないという仕様はクリアできました。しかし、各サービスをクライアントから直接呼び出してしまうと通信量の増大という課題が残ってしまうことになるので、リニューアルのタイミングでBFFを入れる判断をしました。追加したパーソナライズ機能は、ユーザーごとに表示するコンテンツの種類や数の調整を推薦サービスが行い、その結果をもとにZOZO Aggregation APIがコンテンツに必要な情報を各マイクロサービスから集めて、最後にクライアントが必要としている形に整形してレスポンスする流れになっています(図2)。表示するコンテンツを変更したい場合も、ZOZO Aggregation APIと推薦サービスの間で調整すればよく、クライアント側が意識する必要はほぼなくなっています。 図2 ZOZO Aggregation APIによるパーソナライズ機能の実現 アーキテクチャの説明 BFFをマイクロサービスとして構築 ZOZOTOWNではAPIゲートウェイパターンのアーキテクチャを採用しており、認証認可やカナリアリリース機能を備える高機能なZOZO API Gatewayを内製しています。このZOZO API Gatewayを軸にZOZOTOWNのシステムは構成されています。 そこで、ZOZOTOWNトップページの表示内容を生成するAPIとしてZOZO Aggregation APIをZOZO API Gateway配下の1マイクロサービスとして設置し、リクエストもZOZO API Gatewayを経由してルーティングする形で構築しました。 BFF構成にて見えてきた課題 ZOZO Aggregation API導入後のシステム要件を整理する中で、各マイクロサービスの最大負荷が設計当初の想定以上に高いことが判明しました。 リニューアル後のトップページでは、ZOZOTOWNを利用する各ユーザーに対して趣味、嗜好に合わせた魅力的な商品をリーチするために今まで以上に多くのデータを使ってパーソナライズを行っています。そのため各マイクロサービスへのリクエストがリニューアル前に比べて格段に増加していました。それに加えて「ZOZOWEEK」等の大規模セール時は通常時と比較して圧倒的にユニークユーザー数が多くなるので、スパイクを考慮すると各マイクロサービスへのリクエストがリニューアル前の数倍以上になる可能性が出てきました。 リニューアル後の大規模セール時に発生するスパイクをシミュレーションすると、既存の各マイクロサービス構成では負荷に耐えられないことがわかりました。各マイクロサービスが耐えきれずレスポンスが遅延して、ZOZO Aggregation APIのレスポンスも遅延すると、トップページ生成時間が長くなるのでZOZOTOWNでの体験を著しく損なってしまいます。 キャッシュの導入 この問題の対策として、各マイクロサービスの増設、もしくはキャッシュの導入を検討しました。前者の増設による対策の場合、すべてのマイクロサービスをイベントごとに増設する必要があり、そのための工数や維持費用が膨れ上がり現実的な解決策とは言えませんでした。そこで、後者のキャッシュによる解決策を中心に検討を進めていきました。 レスポンスの遅延はトップページにおけるアクセス増が原因なので、AkamaiやFastlyといったCDNを用いたキャッシュによる負荷軽減策を模索しました。しかし、パーソナライズを実現するにあたり、多種多様なデータの組み合わせを想定しているため、ユーザーごとに表示される内容に差異が多くなる仕様になっていました。したがって、ZOZO Aggregation APIにて集約した後のページをキャッシュするCDNのような方式は負荷対策として効果的ではありませんでした。 Redisをキャッシュに使う そこで、トップページ生成に必要なデータを細かくキャッシュする方式を検討しました。ZOZO Aggregation APIではパーソナライズ条件に基づいて取得したデータをモジュール(部品)として扱っており、モジュールを組み合わせてトップページを生成しています。モジュール単位であれば、同一条件下でのレスポンスデータ生成においてキャッシュが利用できます。そのため、必要なリクエストをすべてマイクロサービスへ送るのではなく、マイクロサービスから取得したデータをモジュール単位でキャッシュするシステム構成に変更しました。 具体的には、マイクロサービスへ接続するときのURLとパラメーターをキーに、マイクロサービスから実際に取得できるレスポンスを値としてAmazon ElastiCache(Redis)に保存できるようにZOZO Aggregation APIを改修しました(図3)。マイクロサービスにリクエストを送る代わりにRedisからキャッシュを取得することで、直接リクエストする回数を減らして負荷の軽減を図る目的です。 図3 モジュール単位のキャッシュ これにより、もう一度同じ条件のモジュールを取得する場合は先にRedisを参照することで、マイクロサービスに接続する回数を減らせました。キャッシュを導入した効果はすばらしく、インフラの増強を最小限に抑えることができました。 キャッシュを導入したことによる新たな問題 キャッシュを使うことでコストの問題は解決できましたが、ZOZOTOWNの商品情報は随時更新されていくので、いつまでも同じキャッシュを使い続けることはできません。ZOZOTOWNでは毎日午前0時にクーポンを切り替えているため、少なくとも1日に1回はキャッシュに保存した商品情報を更新する必要があります。実際はクーポンの切り替え以外でも、価格や説明など商品の情報は1日に複数回更新される場合があります。 一般的に、キャッシュを保存するときは有効期限を設けて、期限が来たら自然に消えていくように設計することが多いと思います。この場合、キャッシュの有効期限が切れたタイミングで、瞬間的にマイクロサービスへリクエストが殺到することになります(図4)。せっかく負荷を減らしたにもかかわらず、マイクロサービスへの負荷が一気に増大してしまうということです。この現象は一般的にCache Stampede(キャッシュスタンピード)、Dog piling(ドッグパイル)などの名称で呼ばれています。本記事では当時社内で利用していたキャッシュスタンピードの名称を使用します。 図4 キャッシュが参照できないときにマイクロサービスヘリクエストが殺到する キャッシュスタンピードの対策 キャッシュスタンピードを防ぐ代表的な方法は3つあります。 次の有効期限に参照するキャッシュを事前に作る 有効期限が切れる前に延長する ロックを使って1プロセスだけオリジンから取得する 当時は未来の商品公開情報を生成するしくみが存在していなかったため、1の方法は採用できませんでした。また2の方法は、キャッシュ有効期限は延長されるものの保存している内容がそのまま残るため、商品情報を更新したいという要件には合いませんでした。結果として、残った3の方法を選択しました。 ZOZO Aggregation APIはKubernetes上で動作しているので、単純にアプリケーション内部でロックを取得しただけではほかのPodとはロックを共有できません。そのため、RedisのSETコマンドにNXオプションを付与して、Redis上でロックを取得することにしました。 NXオプションはキーが存在しない場合のみ値を設定して、キーが存在する場合は何もせず失敗します。ロックを取得できた場合はオリジンから商品情報を取得してキャッシュの更新処理を行い、ロックを取得できなかった場合はキャッシュが更新されるのを一定時間待つようにしています。これによりキャッシュスタンピードを防ぎつつ、キャッシュ更新時の遅延も抑えながら安定してレスポンスを返すことができています。 サービスの可用性 BFFは可用性が大事 BFFはフロントエンドからリクエストを受け付けるため、BFFに障害が発生するとサービス全体に直結しやすい傾向にあります。つまり、BFFはサービス可用性を考えるうえで重要なポイントです。 ZOZO Aggregation APIに関しても、BFFとして設計を進めていくうえで障害時のシナリオをシミュレーションしたところ、大きな課題を発見しました。ZOZO Aggregation APIは複数のマイクロサービスからモジュールとして商品のデータを取得する必要があるため、初期の設計では、いずれかのマイクロサービスに障害が発生した際に引きずられてカスケード障害が発生することが懸念されました。しかし、ZOZO Aggregation APIは初期の設計でも3つ以上のマイクロサービスと通信してトップページに必要なモジュールを生成していたので、ZOZO Aggregation APIとその3つのマイクロサービスがすべて正常に動作することが、正常にトップページを生成する条件となっています。そのため、可用性の低いシステムになっていました。 BFF導入後のアーキテクチャでZOZOTOWNの可用性を担保するにはこの課題の対策が必須となりました。 各マイクロサービスに依存しないしくみ そこでZOZO Aggregation APIでは、いずれかのマイクロサービスにて障害が発生した場合は、取得できた情報とデフォルトとして定義された情報を組み合わせたモジュールを生成してレスポンスを行う仕様にしました。タイムアウトとリトライ制御を各マイクロサービスに設定しておき、マイクロサービスが規定の時間内に正常なレスポンスを返さない場合はほかのマイクロサービスから取得できたデータとデフォルト定義されたデータにてモジュールを生成します。 実際に運用が始まると、障害の際にマイクロサービスに障害が発生して一部のデータを取得できない状態になりました。しかし本仕様のおかげでZOZO Aggregation APIは障害にならず、ZOZOTOWNのトップページを表示し続けることができました。 運用時に見つけた課題 ZOZO Aggregation APIにはリリース後もさまざまな機能が追加されており、マイクロサービスの通信先もリリース時と比べて増えている状態でした。リリース初期は同じKubernetesクラスター内のマイクロサービスとの通信がほとんどでしたが、社内の別環境にあるAPIや社外のAPIからデータを取得して生成するモジュールも出てきました。通信先が増えてもZOZO Aggregation APIにて各マイクロサービスの障害に引きずられないしくみを導入しているので安心していましたが、障害発生時に挙動を確認した際に気になる点がありました。 先の仕様ではZOZO Aggregation APIから各マイクロサービスに対してタイムアウトとリトライ制御を使って障害判定をしていたため、障害発生時に200を返すことによりレスポンスタイムの悪化が発生していました。仮にマイクロサービスにて10分間障害が発生するとZOZO Aggregation APIは「レスポンスは遅延しているが200を返す」状態で10分間動作し続けていることになります。マイクロサービスの障害に引きずられないしくみを導入したのはZOZOTOWNのユーザー体験を損なわないことが目的ですが、この状態はユーザー体験が良いとは言えないので対策することになりました。 ZOZO Aggregation APIでは各マイクロサービス間との通信におけるタイムアウトとリトライ制御にIstioを利用しているため、Istioを活用して対応する方法がないかを検討しました。Istioを調査する中でサーキットブレーカー機能があるとわかり、ZOZO Aggregation APIと各マイクロサービスとの通信にサーキットブレーカーを導入することで障害発生時のレスポンスを改善できるのではと考えました。 サーキットブレーカーの導入 サーキットブレーカーとは、あるサービスの障害を検知した場合には通信を遮断、その後サービスの復旧を検知すると通信を復旧させるしくみです。サーキットブレーカーを導入することで、各マイクロサービスに障害が発生した際にサーキットブレーカーがそれを検知し、ZOZO Aggregation APIと該当マイクロサービスとの通信を即座に遮断します。遮断されている状態ではZOZO Aggregation APIが該当マイクロサービスに通信をすると即座にエラーレスポンスが返るので、先のしくみにより取得できたデータからのレスポンスデータをもとにモジュールを生成します。マイクロサービスの障害が収束するとサーキットブレーカーがそれを検知してZOZO Aggregation APIとの通信を復旧させます(図5)。 図5 サーキットプレーカー導入による変化 サーキットブレーカーを導入したことで、ZOZO Aggregation APIは障害発生時でも都度タイムアウトを待たずにレスポンスを返せるようになりました。また先のしくみと合わせることで、特定のマイクロサービスに障害が発生したとしてもユーザー体験を損なわないシステムになり、BFFとして信頼性が高い状態となりました。 意図しているエラー条件 このように可用性担保のためさまざまな対策が行われたZOZO Aggregation APIですが、1つだけ可用性を考慮せず、意図して500エラーをレスポンスする条件があります。それは「キャッシュから正常なデータを取得できない状態」です。 ZOZO Aggregation APIはキャッシュを導入することで各マイクロサービスの負荷軽減を行っています。キャッシュからデータが取得できない場合に、各マイクロサービスから直接データを取得する挙動だと、セールなどの高負荷時に対象マイクロサービスがダウンする可能性があります。ZOZO Aggregation APIのキャッシュに障害が発生したことで各マイクロサービスが高負荷になり、ZOZOTOWNの別機能に影響が出るという事態は防がなければいけません。そこで、キャッシュにて障害が発生した場合は、ZOZO Aggregation APIにて500エラーを返して各マイクロサービスと通信をしない仕様にしています。 なおキャッシュ障害を検知した場合は、予備で用意しているキャッシュに通信先を変更することで迅速な復旧ができるようにしています。 BFFにおける障害試験の重要性 前述のとおりBFFは可用性がとても重要なので、障害時の動作を把握するために、障害試験にはかなり注力しています。サーキットブレーカー導入時はもちろんのこと、新たな通信先が追加されるたびに、さまざまなエンドポイントにて障害発生時の動作を確認しています。 ZOZO Aggregation API自体の障害発生シミュレーションは当然行いますが、外部サービスも含めて多種多様なマイクロサービスと通信するため「各マイクロサービスがダウンした場合の挙動」を定義しておき、障害試験で想定通りのレスポンスが返答されるか確認することが大事です。Istioを使ってZOZO Aggregation APIと各マイクロサービス間の通信に遅延を発生させて、サーキットブレーカーの発動と発動後のレスポンス内容が想定どおりになっているかはリリース前にチェックしています。 これらのチェックを行っているため、ZOZO Aggregation APIはリリースから今年で3年が経過しているにもかかわらず、安定した運用を続けられています。 BFFのこれまでとこれから ZOZOでは、BFFアーキテクチャの国内での実例がまだ少なかった2021年から、ZOZO Aggregation APIを構築して運用を続けてきました。運用していく中でキャッシュスタンピードをはじめとしたさまざまな課題が見つかりましたが、開発者とSREが一丸となって改善を続けてきました。結果を見れば、この3年間におけるZOZOTOWNの安定性にZOZO Aggregation APIは大きく貢献しており、当初想定していたアーキテクチャのメリットを享受できています。 リリース当初はZOZOTOWNトップページの表示内容を生成するAPIでしたが、現在はトップページだけではなくカート画面や検索画面等に表示するデータも扱う、ZOZOTOWNにおける中核を担うAPIとなりました。req/sやキャッシュの使用量も含めて右肩上がりになっており、用途はこれからも増えていく予定のため、今後の増強も予定しています。 また、3年の運用でZOZO Aggregation APIに機能が増えてきたことで、さまざまな課題が見えてきました。たとえば、さまざまな機能が追加されてロジックに複雑さが出てきたことや、関係者が増えたことによりコミュニケーションコストも増えてきたこと、マイクロサービスとBFFの責務があいまいになっている部分があることなどが挙げられます。これらの問題に対応するために、機能ごとにBFFとしての機能を分割する案や、デバイス別に分割する案といったさまざまな角度からこれからのZOZO Aggregation APIについて議論を進めています。今後のZOZOにおけるBFFの方針が決まった際には テックブログ 等で公開したいと思っています。 おわりに 連載第6回では2021年に導入したZOZOのBFFであるZOZO Aggregation APIについて、導入により発生したメリットや、運用上の課題、今後の展望について紹介しました。 BFFアーキテクチャのひとつの形としてBFFの導入を検討している方の参考になればうれしく思います。 本記事は、技術本部 SRE部フロントSREブロック ブロック長の三神 拓哉と同 ECプラットフォーム部マイグレーションブロックの藤本 拓也によって執筆されました。 本記事の初出は、 Software Design 2024年10月号 連載「レガシーシステム攻略のプロセス」の第6回「ZOZOTOWNにおけるBFFアーキテクチャ実装」です。 ZOZOでは、一緒にサービスを作り上げてくれる方を募集中です。ご興味のある方は、以下のリンクからぜひご応募ください。 corp.zozo.com
はじめに こんにちは。Developer Engagementブロックの @wiroha です。10月22日に「 ZOZO Tech Meetup ~データガバナンス / データマネジメント~ 」を開催しました。ZOZOTOWNを支える開発において「データガバナンス / データマネジメント」にフォーカスして、弊社エンジニアが具体的な事例を交えながら紹介するイベントです。 登壇内容まとめ 弊社から次の5名が登壇しました。 コンテンツ 登壇者 #1 データガバナンスチームの結成で得た学び 事業推進部 田中 #2 ZOZOのデータマネジメントの取り組み:これまでとこれから データ推進ブロック 髙木 #3 dbt-coreで実現するCore DataMartsのデータモデリング〜dbt編〜 推薦基盤ブロック 栁澤 #4 dbt-coreで実現するCore DataMartsのデータモデリング〜Cloud Composer編〜 データ基盤ブロック 奥山 #5 全部見せます!BigQueryコスト削減の手法とその効果 データ基盤ブロック 塩崎 #1 データガバナンスチームの結成で得た学び 事業推進部 田中による発表 speakerdeck.com 田中からのコメント 抽象度の高い学びの共有で恐縮ですが、データガバナンスに取り組んでいる/これから取り組むみなさまのお役に立てれば幸いです。これから迎えるZOZOのデータ活用の成熟期を、今回ご紹介したデータエンジニア、アナリティクスエンジニア、データマネージャに加え、ビジネス職のあらゆるスタッフやMLエンジニア、データアナリスト、データサイエンティストといった専門家たちと楽しんで行きたいと思います。 #2 ZOZOのデータマネジメントの取り組み:これまでとこれから データ推進ブロック 髙木による発表 speakerdeck.com 髙木からのコメント ZOZOで行っているデータガバナンス / データマネジメントについて一部ですがお話させていただきました。多くの方へ届けるためにオンライン開催も検討したのですが、オフラインならではの意見交換も活発に行うことができ、個人的にもとても楽しい時間を過ごすことができました! まだまだデータマネージャーとして働いている方は少ないかと思いますが、これからどんどん発展していく領域でもあるので、今回のイベントをきっかけにZOZO含めて興味を持っていただければとても嬉しいです。絶賛採用中なので、気軽にカジュアル面談をお申込みいただければと思います! #3 dbt-coreで実現するCore DataMartsのデータモデリング〜dbt編〜 推薦基盤ブロック 栁澤による発表 speakerdeck.com 栁澤からのコメント dbt-coreを使ったデータモデリングの実践についてお話しさせていただきました。会場では多くの方々にご質問をいただき、またデータモデリングに関する議論もできて、とても楽しかったです! 限られた時間の中で全てをお伝えできませんでしたが、スライドをご覧いただくことで、少しでも同じ悩みをお持ちの方々のお役に立てると嬉しいです。 #4 dbt-coreで実現するCore DataMartsのデータモデリング〜Cloud Composer編〜 データ基盤ブロック 奥山による発表 speakerdeck.com 奥山からのコメント Cloud Composer(Airflow)からdbtモデルの更新・データ品質チェックを依存関係を保ちながら行うためのポイントについて発表しました。dbt導入を検討しているものの、実行基盤・インフラ部分の実装に悩んでいる方々の一助になれば幸いです! 参加者にはデータエンジニアの方も多く、データパイプラインの設計やツールの選定などたくさんの知見を交換できて嬉しかったです! #5 全部見せます!BigQueryコスト削減の手法とその効果 データ基盤ブロック 塩崎による発表 speakerdeck.com 塩崎からのコメント BigQueryの裏技めいたコスト削減手法などを紹介しました。昨今の様々な事情によりコスト削減熱の高まりを観測することが多くなってますので、コスト削減に取り組んでいる方々の一助になれば幸いです。 いただいた質問への回答 当日は進行の都合上、発表ごとに質疑応答の時間を取れなかったため、後日回答するという形で質問を募りました。一部の質問についてテキストにて回答いたします。 Q. 聞き洩らしたかもしれませんが、データマネジメントチームの影響がつかめていないです。プロダクトに依存せず横ぐしですべてのデータを見ている印象を受けましたが合っていますでしょうか...? A. プロダクトに依存せず横串で対応するチームの認識で間違いありません。データマートで言えば全社で使える汎用分析データマートをデータマネジメントチームから提供し、その先のより細かい分析やBI用途のデータはデータアナリストや事業部のメンバーが作成しています。ただ、プロダクトによっては内部で完結しているケースもあるので、新たに領域を拡大していくのも課題としてはあります。 Q. LookMLを運用するうえでのツラいという話の詳細が気になりました。 A. 前提として、LookMLは優れたデータモデリング言語であり、今後もLookerをBIツールとして利用する予定です。ただ、データモデリングの全てをLookMLで行うと、管理の複雑化やパフォーマンス最適化の難しさという課題がありました。また、一時的にLookMLに詳しい人材が不足したこともあり、運用面での問題が浮き彫りになりました。そこで、重要なビジネスロジックはdbtに集約してデータモデルの安定性を確保しつつ、柔軟な表現が求められる部分はLookerのセマンティックレイヤーで対応することで、効率的な運用を目指しています。これにより、一貫性を保ちながらも、ビジネスニーズに柔軟に対応できる体制を整えたいと考えています。 Q. dbt docsがビジネスユーザーにツラいという話の詳細が気になりました。 A. 言葉足らずでしたが、奥山からあったように弊社ではSQLデータマートとdbtデータマートをBigQuery上で共存させています。dbt docsではdbtデータマートのみしか対応できないため、処理の方法に関わらず全体を俯瞰できるデータカタログが必要となっています。 Q. 誰でもSQLを使える点に驚きました。アクセスコントロールをどうやっているのか気になりました。 A. 個人情報や広く公開すべきではない営業秘密などに対してはBigQueryの列レベルセキュリティ機能を使っており、一部の限られた人のみが閲覧可能です。一方でそれ以外のほぼすべての情報は全社員が活用できるようにアクセス権限を設定しています。 最後に 登壇者のみなさん 非常にたくさんの方にご参加いただき、ありがとうございました。懇親会では登壇者への質問・意見交換が活発に行われ、有意義な時間を過ごすことができました。今後もイベントを開催していきますので、ぜひご参加ください! ZOZOではデータアナリスト、データマネージャー等のさまざまなポジションで一緒に働く仲間を募集中です。カジュアル面談も実施しておりますので、ご興味のある方は以下のリンクからぜひご応募ください。 corp.zozo.com www.wantedly.com
はじめに こんにちは、データサイエンス部の広渡です。データサイエンス部では、取り組みの一環として検索クエリのサジェスト(以下、サジェスト)の改善に力を入れています。 ここでサジェストは一般的に「Query Auto Completion」と呼ばれる、検索窓にキーワードが入力された際に続きを補完したキーワードを提示する機能を指します。 弊チームではサジェスト改善の取り組みとして、パーソナライズ化を進めています。本記事では、パーソナライズ化の一環として、ユーザーの性年代に適したサジェスト(以下、性年代別サジェスト)を実現した事例について紹介します。 参考として、近年のサジェスト改善事例に関する記事もご覧ください。 techblog.zozo.com 目次 はじめに 目次 背景・課題 性年代別サジェストとは 性年代別サジェストの実現方法 方針 Elasticsearchでの実現方法 結果 定性評価 A/Bテスト まとめ おわりに 背景・課題 ZOZOTOWNでは、ユーザーログを活用してサジェストを実現しています。なお、本記事ではサジェストに候補として表示された検索クエリをサジェストクエリと呼ぶことにします。 ユーザーログはサジェストクエリの作成と並び順に活用されています。並び順は、過去の検索クエリのクリック数やクリック後の商品の購入数などをベースにしたスコアを算出し、そのスコアに基づいて決定されています。ユーザーログを活用した詳しい改善事例は以下の記事を参照してください。 techblog.zozo.com 以前のサジェストでは、ユーザーログを一括りにしてサジェストクエリを作成しており、どのユーザーにもZOZOTOWNのメインユーザーである20〜30代女性向けのサジェストクエリが多く表示されていました。 サジェストクエリ作成時にユーザーの性別や年代を考慮していないため、例えば、男性ユーザーがキーワードを入力中に「Tシャツワンピース」など女性向けと考えられるサジェストクエリも表示されることになります。以下は実際のサジェストクエリの例です。 そこで、ユーザーログを性別や年代ごとに活用することで、ユーザーの性年代に適したサジェストクエリを提供する性年代別サジェストに取り組みました。 性年代別サジェストとは 性年代別サジェストとは、ユーザーの性別と年代の組み合わせごとにサジェストクエリを作成し、ユーザーの性年代ごとにそれぞれ異なるサジェストクエリを表示するものです。 性別と年代の組み合わせは以下のようなイメージです。 性別:男性、女性 年代:10代、20代、... 男性x10代、男性x20代のような性別と年代の組み合わせごとにサジェストを作成します。それを用いて以下の図に示すようにユーザーの性年代に応じたサジェストクエリを表示します。 性年代別サジェストの実現方法 ここでは、性年代別サジェストを実現した方法について紹介します。 方針 まず、性年代別サジェストを実現するために、2つの方針を考えました。 性年代別でサジェストクエリとなるキーワードごと変える。 ユーザーログを性年代別にフィルタリングし、サジェストクエリとなるキーワードを作成する。 例えば、20代男性ユーザーが「Tシャツ レディース」を検索したログがなければ、他の性年代のユーザーが検索していたとしてもサジェストクエリとならない。 サジェストクエリとなるキーワードは同じだが性年代別でスコアを変える。 全てのユーザーログでまとめてサジェストクエリとなるキーワードを作成した上で、その性年代が検索したキーワードでないサジェストクエリは削除せず、表示順が下位になるようにスコアを小さくする。 例えば、20代男性ユーザーが「Tシャツ レディース」を検索したログがなくても、他の性年代のユーザーが検索していたらサジェストクエリとなる。 各方針のイメージです。20代男性が検索窓に「Tシャツ」を入力した場合を想定しています。 今回は方針2の「サジェストクエリとなるキーワードは同じだが性年代別でスコアを変える」方針に定めました。 前者は、その性年代でクリックされにくいサジェストクエリを取り除けるかもしれませんが、サジェストクエリの数は少なくなる懸念があります。後者は、前者のデメリットをカバーし、改善前のサジェストクエリの数に保つことができるというメリットがあると考えました。 スコア算出のロジックは既存のものを使用し、性年代ごとのクリック数やクリック後の商品の購入数をもとにそれぞれのスコアを算出しました。これは、性別や年代ごとのクリック数や購入数をスコア算出に活用することで、性年代に適したサジェストクエリが表示されているかどうかを、効果の測定を通じて判断するためです。 Elasticsearchでの実現方法 ZOZOTOWNでは、ユーザーが入力したキーワードからサジェストクエリを抽出する検索エンジンとしてElasticsearchを採用しています。サジェストクエリとしたい文字列をインデクシングし、その文字列に対して前方一致させることで実現しています。 ここではElasticsearchを用いた性年代別サジェストの実現方法について紹介します。 まず、Elasticsearchで Mapping と言われるドキュメント設定は以下のようにしました。この設定はインデクシング時に活用されます。 { " mappings ": { " dynamic ": " false ", " properties ": { " suggest ": { " type ": " keyword " } , ... " score ": { " properties ": { " mens_gene_20_29 ": { " type ": " float ", " index ": false } , ... " mens_all ": { " type ": " float ", " index ": false } , ... " all_gene_20_29 ": { " type ": " float ", " index ": false } , ... " all ": { " type ": " float ", " index ": false } } } } } } 主なポイントはサジェストの並び順を決定するための「score」フィールドにサブフィールドを追加し、性別と年代に応じたスコアを持たせた点です。 性別と年代に応じたスコアの詳細は以下の通りです。 性年代別でのスコア(上記mens_gene_20_29に該当) 性別でのスコア(上記mens_allに該当) 年代別でのスコア(上記all_gene_20_29に該当) 全体でのスコア(上記allに該当) 性年代別だけでなく、性別、年代別、全体でのスコアを持たせた理由は2つあります。1つ目はユーザーの性別と年代の両方の情報が取得できなかった場合に対応させるためで、2つ目はサジェストクエリのソートに活用するためです(後述)。 次に、Elasticsearchへのリクエストクエリは以下のようにしました。ここでは、検索窓にキーワードが入力された際に、サジェストクエリ候補に前方一致させフィルタリングしソートします。この例では、男性20代ユーザーが「Tシャツ」を入力した場合を想定しています。なお、下記のクエリは実際のクエリを簡略化しています。 { " query ": { " prefix ": { " suggest ": " Tシャツ " } } , " sort ": [ { " score.mens_gene_20_29 ": { " order ": " DESC " } , " score.mens_all ": { " order ": " DESC " } , " score.all_gene_20_29 ": { " order ": " DESC " } , " score.all ": { " order ": " DESC " } , } ], " size ": 10 } ここで工夫した点は、多段ソートをするようにした点です。上記の例では、20代男性 → 男性 → 20代 → 全ての順にソートしています。 以下はこの時の動作イメージです。 複数のサジェストクエリ候補間でユーザーの性年代でのスコアが等しい場合は、ユーザーの性でのスコアの高い方が上位になります。ユーザーの性年代と性でのスコアも等しい場合は、ユーザーの年代でのスコアの高い方が上位になります。こうすることで、なるべくユーザーに好まれやすいサジェストクエリが表示されるようにしました。 スコア算出に用いる性年代別のログは、性年代ごとにデータをフィルタリングするため、全体のログと比べてデータが少なくなるという欠点があります。多段ソートによって、性年代だけでなく、複数のフィルタリング条件を組み合わせたソートが可能になります。これにより、性年代でのスコアではクリックされやすさを十分に反映できなかったサジェストクエリに対しても、より多くのログから算出されたスコアを基に並び替えることができ、この欠点を補うことが可能です。 結果 ここでは定性的な結果とABテストの結果について紹介します。 定性評価 以下が改善前後でのサジェストの比較です。 20代男性 が検索窓に「Tシャツ」を入力した場合を想定しています。左側が改善前で右側が改善後のサジェストを示しています。 改善前は「Tシャツ レディース」などの女性向きのサジェストクエリが表示されていましたが、改善後では「Tシャツ メンズ」などの男性向きのサジェストクエリがより上位に表示されていることがわかります。 性別や年代を入れ替えて様々な条件でチーム内定性評価をしたところ、既存のサジェストよりも良い評価が得られました。 A/Bテスト 性年代別サジェストを評価するためにZOZOTOWNのユーザーに対して2週間A/Bテストを行いました。 以下が結果のサマリです。計測した指標は他にもありますが抜粋しています。 指標 結果 1ユーザー当たりの受注金額 100.20 % サジェストクリック率 100.21 % GMV相当の1ユーザー当たりの受注金額は有意差なしとなりましたが、サジェスト機能指標であるサジェストクリック率は有意差あり勝ちとなりました。 まとめ 本記事では、性年代別のサジェストを実現した事例を紹介しました。性年代別のサジェストを実現することで、サジェストを改善できました。 今後の展望として、性年代別でスコア算出ロジックを変更すること、さらにはユーザー一人ひとりにパーソナライズ化したサジェストを実現することを考えています。 おわりに ZOZOでは検索エンジニア・MLエンジニアのメンバーを募集しています。ご興味のある方は、以下のリンクからぜひご応募ください。 corp.zozo.com
目次 目次 はじめに 我々のチームについて ZOZOMETRYについて ZOZOMETRYでのBtoB開発で取り入れたこと プールモデルによるマルチテナント管理 Cognito+DBによるユーザー情報の管理 RLSによる行単位でのデータアクセス制御 RLSの利用を見送った理由 理由1 : コネクションプールの管理 理由2 : O/RマッパーでのRLSの利用 DDDにおけるテナントのアクセス制御 MySQLを採用した理由 AWS Auroraとの互換性 PostgreSQL独自の機能の不使用 チームの経験と学習コスト 計測プロダクトとの整合性 PostgreSQLを採用したいケース Gitの運用フロー まとめ 最後に はじめに こんにちは。計測プラットフォーム開発本部バックエンドブロックの髙橋です。 先日、ZOZOMETRYという新規サービスをローンチしました。 corp.zozo.com 本記事ではZOZOMETRYをローンチするにあたり発生したBtoB開発における考慮すべきポイントと対応について解説します。 我々のチームについて 計測プラットフォーム開発本部バックエンドブロックでは、「世界中に計測技術を通じて、新しい価値をプラスする」をミッションとして掲げています。このミッションのもとZOZOMAT、ZOZOGLASS、ZOZOMETRYなどの計測プロダクトのバックエンド開発・運用をしています。主にScalaを使用し、堅牢で拡張性の高いシステムを目指しています。 ZOZOMETRYについて ZOZOMETRY とは、事業者の採寸業務を効率化し、採寸が必要な服の売上拡大やコスト削減に貢献するサービスです。以前、ZOZOTOWNで提供していたサービスでは、ZOZOSUITを着用しての計測が必須でしたが、ZOZOMETRYではZOZOSUIT着用あり、ZOZOSUIT着用なしの異なる計測方法が提供されています。 ZOZOMETRYでのBtoB開発で取り入れたこと 我々のチームでは、過去にBtoCサービスを開発・ローンチしており、BtoBサービスの開発経験はありませんでした。しかしZOZOMETRYは法人向けのBtoBサービスであり、BtoCサービスとは異なる課題がありました。特に契約企業ごとにマルチテナンシーなサービスを提供する必要のあるユースケースで我々が取り組んだ方法をご紹介します。 プールモデルによるマルチテナント管理 SaaS型のBtoBサービスでは、多くの場合、契約企業ごとにデータを分離する必要があります。これらの分離モデルとして、 サイロモデル・プールモデル・ブリッジモデル が知られています。 ZOZOMETRYのバックエンドシステムではローンチしたばかりのサービスである点からも、テナントごとに専用のリソースを用意することに関しては管理コストの増大につながる懸念がありました。そのためZOZOMETRYではテナントごとにAPIを用意することはせず、共通の1つのリソースでサービスを提供するためにプールモデルを採用しました。これにより、テナントごとに独立したリソースを用意することなく、複数のテナントを1つのリソースで運用できます。 Cognito+DBによるユーザー情報の管理 ユーザー認証はAWSが提供するCognitoを採用しています。外部サービスであるCognitoには認証に必要な最小限の情報(アカウントID、メールアドレスなど)のみを定義しています。各組織を区別するために必要なテナントIDも含めた、ユーザーの氏名などのmetadataはRDSに紐づける形で管理する方針としています。これにより、metadataの参照や更新が行われた場合にCognitoを経由する必要がなく、パフォーマンスや拡張性の観点から管理が容易となります。 CognitoのユーザープールとDBのテーブルの関係は以下のようになっています。CognitoのアカウントIDと、DB上のアカウントIDを紐づけることで、Cognitoのユーザー情報とDBのテナント情報を紐づけ、DB上のmetadataを取得しています。 また、この構造をユーザー認証にも用いています。Cognitoから発行されたアクセストークンのペイロードには、CognitoのアカウントIDがsub属性として含まれています。アプリケーション側では、アクセストークンからCognitoのアカウントIDを取得し、DB上のアカウントIDを取得してユーザーを特定します。 しかしプールモデルでは、上段で説明したように1つのリソースで全ての顧客のデータを保持し、1つのサーバーで運用するような形になります。そのため、リソースごとにテナントごとのデータ分離をアプリケーション側で意識する必要があります。我々はアプリケーション側でテナントIDを保持することで、テナント間のデータを分離した状態でサービスを提供することが可能になりました。 RLSによる行単位でのデータアクセス制御 プールモデルにおけるマルチテナント管理の手段としては一般的にいくつか存在しています。我々は当初、PostgreSQLが提供するRLS (Row Level Security)を利用する想定で設計を進めていました。 RLSはテーブルに対して行単位でアクセスを制御できる機能です。詳細は PostgreSQLのドキュメント をご覧ください。私たちのユースケースでは、RLSを利用して、テナントIDをセッション変数として保持し、テナントIDに紐づくデータのみを参照することを想定しました。これにより、以下のコードのようにテナント間のデータをアプリケーション側で意識することなく分離できると考えました。 -- テーブルの作成 CREATE TABLE users ( user_id SERIAL PRIMARY KEY, tenant_id INT , first_name VARCHAR ( 50 ), last_name VARCHAR ( 50 ) ); -- サンプルデータの挿入 INSERT INTO users (tenant_id, first_name, last_name) VALUES ( 1 , ' Alice ' , ' Smith ' ); INSERT INTO users (tenant_id, first_name, last_name) VALUES ( 2 , ' Bob ' , ' Jones ' ); SELECT * FROM users; /* user_id | tenant_id | first_name | last_name --------+-----------+------------+----------- 1 | 1 | Alice | Smith 2 | 2 | Bob | Jones */ -- テーブルにRLSを適用 ALTER TABLE users ENABLE ROW LEVEL SECURITY; -- ポリシーの作成 CREATE POLICY users_rls_policy ON users FOR SELECT USING (tenant_id = current_setting( ' service.tenant_id ' ):: int ); -- RLSを用いたSELECT SET LOCAL service.tenant_id = 1 ; SELECT * FROM users; /* user_id | tenant_id | first_name | last_name --------+-----------+------------+----------- 1 | 1 | Alice | Smith */ RLSの利用を見送った理由 しかし、我々は以下の理由からRLSを使ったテナントごとのデータ分離手法の採用を断念することにしました。以下に、その理由について説明します。 理由1 : コネクションプールの管理 PostgreSQLのRLSは、ポリシーでパラメーターから得られるテナントIDが一致する行を条件にしています。DBセッション内でテナントIDを設定することで、そのテナントに対するデータにアクセスが許可されます。しかし、コネクションプールを利用する場合、同じコネクションを使いまわすことで違うテナントのデータを参照してしまう可能性があります。 そのため、セッションごとにコネクションを張ることになり、コネクションプールの効率を悪くする懸念がありました。また、プールモデルでシステムを構成しているため、コネクションが枯渇した際に全てのテナントに影響が出る可能性もありました。 理由2 : O/RマッパーでのRLSの利用 RLSを用いる場合はO/Rマッパー側でセッション変数を設定する必要があります。しかしながらユーザーごとにポリシーを分けておらず、コネクションのポリシーを都度切り替える必要がありました。結果的にコネクションにテナントIDをアタッチするための生クエリを発行するコンポーネントを作らなければならず、カスタム実装が必要でした。 我々はプール型のシステムであり、共通のAPIサーバーを利用しています。そのため、ユーザーごとにポリシーをアタッチするような手法を用いるのが難しく、結果としてWHERE句にテナントIDを付加する手法と比較し、コストとリスクがあまり変わらないと判断しました。下図のように、テナントごとに異なるAPIサーバーを持っている場合であれば、RLSの効果的な利用が可能であったと考えています。 上記で触れたように、RLSを利用しない場合、内部的にはSQLクエリ上でテナントIDを指定する必要があります。これをエンドポイントごとに実装することなく、我々はアプリケーション側、実際はDDDにおけるユースケース層で定義し、実装することにしました。DDDにおけるテナントIDの取り扱いについては、以下に詳しく説明します。 DDDにおけるテナントのアクセス制御 DDDとは「Domain Driven Design」の略で、日本語では「ドメイン駆動設計」と呼ばれる設計手法です。DDDは、主にそのソフトウェアが対象とする領域(ドメイン)に焦点を当てて、それをソフトウェアに対して抽象化して適用し、その領域における問題を解決するための設計手法です。業務システムにおいて、ドメインとは主にビジネスロジックを表現するための概念です。バックエンドにおいては、システムのビジネスロジックを処理する主要な場所であることが多いことから、我々もシステムの設計にDDDを取り入れています。 そのため、我々はRLSが担うはずだった特定のテナントIDが割り当てられたデータのみのアクセス制限を行う処理を、共通に呼び出すビジネスロジックを集約するユースケース層に実装しました。これにより、実装者による実装漏れの懸念をほぼなくすことができます。ユースケース層に集約することにより、以下のメリットがあります。 コードの可読性と保守性の向上 ビジネスロジックが明確に分離されるため、テストの容易さが向上。コードの重複を避けることができる ユースケース層に集約されたビジネスロジックは、他のユースケースやアプリケーション層からも再利用可能 これらの点を考慮しながら、ユースケース層にビジネスロジックを集約し、DDDの原則に従った堅牢なアプリケーションを構築できます。 以下に、ユースケース層におけるテナントIDの取り扱いについてのコード例を示します。このコードでは、ユースケース層においてテナントIDを保持し、テナントIDに紐づくデータのみを参照する処理を実装しています。全てのユースケースがこのtraitをmixinすることで、チェック処理が漏れる懸念もありません。 trait UserUseCaseProtocol[Req <: UseCaseRequest[?], Res <: UseCaseResponse[?, ?]] { val userRepository: Repository[User] protected def execute(request: Req)(implicit ec: ExecutionContext): Future[Res] private def response(request: Req): Future[Res] = { for { _ <- ensureBelongingTo(request.userId, request.tenantId) res <- execute(request) } yield res } private def ensureBelongingTo( userId: Id[User], tenantId: Id[Tenant] )(implicit ec: ExecutionContext): Future[User] = { userRepository .resolveById(userId) .flatMap(ensureSameTenantId(_, tenantId)) } private ensureSameTenantId(user: User, tenantId: Id[Tenant]): Future[User] { if (user.tenantId == tenantId) Future.successful(user) else Future.failed(NotBelongingToTenantException(entity.id)) } } // --- Exception --- class NotBelongingToTenantException(userId: Id[User]) extends Exception このように、我々はPostgreSQLのRLSを使ったデータ分離を見送ることにしました。 MySQLを採用した理由 我々はZOZOMETRYでRLSを使わない意思決定をしたに過ぎず、このままPostgreSQLを使い続ける余地もありました。しかし、最終的に我々はPostgreSQLでの開発を断念し、MySQLを採用することに決定しました。その理由は以下の通りです。 AWS Auroraとの互換性 まず、我々はデータベースにAWSのAuroraを使用しています。AWSがAuroraの新機能をリリースする際、基本的にはMySQLファーストで行われます。現時点でも、クロスリージョンリードレプリカやマルチマスタークラスターなどはMySQLでしか対応されていません。 PostgreSQL独自の機能の不使用 次に、我々はhstore型などのPostgreSQL独自の型は使用しません。json型やhstore型については、RDBではなくドキュメントDBやKVSなど、本質的にそれらを扱うことに適したデータベースへ永続化するように分離します。また、今まで説明していたようにRLSも利用しないため、PostgreSQLの独自機能を使うメリットが少ないと判断しました。 チームの経験と学習コスト さらに、チームはこれまでのMySQLでの開発・運用経験を再利用可能です。新たにチームにジョインする人にはMySQLの知識が期待されます。MySQLを初めて扱う人には、例としてMySQLの固有なネクストキーロックなど、学習コストがかかりますが、チームとしての技術スタックを統一できます。 計測プロダクトとの整合性 最後に、我々のチームでは計測プロダクトの開発・運用にMySQLを採用しています。PostgreSQLの採用は計測プロダクトの中でもイレギュラーな技術スタックの決定となります。また、Auroraを使う上であってもMySQLを利用するメリットが大きいため、ZOZOMETRYでもMySQLを他の計測プロダクト同様に使用することにしました。 PostgreSQLを採用したいケース 一方で、PostgreSQLを採用したいケースもあります。例えば、複雑なクエリのパフォーマンス向上を図りたい場合や、hstore型などPostgreSQLにのみ存在する独自の型を使いたい場合です。しかし、我々のチームではこれらに遭遇するケースが少ないため、最終的にMySQLを採用することに決定しました。Auroraを使用する以上、PostgreSQLで機能の制限を受けることは避けたいと考えておりました。また、バックエンド側ではデータベースでJOINを行わない方針で開発を進めています。これは、データベースはアプリケーション層に比べてスケールが難しく、データベースに多くの仕事をさせないためです。 Gitの運用フロー ZOZOMETRYでは、リリースのタイミングや内容の管理が重要です。以前記事として出したように、チームで開発・運用しているプロダクトではGitHub Flowを採用し、以下のように運用しています。 techblog.zozo.com ZOZOMETRYでは定期リリースを採用することが決まったこと、BtoB向けのプロダクトであり変更に伴う顧客説明が必要となることから、定期リリースにおける最適なブランチ戦略を見直す必要があります。我々はGitHub Flowをベースに、releaseブランチを付加した運用フローを採用しました。これにより、リリースのタイミングや内容を管理し、リリース前に必要な調整ができます。 まとめ 本記事では、ZOZOMETRYのBtoBサービスにおける課題とその解決策について紹介しました。BtoBサービスではBtoCサービスとは異なる課題があり、それに対応することが求められますが、マルチテナンシーなサービスをプールモデルで提供し効率的なサービス提供を実現しました。また、アプリケーション側でテナントIDを保持することで、テナント間のデータを分離した状態でサービスの提供が可能になりました。引き続き、計測技術を用いて新しい価値を提供するために、技術的な課題に立ち向かいながらサービスの開発を進めていきます。 最後に 計測プラットフォーム開発本部バックエンドチームでは、グローバルに計測技術を開発していくバックエンドエンジニアを募集しています。ご興味のある方は、以下のリンクからぜひご応募ください! hrmos.co
はじめに こんにちは、データシステム部推薦基盤ブロックの寺崎( @f6wbl6 )と佐藤( @rayuron )です。 私たちは2024年10月14〜18日にイタリアのバーリにて開催されたRecSys 2024(18th ACM Conference on Recommender Systems)に現地参加しました。本記事では現地でのワークショップやセッションの様子をお伝えすると共に、気になったトピックをいくつか取り上げてご紹介します。 RecSysとは RecSysとは米国計算機学会(ACM)が主催する推薦システムに関する国際的なカンファレンスです。今回で18回目の開催となるRecSys 2024は2024年10月14〜18日にイタリアのバーリで開催されました。 recsys.acm.org RecSysでは推薦システムに関わる各国の大学の研究チームや、Google、Amazon、Netflix、Spotifyをはじめとする推薦の関連分野で活動する世界有数の企業を集め、推薦システムの幅広い分野における新しい研究成果を発表します。今回は、アメリカや中国などの53カ国から1,123人の研究者や開発者がRecSysに参加しました。 初日と最終日にチュートリアルとワークショップがバーリ工科大学で行われ、その他の日付で ペトゥルッツェッリ劇場(Teatro Petruzzelli) を会場としてメインカンファレンスが行われました。全日程を通して発表は全て英語で行われます。どの日も9:00頃からカンファレンスが開始され、朝夕2回のコーヒーブレークやランチを挟んで18:30頃に終了します。夜にはレセプションパーティーやソーシャルディナーが実施されたりと多くの人と交流できます。また今回は、メインカンファレンス終了後にオーケストラコンサートにも参加できました。 開催地のバーリについて RecSys 2024の開催地であるバーリは、アドリア海に面した南イタリアの美しい港町 今回の開催地であるバーリは、アドリア海に面した南イタリアの美しい港町です。街には白を基調とした外壁の建物が多く、青い海や空とのコントラストが印象的で魅力的でした。コーヒーブレークの合間に沿岸沿いを散策する参加者の姿が多く見られ、気分をリフレッシュしている様でした。 会場の様子 チュートリアルとワークショップの会場となったバーリ工科大学 初日と最終日には、チュートリアルとワークショップがバーリ工科大学で行われました。発表テーマは教室によって分かれているため、聞きたいプログラムを自分で選択し聴講しました。特にワークショップでは MuRS や Video Recsys の様に音楽や動画という特定のドメインに特化したテーマの他、 FAccTRec や CARS のように推薦を考える上で重要な観点に重きをおいたテーマでの発表がありました。 メインカンファレンスの会場は荘厳な雰囲気のペトゥルッツェッリ劇場 10/15〜10/17にメインカンファレンスがペトゥルッツェッリ劇場で行われました。荘厳な雰囲気が魅力的な会場でした。劇場の椅子に座り全員が同じ基調講演とセッションを聴講しました。 Michael I. Jordan 氏をはじめとする研究者が基調講演し、セッションでは大学の研究チームの発表やGoogleをはじめとする会社の研究チームの発表が行われました。セッションは以下のテーマで構成され、全体を通してLLMとSequential Recommendationに関する発表が多い印象でした。 Large Language Models Bias and Fairness Collaborative Filtering Cross-domain and Cross-modal Learning Multi-Task Learning Cold Start Sequential Recommendation Graph Learning Optimisation and Evaluation Robust RecSys Off-Policy Learning Women in RecSys 研究内容の紹介 ここからは、カンファレンスを通して特に気になった論文について取り上げてご紹介します。 Bootstrapping Conditional Retrieval for User-to-Item Recommendations Hongtao Lin, Haoyu Chen, Jaewon Yang, Jiajing Xu Hongtao Lin氏らによる Bootstrapping Conditional Retrieval for User-to-Item Recommendations のFigure 1より引用 この発表はPinterestの研究で、Two-Towerモデルによるretrievalタスクにおいて条件付けして取得するアイテムを制御する方法を提案しています。以降、条件付けしたretrievalのことを”conditional retrieval”と記載します。conditional retrievalの実現方法として大量のアイテムを取得して後処理で条件に一致するアイテムのみを抽出する方法や、近似近傍探索時にフィルタ条件を考慮する方法が考えられます。これらの方法だとフィルタリング項目に対してモデルが最適化されているわけではないため、フィルタリング項目との関連度は高いがユーザーとの関連度は低い、といった状況が生じると考えられます。 この研究ではアイテムのメタデータを特定のフィルタリング項目にマッピングするCondition Extraction Moduleという機構を設け、そこから得られたembeddingをユーザータワーで利用する手法を紹介しています。 提案手法は特定のトピックで抽出したアイテムをメール通知またはプッシュ通知するタスクで評価しており、複数の手法と比較しています。 手法 概要 index 指定されたトピックのアイテムを全件抽出して人気順の上位N件を取得するもの LR: Learned Retrieval 通常のTwo-Towerモデル + 内製のストリーミングトピックフィルタ*を適用したもの CR1: Conditional Retrieval(提案手法 A) 内製のストリーミングトピックフィルタを適用しないもの CR2: Conditional Retrieval(提案手法 B) 内製のストリーミングトピックフィルタを適用したもの *指定したトピックのアイテムを一定数取得または時間予算に達するまで取得するトピックフィルタの機構。 オンラインテストの結果、提案手法がCTR・コストの両方で優れていることが示されています。注目すべきポイントはインフラコスト面で、LRにストリーミングトピックフィルタを適用することでコストが大幅に増加している点に対し、CRのコスト増はLRの4〜6分の1程度に抑えられていました。これはLRの場合だと条件に合致するアイテムを大量にフェッチして処理する必要があるためで、この点から提案手法では条件に合致するアイテムを効率的に取得できていることがわかります。 発表時にはlimitationとして複数の条件によるconditional retrievalが行えないことや、必ずしも条件に合致したアイテムが取得できるわけではない点を挙げており、検索機能の代替にはならない点に言及していました。 感想・考察 こちらの手法はサービスのユースケース次第では簡単にconditional retrievalを実現できるため、非常に参考になる発表でした。クエリ実行時にアイテムのconditionにあたるembeddingをユーザーのfeatureとして入力するという発想はシンプルなので、これでconditionに沿ったアイテムが取得できるようになるのは意外な結果です。比較対象として用いているTwo-Tower+トピックフィルタはよくあるconditional retrievalの構成なので、似たような構成のシステムを運用している方は参考にしてみると良いでしょう。 Short-form Video Needs Long-term Interests: An Industrial Solution for Serving Large User Sequence Models Yuening Li, Diego Uribe, Chuan He, Jiaxi Tang, Qingyun Liu, Junjie Shan, Ben Most, Kaushik Kalyan, Shuchao Bi, Xinyang Yi, Lichan Hong, Ed Chi, Liang Liu この発表はGoogleとDeep Mindの研究で、YouTubeのショート動画など尺の短い動画コンテンツ(Short-Form Videos, SFVs)を大量に消費するサービスにおいてユーザーシーケンスを効率的に扱う方法を提案しています。SFVsでは尺の長い動画(Long-Form Videos, LFVs)と異なりユーザーシーケンスが長くなる傾向にあるため、モデルをサービングする際にどの程度のシーケンス長を考慮するかがポイントになります。シーケンス長をできるだけ長く扱うようにしたところオンラインメトリクスは大幅に向上したものの、サービングコストの増加が確認されたため、できるだけこれらの影響を小さくすることがこの研究のモチベーションです。なお論文中には記載がありませんが、使用するユーザーシーケンスを長くすることでモデルサービング時のレイテンシも悪化した、と発表中に言及されていました。 Online Metric Serving Cost (naive) User Model (sequence length 200) +0.14% +5.6% User Model (sequence length 1000) +0.38% +28.7% 使用するユーザーシーケンスを長くするとメトリクスは改善するがコストやレイテンシが悪化している。 提案手法はユーザーシーケンスをembeddingにするモデルの推論処理をサービングから切り離して非同期に行うというもので、embeddingのキャッシュと更新手続きの手順をフレームワークとして提案しています。 Yuening Li氏らによる Short-form Video Needs Long-term Interests: An Industrial Solution for Serving Large User Sequence Models のFigure 1より引用 このような構成を取るメリットとしてサービング時のインフラコスト改善だけでなく、ユーザーシーケンスをembeddingにするモデルをLLMなどの大規模モデルにできる点を挙げています。特にユーザーシーケンス長の限界を意識する必要がなくなるので、ユーザーの長期的な嗜好を捉えられるようになる点が大きなメリットと言えるでしょう。 embeddingのキャッシュと更新の手続きは以下のような流れで行われます。 キーバリューストアからユーザーIDに対応するembeddingを取得する embeddingが有効な場合はそのまま返却 embeddingが無効や期限切れだった場合はembeddingのリフレッシュ処理をトリガー 最新のユーザーシーケンスを取得してユーザーモデルでembeddingを計算しキーバリューストアに格納・embeddingを返却 Yuening Li氏らによる Short-form Video Needs Long-term Interests: An Industrial Solution for Serving Large User Sequence Models のFigure 2より引用 提案手法の評価としてSFVsの推薦タスクとLFVsの推薦タスクでA/Bテストをしており、SFVsではインフラコストの大幅な削減を達成し、LFVsでは一部のメトリクス改善につながったと報告しています。この発表の質疑では「ユーザーのembeddingが無効であるとどのように判断しているのか」という質問が出ており、一定期間で無効にする方法とユーザーの属性やコンテキストの変化で無効にする2つのパターンがあるとのことでした。 感想・考察 まず、YouTubeのような巨大サービスにおけるembeddingの扱いに関する方法などの詳細を直接聞けるのがRecSysに参加する大きな意義だと感じました。ZOZOTOWNでも似たようなシステム構成を採っている推薦システムは存在しますが、本発表でのembeddingの管理方法はさすが痒いところまで手が届いている、という印象です。YouTubeほどのサービス規模になるとインフラコストの削減やレイテンシの改善によるインパクトは計り知れず、メトリクスが改善していてもインフラコストがかかりすぎてリリースができないというのはこの規模のサービスならではの課題だと思います。 MARec: Metadata Alignment for cold-start Recommendation Julien Monteil, Volodymyr Vaskovych, Wentao Lu, Anirban Majumder, Anton van den Hengel この発表はAmazon Machine Learningによる研究で、ウォームアイテムに対する精度を保ちつつコールドアイテムの精度を改善する手法を提案しています。推薦システムにおけるコールドアイテムとは「ユーザーのインタラクションが少ない・もしくは全くないアイテム」を指しており、こうしたアイテムへのアプローチとして以下が挙げられています。 協調フィルタリングとコンテンツベース推薦のハイブリッド メタラーニングアプローチ ニューラル埋め込みアプローチ retrieval拡張 よく使われるのはひとつ目の手法ですが、コンテンツベース推薦のアプローチでコールドアイテム、協調フィルタリングでウォームアイテムへの推薦に対応しているため、モデルアーキテクチャが複雑かつ学習が収束しにくくなるという問題に繋がります。またそれぞれのモデルに対する影響もあり、ウォームアイテムへの推薦精度を悪化させるケースもあります。この研究ではウォームアイテムへの精度を変えずにコールドアイテムへの推論精度を高めつつ、よりスケーラブルなアプローチを提案しています。 提案手法は M etadata A lignment for cold-start Rec ommendation (MARec)と呼ばれるもので、バックボーンモデル、embeddingモデル、アライメントモデルの3つのモデルを組み合わせたアーキテクチャを採っており、それぞれのモデルの出力を使って損失を計算する構成となっています。 Julien Monteil氏らによる MARec: Metadata Alignment for cold-start Recommendation のFigure 1より引用 バックボーンモデルは図中のfBで表されているモデルでクリックデータを入力としており、図中のfEで表されているembeddingモデルはアイテムのメタデータをembeddingに変換します。そしてfAで表されているアライメントモデルはfBの学習で使用するクリックデータとfEから得られるembeddingのバランスをとるためのもので、ここが提案手法のキモになっています。 提案手法の評価は公開データセットに対するオフライン評価のみですが、コールドアイテムでの評価指標が最大47.9%アップリフトしており、一方ウォームアイテムでは最大マイナス1.5%の精度低下に抑えられていることが確認されました。 感想・考察 今回のRecSysではコールドスタート問題に関する発表が数多くありましたが、手法が最もシンプルかつ広範に渡る評価を行っている発表だったと思います。「コールドアイテムへの対策をしたモデルはウォームアイテムへの精度を悪化させる懸念がある」という観点も説明されると納得ですが自分たちのプロダクトで考慮できていなかった点なので、新たな観点として得られたのが個人的に良かったポイントです。課題として挙げていた「アーキテクチャが複雑化する」という点について提案手法も複雑そうには見えますが、中身としてはアライメントモデルを追加しているのみなので比較的簡単にこの手法を試せそうな印象です。今後、プロダクトへの導入結果が報告されるのを楽しみにしている研究のひとつです。 Building a Scalable, Real-time Sequence and Context-Aware Ranking Marjan Celikik, Jacek Wasilewski*, Ana Peleteiro Ramallo, Alexey Kurennoy, Evgeny Labzin, Danilo Ascione, Tural Gurbanov, Géraud Le Falher, Andrii Dzhoha and Ian Harris Marjan Celikik氏らによる Building a Scalable, Real-time Sequence and Context-Aware Ranking のFigure 1より引用 こちらの研究は、 CARS というワークショップで取り上げられた、ファッションECサイト「Zalando」の発表内容です。 オンラインショッピングサイトでは、膨大な商品データベースから、ユーザーの行動やコンテキストに基づきリアルタイムでパーソナライズされた商品を効率的に推薦することが重要です。本研究では、2ステージの推薦モデルを採用し、推薦精度とレイテンシの両方を向上させるアプローチが取られています。 候補生成フェーズでは、Two-Towerモデルが使用されています。このモデルは、ユーザーとアイテムの特徴を独立して処理し、ユーザーの行動履歴やコンテキストを基にユーザーembeddingを生成し、アイテムのembeddingと組み合わせて商品候補を生成します。embeddingの生成方法としては、以下の3つが提案されています。 RCGntr : 事前学習されたembeddingを使用するモデル RCGtr : 事前学習されたembeddingを初期値として、学習されたembeddingを使用するモデル RCGtr+ctx : RCGtrに加え、検索クエリや閲覧カテゴリなどのコンテキスト情報を組み込んだモデル RCGtrは、従来のGradient Boosting Treesを使用した候補生成と比較して4.48%のエンゲージメント向上を達成しています。 ランキングフェーズでは、ユーザーの行動履歴とコンテキストに基づいて、クリック、カート追加、購入といった複数のアクションを予測するポイントワイズのマルチタスク学習が採用されています。学習時にはすべてのターゲットアクションに対して等しい重み付けが行われますが、サービング時にはユースケースに応じて各アクションのスコアに動的な重み付けが適用され、ビジネスニーズに合わせて最適化されています。 上記のモデルは、従来のWide & Deep Learningモデルと比較して4.04%のエンゲージメント向上を実現しました。また、ランキングモデルの候補生成にRCGtr+ctxを使うと、RCGtrと比較して+2.40%のエンゲージメント向上を実現しました。そして、システム全体では、リアルタイムで約200ミリ秒のレイテンシを維持しています。 感想・考察 ランキングフェーズにポイントワイズなマルチタスク学習を適用しており、学習とサービング時に異なるタスクごとに異なる重みを使用する点がユニークでした。重みはユースケースに応じて動的に設定されると言及されていたので具体的な決め方について知りたいと思いました。 Dynamic Stage-aware User Interest Learning for Heterogeneous Sequential Recommendation Weixin Li, Xiaolin Lin, Weike Pan and Zhong Ming Weixin Li氏らによる Dynamic Stage-aware User Interest Learning for Heterogeneous Sequential Recommendation のFigure 2より引用 こちらは、Session 8: Sequential Recommendation 1で発表された、深圳大学の研究です。従来の推薦システムは、ユーザーの行動履歴に基づいて商品を提案していましたが、ユーザーの興味が時間の経過や特定の行動によって段階的に変化することを十分に反映できていませんでした。この課題に対処するため、DSUIL(Dynamic Stage-aware User Interest Learning)という新しいモデルを提案しました。DSUILは、ユーザーの行動シーケンスを「購入」などの重要な行動を基準に複数の段階に分割し、各段階でユーザーの興味がどう変化するかを学習します。 DSUILは、以下の4つの主要なモジュールから成り立ちます。 Dynamic Graph Construction : ユーザーの過去の行動に対し購入行動を境界としてサブグラフを作成する Dynamic Graph Convolution : 各サブグラフ内のアイテム間の依存関係を学習する Behavior-aware Subgraph Representation Learning : 閲覧や購入など異なる行動間の依存関係を捉え、サブグラフ内のユーザーの興味を表現する Interest Evolving Pattern Extractor : 複数のサブグラフを結合し最終的なアイテムを予測する 実験結果から、DSUILは既存の最先端手法と比較して優れた性能を示し、特に異なる段階間の依存性をモデル化することが、推薦精度の向上につながることを示しています。 感想・考察 消費者行動モデルのAISAS(Attention, Interest, Search, Action, Share)で説明される様に、消費者行動が段階的に変化することは明らかだと思います。この研究は従来のSequential Recommendationで考慮し切れていなかったユーザーの段階的な行動をモデリングする点で筋が良いなと思いました。 Self-Auxiliary Distillation for Sample Efficient Learning in Google-Scale Recommenders Yin Zhang, Ruoxi Wang, Xiang Li, Tiansheng Yao, Andrew Evdokimov, Jonathan Valverde, Yuan Gao, Jerry Zhang, Evan Ettinger, Ed H. Chi and Derek Zhiyuan Cheng Yin Zhang氏らによる Self-Auxiliary Distillation for Sample Efficient Learning in Google-Scale Recommenders のFigure 1より引用 こちらは、Session 11: Optimisation and Evaluation 1で発表されたGoogle DeepMindによる研究です。こちらの研究は、Googleの大規模な推薦システムにおいて、限られたデータから効率よく学習を進めるSelf-Auxiliary Distillationという手法を提案しています。 推薦システムでは、フィードバックデータをそのまま使用してモデルをトレーニングしますが、これらのラベルの情報価値は均一ではありません。例えば、クリック予測モデルでクリックされずにラベルを0とした中でも、ポジティブに近いネガティブや、完全なネガティブが存在します。そのため、否定的なラベルを単純に0とするのではなく、もっと細かく評価することが有効とされました。 Self-Auxiliary Distillationは、信頼性の高いポジティブラベルに重点を置いて学習を進めつつ、信頼性の低いネガティブラベルに対しては蒸留を通じて解像度を高め、モデル全体の精度を向上させる手法です。この方法では、次の2つのタスクを同時に処理します。 Main Task : ground-truthに基づいてモデルをトレーニングし、教師として確率的なソフトラベルを生成する Auxiliary Task : 教師モデルから生成されたソフトラベルと正解ラベルの両方を学習する この手法を使用することで、あるGoogle Appsの推薦システムではオフラインでのAUCが+17%向上し、オンラインの主要ビジネスメトリクスにおいても大きな成果が見られました。また、補助タスクを追加することで、モデルのサービング時のコストが増大することはなく、トレーニングにかかるコストもほとんど増加しません。 AppleのiOSのプライバシーポリシーによってラベルデータの取得が難しくなった環境でも、この手法が有効に機能しています。同意を得られないユーザーのデータが「真のネガティブラベル」と区別できない問題に対して、補助タスクで生成されたソフトラベルを使用することで、推薦システムのパフォーマンスを維持することに成功しました。 感想・考察 pseudo-labelを使用することで、ユーザーの潜在的な関心度を学習に取り入れている点は、純粋に賢いアイデアだと感じました。プラットフォームのプライバシー規制に対して適応力があるという点は面白い観点だと思いました。他にもbotアクセスによる推薦精度の低下への対応策にもなり得るのではないかと考えました。 おわりに RecSys 2024に参加して、豊富なインスピレーションを得ると共に自社の推薦機能に改善の余地があることを再確認しました。前述の通り今年のRecSysはSequential Recommendationの発表が多く、発表中の課題設定としてECでの購買行動を扱っているものも多かったためZOZOTOWNにおける推薦機能の改善にそのまま活かせそうな内容ばかりでワクワクしました。Industrial Paperの発表はサービス特有の課題設定を解くものでしたが、課題設定の観点とそのアプローチは自分たちがプロダクトを改善していく上でとても参考になります。 RecSys 2025はチェコのプラハで開催! RecSys 2025はチェコのプラハで開催されるとのことで、自分たちも発表者の立場として参加できるように推薦システムをアップデートしていきたいと思います。 ZOZOでは、一緒にサービスを作り上げてくれる仲間を募集中です。ご興味のある方は、以下のリンクからぜひご応募ください! corp.zozo.com
はじめに こんにちは、計測システム部SREブロックの @TAKAyuki_atkwsk です。普段は ZOZOMAT や ZOZOGLASS 、 ZOZOMETRY などの身体計測サービスの開発・運用に携わっています。 最近公開されたZOZOMETRYですが、正式ローンチに至るまでにチーム間のサイロ化によるデリバリー速度の低下という課題が見えてきました。そこで、モブプログラミング(モブプロ)を通してチーム間のコラボレーションを促進し、課題の解決を試みている事例をご紹介します。 目次 はじめに 目次 背景・課題 モブプロを試してみる 私たちのモブプロのやり方 事前準備 モブプロの流れ モブプロをやってみて 改善点 まとめ 背景・課題 私の所属する計測システム部では以下の組織図の通り、SRE、バックエンド、フロントエンド、研究開発の4つのチームが存在しています 1 。さらに、複数のプロジェクトが並行して進むことが多く、一人がプロジェクトを兼任することもあります。 ( ZOZOエンジニア向け会社説明資料 より引用) 各チームは役割によって責務が分けられていますが、SREチームとバックエンドチームの間で領域が重なる部分や依存する部分を進める際に上手くいかないことがありました。例えば、私たちはアプリケーションのソースコードとCloudFormationテンプレートをそれぞれ別のリポジトリで管理しています。前者はバックエンドチームが管理し、後者はSREチームが管理しています。ここで、バックエンドのメンバーがちょっとしたAWSリソースの追加や修正する場合にSREのメンバーに依頼する状況となっていました。また、逆のパターンでSREのメンバーからバックエンドのメンバーにちょっとしたソースコードの修正を依頼することもありました。 これらの出来事は、各チームが責務通りに作業しているとも捉えられますが、メンバー自身が作業したいにもかかわらずお作法や考え方が分からないために依頼した方が速そうという判断が一因になっていました。依頼することで結果的に作業待ちが発生し、ちょっと試して確認したいだけなのに時間が掛かってしまうことがありました。 冒頭で書いた「サイロ化によるデリバリー速度の低下という課題」の一例を取り上げました。サイロと言うには大げさかもしれませんが、両チーム間で実装・設計方針が揃っておらず大きな手戻りが発生したこともあり、コミュニケーションとコラボレーションの不足が要因としてあったと考えられます。 モブプロを試してみる チーム間のコミュニケーションとコラボレーションを促進するための方策の1つとして私たちはモブプロを実施することにしました。実はSREチーム内では以前からモブプロを取り入れていたので私自身は経験がありました。SREチームのモブプロでは、なかなか取り組めなかった運用改善系のタスクを複数人で一気に取り組むことや、メンバーの技術力の底上げや新規参画者に対するナレッジの共有を目的にしていました。これらについてはある程度効果が出ていました。 ただ、チームをまたいだモブプロの経験はほとんど無かったため、まずは特定のプロジェクトもしくはある程度の機能で試したいと考えました。その頃、ZOZOMETRYではクローズドローンチ期間を設けていくつかの企業にサービスを提供していました。この運用の中で、頻度は低いものの開発者がSQLを実行する必要のある作業が顕在化してきました。この一部はスクリプト化されていますが、手動でSQLを実行するのは属人性が高く人為的なミスの起きやすいものとなっています。そこで、権限を持つメンバーなら誰でも安全に作業できるよう、管理画面を作ることになりました。 さらに、メンバーと話して以下のことからモブプロの題材として管理画面が適していそうだと判断しました。 緊急性の高い要件が発生しにくい 並行するプロジェクトがある中で着実にタスクを進めたい 複数のチームで協調して作業する必要がある これでチームをまたいだモブプロを試していく準備が整いました。 私たちのモブプロのやり方 管理画面はいくつかのコンポーネントに別れていて、大まかにはフロントエンド、バックエンド(API)、これらを動かす基盤(AWSやKubernetesリソース)となります。コラボレーションを意識してAWSやKubernetesリソースの作成やCI/CDの整備、認証などの機能開発を中心にモブプロを行いました。 参加メンバーはSREメンバー1名(私)、バックエンドメンバー2〜3名、フロントエンドメンバー1名です。各メンバーはリモートワークしているので、以下のように音声と画面を共有しながら作業します。 SlackのhuddleもしくはGoogle Meetで音声・映像を同期、画面共有 Visual Studio Codeの Live Share でソースコードを共有 コミットに Co-authored-byトレーラー を付けてモブプロ参加者を共同作成者とする モブプロは1回1時間の枠で週2回のペースで実施しています。この後の「改善点」のセクションで触れますが、複数のプロジェクトに参画しているメンバーもいるためなかなか空いている時間が見つけられず、このような時間枠としています。 事前準備 モブプロの事前準備として取り組むテーマとオーナーを決めておきます。実際に「オーナー」と呼ぶことはありませんが、説明のため便宜的にそう呼ぶことにします。オーナーはテーマ、ゴール、具体的にやること、参考資料などを社内ドキュメントツールとして利用するコンフルエンスに簡単にまとめておきます。内容の例を以下に示します。 ## テーマ - ZOZOMETRY管理画面 フロントエンドのCI整備 ## ゴール - ECRリポジトリとIAM Roleが存在すること - GitHub ActionsワークフローでWebサーバーのイメージがビルドされ、ECRリポジトリにpushされていること ## 前回のおさらい - 前回のモブプロまとめページのリンク - 前回作成したプルリクエストのリンク ## やること - ECRリポジトリとIAM Roleの作成 - 作業するGitHubリポジトリ名: xxx - ECRリポジトリの名前: xxx - IAM Role: 既存のIAMRoleXxxを参考にする - GitHub Actionsワークフローの作成 - 作業するGitHubリポジトリ名: xxx - mainブランチへのマージ(push)をトリガーにする - 注意事項 - xxx - yyy - 別リポジトリの参考になるワークフローのリンク このように作業についてまとめておくことで、メンバーには効率的に共有できて認識も揃いやすくなると考えています。あまり時間を確保できない中でメンバーの理解を深めることにおいて、私たちなりの工夫したポイントになります。 モブプロの流れ ここからはモブプロ1回分の流れを説明します。 まず、冒頭の5〜10分でオーナーが先ほど紹介した事前準備のコンフルエンスを使い、今回のテーマ、ゴール、前回のおさらい、今回やることを共有し、参加メンバーの認識を揃えておきます。 このあと40分程度を実装の時間に費やします。一般的なモブプロと同様にタイピストとモブに分かれて作業を進めていきます。その日のゴールによっては慣れていないメンバーがタイピストになるようオーナーが調整することもあります。 最後の5分でふりかえりを行い、良かった点と改善できそうな点をメンバーで話し合います。以上がモブプロ1回分の流れとなります。 モブプロの実施スタイルはチームによって細かい部分が異なるので、社内の他のチームの事例も参考にしてみてください。 techblog.zozo.com モブプロをやってみて モブプロ内でのふりかえりの他に、SREとバックエンド互いの領域に対する習熟度についてのアンケートを実施しました。これらの内容を元にモブプロの効果について述べていきます。 モブプロに参加したメンバーの感想をいくつか紹介します。 互いの守備範囲の技術スタックの理解につながっていると思います Kubernetesの操作やインフラリソースの作成などで出来ることが増えたことが一番のグッドポイントでした! (管理画面の認証における)SSO設計についてみんなで話すのが楽しかったです まず、お互いの領域に対する技術的な理解が増したというような感想が寄せられました。また、以下のアンケート回答結果においてもできることが増えているのが分かります。A-1からB-7までの項目はお互いの領域における作業に対応しており、Aがつくものはバックエンドメンバーに対して、BがつくものはSREメンバーに対する質問です。 2 例えば、「Kubernetesリポジトリでリソースの追加や修正を環境に応じて実施できる」「ローカル環境でAPIサーバーを起動できる」といった質問です。 それから、2つ目の感想を残してくれたバックエンドメンバーは、モブプロ開始後に別のプロジェクトでKubernetesリソースの作成や変更のプルリクエストを出していました。これは、背景・課題の部分で述べた、ちょっとした修正でも依頼して作業待ちになってしまうことへの解消に繋がると考えています。 また、私にとっては不慣れな領域でも参加メンバーの知識を組み合わせながら実装できて達成感を得られましたし、実装中に質問されることで自分自身の理解しきれていない部分が改めて分かり学びになりました。 さらに、このモブプロの様子を聞いた他のメンバーが別の組み合わせでモブプロやモブ作業を実施するようになり、コラボレーションの輪が広がったと感じました。また、障害対応の場面で、互いにシステムの解像度が高まったことやメンバーの得意を知れたことで以前よりも協力できるようになりました。 改善点 概ねうまく実施できていますが、改善したいこともあります。それは、モブプロの時間の長さについてです。現在は1回の枠は1時間で週に2回実施しています。しかし、1回あたりの時間枠が短いことで、あともう少しで実装しきれたのに時間切れ、リズムが出てきて盛り上がってきたところで時間切れ、となることがあります。ですので、今後は1回あたり2時間程度 3 の時間枠を用意できるようにしたいと考えています。 まとめ 本記事ではモブプロを通してチーム間のコラボレーションを促進させた事例を紹介しました。どの組織にもあてはまるものではありませんが、チーム間でコミュニケーションを改善したい、協力体制を築いていきたいと検討している方がいれば、ぜひ参考にしてみてください。今後もモブプロをきっかけとしてメンバーや他のチームとコラボレーションして、ZOZOMETRYを始めとしたサービスを改善していきたいと考えています。 また、この記事以外にもZOZOMETRYに関する記事を連載しておりますので、興味のある方はぜひご覧ください。 techblog.zozo.com techblog.zozo.com techblog.zozo.com ZOZOでは、一緒にサービスを作り上げてくれる方を募集中です。ご興味のある方は、以下のリンクからぜひご応募ください。 corp.zozo.com この記事を書いている2024年9月末時点 ↩ A-4、A-5、B-7の質問はモブプロ実施後に行ったアンケートで追加されたものです。 ↩ 『 モブプログラミング・ベストプラクティス ソフトウェアの品質と生産性をチームで高める 』(2.4モビングインターバル)にはモビングセッションと呼ばれる、人々が1つのグループとしてモビングする継続的な時間は通常数時間に及ぶと書かれています。 ↩
はじめに こんにちは。計測プラットフォーム開発本部SREの纐纈です。最近はZOZOMETRYという法人向け計測業務効率化サービスの開発・運用に携わっています。今回ZOZOMETRYが正式に公開されることとなったので、合わせてこの記事を書くことになりました。 biz.zozometry.com 現在はパフォーマンスも良好なZOZOMETRYですが、ローンチ当初はパフォーマンスが良くなく、改善のために様々な検証をしました。今回はその経緯と検証内容を中心に、ZOZOMETRYのパフォーマンス改善についてお話ししたいと思います。 一般的にも、Lambdaを使ったサーバーレスアーキテクチャの構築やSQSを使った非同期処理の設計など、参考になる部分があるかもしれません。ぜひ最後までお付き合い頂ければ幸いです。 ZOZOMETRYの機能と構成紹介 まずは、ZOZOMETRYの機能と構成について簡単に紹介します。 ZOZOMETRYは、アプリでスキャンした体型データを元に、様々な体の部位の計測を可能にしています。計測部位に関しては、ユーザーの希望によって任意の組み合わせが可能です。部位の計測は、ZOZOグループの海外子会社が開発するSDKによって行われます。 これまでの計測サービスでは、このSDKをアプリに組み込んで計測していました。しかし、計測したい部位が企業によって異なるため、計測箇所を柔軟に変更できるようにする必要がありました。そのため、アプリで計測して、計測データをサーバーにアップロードし、サーバー側で計算する仕組みを導入しました。以降、このSDKを内包したサーバーのことをSDKサーバーと呼びます。以下、構成の簡略図です。 この図でのAPIサーバーは組織に登録されている計測部位のリストを取得し、計測値計算リクエスト後データベースに保存しています。これを計測値保存APIと呼びます。また、初期段階ではこれらの計測値保存APIやSDKサーバーは、K8s上のPodとして動作していました。SDKサーバーには計測値計算APIからのPod間通信でリクエストが送られる想定でした。 データの流れも補足すると、アプリで計測したデータはS3にアップロードされます。この計測データと前もってS3に格納されている計測箇所ごとのデータを元に、SDKサーバーによってそれぞれの計測箇所ごとの計測値を計算します。その後、その計測値データはデータベースに保存され、APIを通じて取得可能となります。 この構成を取ったことで、選択対象となる計測箇所の追加や更新が容易になり、複数の組織に対して異なる計測部位の提供がしやすくなりました。しかしながら、この構成によって計測値を計算するというサービスのコア機能にパフォーマンスの問題が発生してしまいました。次に、その経緯についてお話しします。 開発段階でのパフォーマンス ZOZOMETRYは正式に公開する以前に、クローズドローンチ期間を設け、いくつかの企業に提供していました。しかし、その限定的ローンチの直前に、パフォーマンスの問題が発覚しました。具体的には、SDKサーバーにかかる負荷がそこまで高くなくても(~10rps)、タイムアウトやクラッシュが発生してしまう状況でした。 なお、SDKサーバーは1つの計測箇所に対して1つのAPIを叩く形になっており、計測された際には、計測箇所数のリクエストが走ることになります。このため、数十箇所の計測箇所を計測したい組織の場合、SDKサーバーに対して一度に数十リクエストが走ることになります。 この仕様によって、少ない計測数でもリクエストが集中しやすくなっており、負荷によるクラッシュが発生しやすい状況でした。この問題を解決するために、SDKサーバーに負荷をかけるリクエストを直列にすることで、一時的な対応をしました。結果として、計測値結果の算出完了までのリードタイムは伸びてしまいましたが、幸いなことにローンチ時点では提供していた企業が少数だったため、これらの企業でのユースケースでは許容される範囲でした。というのも、仕様上スキャンアプリで計測直後に計測値を確認するわけではなく、スキャン後に別途、企業担当者がWebから計測結果を確認するという流れでした。そのため、計測値の保存に時間がかかってもそこまで支障がありませんでした。 しかしながら、今後の展開やクライアント数の増加を考えると、このままでは問題の発生する可能性が高いと判断し、ローンチ後に本格的なパフォーマンス改善をすることにしました。 ローンチ前の緩和策 計測値保存APIのLambda化とSQSの導入 ローンチ前の緩和策について、まずは紹介します。SDKサーバーが負荷に対して不安定かつ遅延も大きいという問題から、ひとまず同期的にリクエストを処理するのではなく、呼び出し元の計測値保存APIをLambdaに切り替えました。これには、SDKサーバーとの通信で起こるスレッドの占有によって、APIサーバーの他APIに影響を出さないという意図もありました。また、S3のイベントトリガーを使って、S3にアップロードされた計測データをトリガーにしてLambdaを起動し、SDKサーバーにリクエストを送るようにしました。さらに、失敗時の再処理をかけやすくできるように、SQSを挟みました。 この変更によって、スキャン後の計測値計算が非同期で行われることになったので、待ち時間がなくなり、計測体験も向上しました。また、Lambdaの同時実行数を設定することでSDKサーバーの最大負荷も調整できるようになりました。さらに、SQSを挟むことでリトライやDLQの設定が容易になり、計測処理が失敗した場合でも、再処理が可能になりました。 これによってSDKサーバーが安定稼働はするものの、計測箇所の数に応じて直列にSDKサーバーへリクエストを送るので、計測箇所の処理が終わるまでに2〜3分はかかるようになってしまいました。また、スループットに関しても30分の間に30件の計測を処理するのがやっとという状態でした。 スループットが低い理由としては、コストを抑えるためSDKサーバーのPodの台数が少なかったこともあります。HPAを設定していたものの、Podの起動に時間がかかるため、リクエストが集中するとPodの起動が追いつかず、再実行が必要になることがありました。 項目 値 計測値保存Lambdaのバッチ処理時間 120~180s 30分で処理可能な計測数 30 LambdaのSnapStart有効化 さらに、LambdaのSnapStartを有効化することで、Lambdaの起動時間を短縮しました。SnapStartは、Lambdaのコンテナを再利用することで、Lambdaの起動時間を短縮する機能です。SnapStartを有効化することで、Lambdaの起動時間が若干ではありますが短縮され、SDKサーバーへのリクエストが早く処理されるようになりました。 項目   値 計測値保存Lambdaのバッチ処理時間 90~180s 30分で処理可能な計測数 50~60 この時点で、1件の計測では1.5〜3分、50件の計測を処理するのに25分要する状態でした。ただし、失敗した場合でも自動でLambdaによって計測の再実行が可能になりました。それだけではなく、一定数リトライが失敗した場合でもSQSのDLQにメッセージが移動するように設定していたため、その失敗した計測を検知して再実行できるようになりました。 立て直し ここからは、このSDKサーバーの安定性とパフォーマンス改善のために行ったことを紹介します。 ローンチ後の改善 SDKサーバーのLambda化 ローンチ後の改善施策として、まずはSDKサーバーのLambda化を行いました。SDKサーバーの処理をLambdaに切り出すことで、SDKに負荷がかかってクラッシュすることを防ぎ、計測値計算APIの安定稼働を実現しました。なお、この時点ではまだ計測値の並列計算はしていない状態です。 この時点でのパフォーマンスは以下のとおりです。 項目 値 計測値保存Lambdaのバッチ処理時間 90~180s 30分で処理可能な計測数 165 設定値の調整 また、各種インフラの設定値も調整しました。例えば、Lambdaの同時実行数やタイムアウト時間、SQSのバッチサイズやリトライ回数など、パフォーマンスに影響を与える設定値を調整し、最適な値を探りました。 Lambda 同時実行数 Lambdaの同時実行数は、ReservedConcurrentExecutionsという設定値で制御されます。この値を調整することで、Lambdaの同時実行数をクォータ内で確保また制限できます。ただし、この数はアカウント全体で共有されているため、他のLambdaに影響する可能性があります。 また、Lambda化したSDKサーバーを並列で呼び出すため、計測値保存Lambdaの同時実行数と組織で登録可能な計測箇所数の乗数までは、Lambdaの起動数が増えます。そのため、この最大値がクォータに引っかからないように設定する、もしくは事前にクォータ(デフォルトでは1000)の引き上げ申請をする必要があります。 こちらに関しては、現段階では、同時に計測されるようなケースは少ないため、計測値保存Lambdaの同時実行数は小さい値で十分でした。ただし、このLambdaの起動数がクォータに引っかからないように、クォータの割合に応じた監視を入れており、引き上げのタイミングがわかるようにしています。 docs.aws.amazon.com タイムアウト時間 Lambdaのタイムアウト時間は、1リクエストの処理時間x SQSのバッチサイズに余裕を持たせた値を設定する必要があります。これは、最大SQSのバッチサイズ分のメッセージ数が1つのLambdaで処理されるためです。 また、SQSのメッセージ再送信までの時間もこのタイムアウト時間よりも長い値に設定する必要があります。これによって、Lambdaの処理がタイムアウトすることなく、正常に処理を終えることができます。 docs.aws.amazon.com SQS バッチサイズ SQSのバッチサイズは、1つのLambdaで処理させるメッセージの量を制御する設定値です。この値を大きくすると、Lambdaのタイムアウトに引っかかりやすくなります。逆に、小さくすると、Lambdaの並列数が上がり、キューの中で待ちになるメッセージが増えます。 docs.aws.amazon.com リトライ回数 SQSのリトライ回数は、Lambdaへ再送信する回数を制御する設定値です。この値を大きくすると、再実行の試行回数が増えるため、DLQでの検知が遅れます。逆に、小さくすると、リトライによって成功した可能性のあるメッセージもDLQに入れられてしまう可能性が高くなります。 こちらは今回の検証項目には含まれていませんが、参考までに記載しておきます。 docs.aws.amazon.com これらの設定値を調整した際のパフォーマンスは以下のようになりました。 検証した組み合わせは以下の通りです。 パターン1 Lambdaタイムアウト:180s SQSバッチサイズ:10 Lambda同時実行数:10 パターン2 Lambdaタイムアウト:300s SQSバッチサイズ:10 Lambda同時実行数:10 パターン3 Lambdaタイムアウト:300s SQSバッチサイズ:4 Lambda同時実行数:10 パターン4 Lambdaタイムアウト:300s SQSバッチサイズ:4 Lambda同時実行数:20 パターン 1 2 3 4 計測値保存Lambdaのバッチ処理時間 60~180s 60~300s 60~300s 60~300s 30分で処理可能な計測数 165 200 200 500 SQSメッセージの再送信数 3 3 2 2 計測値の並列計算の導入 最後に、計測値計算の並列処理を導入しました。これによって、複数の計測箇所を同時に計算できるようになり、計測値の計算処理が高速化されました。具体的には、計測値保存Lambdaのコードを改修し、複数の計測箇所を並行してリクエストするようにしました。これによって、すべてのメッセージを再送信することなく捌き切ることができるようになりました。 項目 値 計測値保存Lambdaのバッチ処理時間 ~60s 30分で処理可能な計測数 850 SQSメッセージの再送信数 0 結果 これらの構成変更や設定の調整によって、現在は計測値の計算処理は5秒程度、3分以内に最低でも160件は捌けるようになりました。SDKサーバーのクラッシュの懸念もなくなり、計測値の計算処理も安定しています。また、スケールアウトも容易になり、今後のクライアント数の増加にも対応しやすくなりました。 項目 改善前 改善後 計測1件あたりの処理時間 120~180s 5~10s 30分で処理可能な計測数 30 850 余談 さて、これらのパフォーマンス改善ですが、実はこれらを改善する前までビジネス的な優先度が低いとされていました。なぜなら、ローンチ直後には、クライアントからのフィードバックも特になく、負荷試験の結果から見ても先1年はビジネスチームからも問題がないとされていたからです。 とはいえ、以前のままでは将来的に問題の発生する可能性が高く、SREとしては喫緊のタスクがなかったこともあり、機能開発の裏でパフォーマンス検証を進めていきました。その後、検証結果を提示することで改善の効果とその工数を確認してもらいました。その結果、ビジネスチームからの期待値が上がり、本格的なパフォーマンス改善を進めることができました。コストに関しても、イベント駆動型の設計に切り替えたことで、インフラコストを抑えることができました。 学んだこと 最後に、今回のパフォーマンス改善を通じて学んだことをまとめます。 もちろん、パフォーマンスがあまり優れないAPIをLambdaに載せ替え、並列化することでレイテンシや安定性を向上させることができたのは、あまり新鮮ではなかったかもしれません。しかし、今回の改善を通じて、以下のようなことを学びました。 不確定要素が多い機能の実装は早めに設計を済ませる 今回、この計測値計算の機能はローンチ間際まで設計が進んでいませんでした。そのため、ローンチ後にパフォーマンスの問題が発生し、改善に時間がかかってしまいました。SDKの仕様や計測値計算の仕組みを早い段階で把握していれば、より適切なインフラ設計をできたと思います。 PoC段階でパフォーマンス試験を実施する 今回の計測値を計算する機能ですが、PoC段階では複数企業に対応したものではなく、単一企業を想定した実装となっていました。そのため、複数の企業に対応した際のパフォーマンスの問題がローンチ間際に発生しました。PoC段階で複数企業に対応したパフォーマンス試験を取り入れていれば、この問題を事前に発見し、改善できたかもしれません。 コミュニケーションコストが高い開発では、早い段階で認識を合わせる 今回のSDKの改善に取り組みづらかった理由として、SDKの開発をZOZOグループの海外子会社であるZOZO NEW ZEALANDが担っていたことが挙げられます。そのため、SDKの仕組みやコードの詳細を把握しきれていませんでしたが、SDKの仕組みを理解していれば、改善のアプローチも取りやすかったかもしれません。実装する上でボトルネックになりそうな箇所がある場合、早い段階で認識を合わせることが重要であると感じました。 終わりに 今回は、ZOZOMETRYのパフォーマンス改善についてお話ししました。ローンチ直後は問題があったものの、今では安定して計測値の処理も行えるようになりました。今後も引き続き、ZOZOMETRYの改善に取り組んでいきます。 また、この記事以外にもZOZOMETRYに関する記事を連載しておりますので、興味のある方はぜひご覧ください。 techblog.zozo.com techblog.zozo.com techblog.zozo.com ZOZOでは、一緒にサービスを作り上げてくれる方を募集中です。ご興味のある方は、以下のリンクからぜひご応募ください。 corp.zozo.com
はじめに こんにちは。計測プラットフォーム開発本部バックエンドチームの佐次田です。普段はZOZOMATやZOZOMETRYなどの計測技術に関わるシステムの開発、運用に携わっています。 本記事では計測システムにおける計測データの管理方法を進化させた点についてご紹介します。 目次 はじめに 目次 計測プラットフォーム開発本部 バックエンドチームとは ユビキタス言語 3Dデータ 計測箇所 計測値 ZOZOMETRYとは ZOZOMETRYのコア機能 計測箇所のカスタマイズに関する課題 計測処理をサーバーが担当する解決アプローチ システム構成図 既存プロダクトのシステム構成 ZOZOMETRYにおけるシステム構成 システム構成の変更点 計測セットを元に計測箇所をカスタマイズする 計測セットのドメインモデル 計測シーケンスの概要 3Dデータと計測値の保存先を分離する 3DデータをAPIサーバーで管理する課題 ペイロードのサイズが大きい GC(Garbage Collection)によるパフォーマンスの低下 署名付きURLによる解決アプローチ 署名付きURLとは APIサーバーを経由せずに3Dデータのやり取りを可能とする 署名付きURLを利用した3Dデータのアップロード APIサーバーを経由する場合 署名付きURLを利用した場合 署名付きURLを利用した3Dデータのダウンロード APIサーバーを経由する場合 署名付きURLを利用した場合 署名付きURLを利用したメリット まとめ 最後に 計測プラットフォーム開発本部 バックエンドチームとは 計測プラットフォーム開発本部バックエンドチームは、ZOZOMAT、ZOZOGLASS、ZOZOSUITによって採集される計測データにまつわるバックエンド開発を担うチームです。アプリやブラウザに対するクライアントAPIや、ZOZOTOWN内部のマイクロサービスのAPIにおいて、徹底的に低レイテンシにこだわりを持つことと、高可用性を保つことを目指しています。 ユビキタス言語 本記事を読む上で必要なユビキタス言語は以下の通りです。 3Dデータ 3Dデータは、被計測者の体型などを3次元で表現するデータです。ZOZOSUITやZOZOMATなどで共通の計測技術を利用して生成されるデータであり、計測時点での身体情報の3D表示を可能とします。ZOZOSUITの場合は被計測者の体型を、ZOZOMATの場合は被計測者の足型を3Dで表現します。 計測箇所 計測箇所は計測の対象となる各部位のことを指します。ZOZOSUITの場合は腕周りや首周り、ZOZOMATの場合は足幅や足長など複数箇所を計測箇所として定義しています。 計測値 計測箇所ごとに計測された数値データを計測値として扱います。 ZOZOMETRYとは ZOZOMETRY とは、事業者の採寸業務を効率化し、採寸が必要な服の売上拡大やコスト削減に貢献するサービスです。多様な業種のビジネスニーズに応えられるよう、計測箇所を柔軟に選択できます。ファッションに限らず、フィットネスや医療、スポーツなど幅広い業種に対応できるように設計されています。 corp.zozo.com ZOZOMETRYのコア機能 ZOZOMETRYのコア機能として、身体計測を実現する機能と、計測データの管理機能があります。身体計測の機能は計測技術により手軽に高精度な計測を実現する機能であり、直近のリリースによりZOZOSUITの着用無しでも計測が可能となりました。計測データの管理機能は計測データの保存、参照、エクスポートなどを行う機能で、計測データの管理を効率化し、より重要な業務に集中できるように設計されています。しかし、身体計測の機能を顧客企業向けに提供するには計測箇所の柔軟なカスタマイズが必要であり、これまでの構成では難しい問題がありました。初めに既存プロダクトにおいてどのような構成で身体計測の機能を提供していたかと、ZOZOMETRYにおいて計測箇所をカスタマイズするために必要だった構成についてご紹介します。 計測箇所のカスタマイズに関する課題 ZOZOMETRYではビジネスニーズに合わせて顧客企業ごとに計測箇所の柔軟なカスタマイズを行えることが重要でした。既存プロダクトでは固定の計測箇所を定義していたため、顧客企業ごとの要望に対応することが難しい状況でした。例えば、ウエストという計測箇所は顧客企業によってはウエストを腰骨の位置から何センチ上で定義しているなど細かな差異があり、1つのウエストという定義では個別の要求に対応できない課題がありました。 計測処理はアプリ内に内包されているSDKにより行われており、内部的には身体をスキャンする処理と計測値を算出する処理が行われています。この構成の場合、計測箇所を追加・編集するにはアプリの更新が必要でした。 計測処理をサーバーが担当する解決アプローチ 計測箇所をカスタマイズ可能とするため、3Dデータの生成と計測値を算出する責務をアプリとサーバーで分離するアプローチを取りました。具体的な方法は割愛しますが、計測値の算出処理をサーバー側に移動することで、計測箇所の追加や更新によるアプリの更新が不要になる想定でした。 システム構成図 既存プロダクトとZOZOMETRYでのシステム構成図の比較は以下の通りです。 既存プロダクトのシステム構成 ZOZOMETRYにおけるシステム構成 システム構成の変更点 アプリ内で行っていた計測値の算出処理をサーバーが担当するように変更しました。また、3Dデータと計測値の保存先はユースケースに合わせて分離する構成を取りました。 計測セットを元に計測箇所をカスタマイズする 計測セットは先述のカスタマイズした計測箇所をさらに顧客企業ごとに必要な計測箇所のまとまりとして定義する機能であり、これにより計測ごとに必要な計測箇所を顧客企業が自由に編集できるようにする機能です。ドメインモデルとしては、以下のような構成となっています。 計測セットのドメインモデル 計測シーケンスの概要 サーバーは計測セットに含まれる計測箇所を元に計測値の算出処理を行います。このアプローチにより、顧客機能のビジネスニーズに合わせた計測処理の提供が可能となりました。 3Dデータと計測値の保存先を分離する 既存プロダクトでは3Dデータと計測値を単一の保存先に格納、管理していましたが、3Dデータと計測値はそれぞれ異なる特性を持っており、それぞれの特性に合わせた最適な保存先を検討する必要がありました。3Dデータは不変である特性を持ち、一度作成されると変更されることがありません。扱いとしてはファイルや画像などと同様に管理することが良いと考え、管理にはAWSが提供するS3を利用しました。S3については多くの記事で紹介されているためここでは割愛しますがパフォーマンスとセキュリティ、可用性の面で優れており、3Dデータの管理に適していると考えました。計測値は3Dデータとは異なり、計測データを管理するコア機能において参照されるユースケースが多くあります。計測を一覧表示する機能や、計測データをCSVエクスポートする機能など、計測値を参照し結合して返す必要がありました。そのため、計測値の管理にはリレーショナルデータベースであるRDSを採用することにしました。 3DデータをAPIサーバーで管理する課題 3Dデータの管理にS3を利用することを決定しましたが、3DデータのS3へのアップロード、ダウンロードをAPIサーバーを経由して行うことに課題がありました。 ペイロードのサイズが大きい 3Dデータはサイズが大きいため、被計測者に計測データを返す際のパフォーマンスが課題でした。ZOZOMATについては3Dデータの送信に対して通信プロトコルを変更するアプローチで対応しました。詳細については下記の記事をご参照ください。 techblog.zozo.com 通信プロトコルを変更することで一定の効果を得ましたが、API経由のスキャンデータのアップロードに時間がかかるなどサイズが大きいことによる課題は残り続けていました。 GC(Garbage Collection)によるパフォーマンスの低下 私たちバックエンドチームではプログラミング言語にScalaを採用しています。技術戦略については下記の記事をご参照ください。 techblog.zozo.com 既存プロダクトでは3Dデータを参照するたびにAPIサーバーを経由してデータを取得します。もちろん、計測データを専用に扱うサーバーを別で建てるように分離することも検討しましたが、初期の設計では立ち上げ期という事情も働き、モノリシックな構成でローンチしています。ScalaはJVM上で動作するためメモリの解放時にGCが発生します。サイズの大きな3Dデータをメモリに繰り返しロードすることでGCも頻発し、パフォーマンスに影響を与える問題がありました。 署名付きURLによる解決アプローチ 署名付きURLとは 署名付きURL はAWS S3バケットに対して一時的なアクセス権限を付与するURLです。これにより、特定のオブジェクトに対して指定された時間内に限り、読み取りまたは書き込みの操作が可能です。 APIサーバーを経由せずに3Dデータのやり取りを可能とする 3Dデータはサイズが大きいためAPIサーバーを経由せずにクライアントとデータのやり取りをすることが重要となりました。署名付きURLを利用することで、APIサーバーに負荷をかけずセキュアにS3へのアップロードを実現できます。 署名付きURLを利用した3Dデータのアップロード APIサーバーを経由する場合 署名付きURLを利用した場合 クライアントとサーバーのやり取りは署名付きURLの発行手続きのみとなり、3DデータのアップロードはクライアントとS3の間で直接行われます。このアプローチによりAPIサーバーの負荷を軽減し、APIサーバーのスケーリングに依存せずデータのやり取りが可能となりました。 署名付きURLを利用した3Dデータのダウンロード APIサーバーを経由する場合 署名付きURLを利用した場合 アップロードと同様に、クライアントとサーバーのやり取りは署名付きURLの発行手続きのみとなり、3DデータのダウンロードはクライアントとS3の間で直接行われます。ダウンロードの場合は署名付きURLをstatus code 302で返し、ダウンロード用のリンクにリダイレクトするようにクライアントに返します。これにより、ブラウザが自動的にリダイレクトを処理するため、クライアント側での実装負担を削減できます。 署名付きURLを利用したメリット 署名付きURLを利用することで以下のメリットがありました。 パフォーマンスの向上 3DデータをAPIサーバーを経由せずにやり取りすることで、APIサーバーの負荷が軽減されました コストの削減 APIサーバーを経由せずに3Dデータがやり取りできるため、サーバーリソースの節約が可能となりました APIサーバーの実装をシンプルに 署名付きURLを利用することでAPIサーバーの実装がシンプルになり、開発やメンテナンスが容易になりました 一方で、署名付きURLを用いたデメリットとして、クライアントでは1回のアップロード操作に対して、署名付きURLの発行リクエストと実際のデータアップロードリクエストの2回のリクエストを処理する必要があります。署名付きURLを多く使用する場合はクライアントの処理が煩雑になるため、実装に注意が必要です。 まとめ ビジネスニーズに合わせて計測処理をサーバーで管理することで、計測箇所の追加や変更のニーズに対応可能となりました。3Dデータと計測値を分離し、それぞれの特性に応じた最適な管理方法を検討しました。また、クライアントとサーバー間の3Dデータの受け渡しに署名付きURLを活用することでAPIサーバーの負荷を軽減しました。 ZOZOMETRYはローンチ後も引き続き機能追加をしており、計測データの管理方法について検討を続けていきたいと考えています。 最後に 計測プラットフォーム開発本部バックエンドチームでは、グローバルに計測技術を開発していくバックエンドエンジニアを募集しています。ご興味のある方は、以下のリンクからぜひご応募ください! hrmos.co
はじめに こんにちは、ZOZOTOWN企画開発部・企画フロントエンド1ブロックの ゾイ です。 ZOZOTOWNトップでは、セール訴求や新作アイテム訴求、未出店ブランドの期間限定ポップアップ、著名人コラボなどの企画イベントが毎日何かしら打ち出されています。私はそのプラットフォームとなる企画LPをメインに実装するチームに在籍しています。 今まで実装した企画LPをアーカイブするプロジェクトにも参加しているので、チームの特性や企画LPの詳細は下記の記事をご覧いただければと思います! techblog.zozo.com 目次 はじめに 目次 背景・課題 仕様・技術選定 1. 型の定義と入力データのバリデーション 2. 入力フォームの実装 3. URLの生成 ユーザーの反応 終わりに 背景・課題 ZOZOTOWNではカルセールバナーなど、アプリとWeb共通で表示させるコンテンツにはURLを分ける必要があります。 例えば、レディーズのトップス商品一覧がある検索結果に遷移したい場合、Webでは以下のようなURLを指定する必要があります。 https://zozo.jp/women-category/tops/ 対して、アプリでは以下のようなスキームを指定する必要があります。 zozotown://index/search?view=result&p_cutyid=2&p_tycid=101 上記のようなURLは施策担当の方が下記の方法で作成し、カルセールバナーやLP内の遷移先に利用することが一般的なフローです。 Web:検索結果のページで絞り込み条件を手動で入れて発行する アプリ:既存のアプリスキーム生成ツールで作る 今まではそれぞれ違う方法でURLを作成していたため、下記のような問題がありました。 WebのURLでの絞り込み条件とアプリのURLでの絞り込み条件が一致しない URL生成に慣れてない部署やチームは作り方に迷うため、PMの負担が高まる 課題を解決するためPMと相談した結果、アプリとWeb用のURLを同時に生成できる「URL生成ツール」を実装することになりました。 仕様・技術選定 検索ページ用のURL生成 商品詳細ページ用のURL生成 アプリ上でLPを確認できるQRコード生成 外部URL遷移用のアプリスキーム生成 上記の機能をミニマムで盛り込み、デザイナー・PM・事業部・エンジニア等、企画に関わる多方面のスタッフにとって嬉しいツールを目指します。今回の記事では主に「1. 検索ページ用のURL生成」の実装方法について紹介したいと思います。 アプリのようにサクサク動くPWA的なサイトにしたかったため、全ての処理がCSRで実現できることを意識しました。そのため、 Next.js 、 MUI 、 Emotion 、 zod などを採用しました。 Googleなどで利用されておりUI的に一番親近感もあってEmotionとも相性が良いため、MUIを採用しました。また、検索ページ用のURL生成には入力フォームが多いため、ユーザーが誤って間違えた値を入力できないよう、エラー検知用にzodを採用しました。 他にも qrcode.react や encoding-japanese などのようなヘルパーパッケージを導入しました。 1. 型の定義と入力データのバリデーション まず、検索ページで利用しているパラメーターを調査し、許可されない値の入力を防ぐ対応を入れます。 下記は「価格(から)」が必ず「価格(まで)」より小さい数字にさせる対応の例です。 const priceSchema = z . object ({ priceFrom : z . union ([ z . literal ( '' ) , z . number () . min ( 0 )]) , priceTo : z . union ([ z . literal ( '' ) , z . number () . min ( 0 )]) , }) . refine (( schema ) => { return ( schema . priceFrom === '' || schema . priceTo === '' || ( schema . priceFrom && schema . priceTo && schema . priceFrom < schema . priceTo ) ) } , 'PriceFrom must be less than PriceTo' ) 上記のような制限をすべて含めて、以下のような型をzodで定義します。 export const schema = z . object ({ // ...省略 gender : z . number () , couponFilter : z . boolean () , discountRate : z . number () . min ( 1 ) . max ( 100 ) . optional () , }) . merge ( priceSchema . innerType ()) 2. 入力フォームの実装 次に、入力フォームを実装します。CSRでURLを生成できるよう、入力フォームの状態をReactのContextを共有する形で実装していきます。入力フォームにはMUIの AutoComplete 、 FormControl 、 TextField を採用しました。特に AutoComplete はアルファベット順のソートや、検索機能もあるためブランド一覧の表示にとても便利です。 入力フォームは以下を考慮して実装しました。 onChange時(ユーザーが何かを入力した時)に、Contextを更新する 入力項目に誤りがあったらエラーUIにさせる ショップなど、Webでは名前、アプリではIDを利用する項目が多いため、データ属性に両方指定する 同時に絞り込みきない項目や必要な項目がない場合、非アクティブ状態にする 以下は「価格(から)」のフォームの実装例です。 export const PriceFrom = () => { // コンテキスト const { searchParamsValue , setSearchParamsValue } = useContext ( SearchContext ) const { priceFrom , ... rest } = searchParamsValue const [ hasError , setHasError ] = useState ( false ) // ユーザーが入力したら値を確認し、問題なかったらコンテキストを更新する const handleChange = ( e: React . ChangeEvent < HTMLInputElement > ) => { const input = parseInt ( e . target . value ) const result = priceSchema . safeParse ({ priceFrom : input , priceTo : searchParamsValue . priceTo , }) if ( ! result . success ) setHasError ( true ) else { setHasError ( false ) setSearchParamsValue ({ priceFrom : input , ... rest }) } } return ( < TextField label = { hasError ? `¥ ${ searchParamsValue . priceTo } 以下の数字を入力してください` : '価格(から)' } type = "number" variant = "standard" onChange = { handleChange } autoComplete = "off" error = { hasError } sx = {{ width : 170 }} InputProps = {{ startAdornment : < InputAdornment position = "start" > ¥ </ InputAdornment > , }} /> ) } 3. URLの生成 最後に、URLを生成します。 まず、アプリとWebによって違う値を利用する項目があるため値を変換する対応を入れます。例えば、キーワード絞り込みはアプリではUTF-8でエンコードされた値を、WebではShift_JISにエンコードされた値を利用します。 export const transformValues = ( searchParameters: SearchParameters , platform: 'web' | 'app' , ) : TransformedValues => { const isApp = platform === 'app' const { keyword } = searchParameters const transformedValues: TransformedValues = { // ...省略 keyword : isApp ? encodeURI ( String ( keyword )) : encodeToShitJis ( String ( keyword )) , } return transformedValues } 次に、アプリとWebのURLを生成する関数を実装します。アプリのURLは全てのパラメーターを繋ぎこむだけで済みますが、Webの場合はZOZOTOWNのドメイン知識が必要なため、もう少し複雑な処理が入っています。そのため、今回の記事では一般的に利用できる、アプリのURLを生成する関数だけ紹介したいと思います。 export const composeAppUrl = ( value: SearchParameters ) => { if ( value === DEFAULT_SEARCH_PARAMS ) return '検索条件を入力してください' // コンテキストの値をアプリ用に変換する const transformedValues = transformValues ( value , 'app' ) const params = { ... value , ... transformedValues , } // queryStringの作成 const queryString = Object . entries ( params ) . reduce (( acc , [ key , val ]) => { if ( ! val ) return acc return acc } , [] as string []) . filter ( Boolean ) . join ( '&' ) // queryStringとpathを繋ぐ return appendQueryStringToPath ( ZOZOTOWN_APP_URL . search , queryString ) } 上記で生成したURLを表示させたら完成です! ユーザーの反応 URL生成ツールを利用していただいている、事業部やPMの方々から以下のようなご意見をいただきました! 複数人で同時に使用できるようになった アプリスキームだけではなくPC/SPのURLも確認できるのがありがたい プルダウン式で項目を選べるのがとても助かるし使いやすい 既存のアプリスキーム作成ツールでは、条件を入力し作成ボタンを押した後、数秒間待つ時間があるのに対し、ZOZO URL GENERATORでは作成結果が即時反映されて嬉しい 各項目のショップIDやブランドIDなどIDを逐一調べず抽出でき工数削減につながった URL生成ツールを通して様々な部署の工数を削減できてよかったと思います。 終わりに 本記事ではURL生成ツールを紹介しました。URL生成ツールの導入によってサイトバナーの管理プロセスや、LPの開発フローを改善できて良かったと思います。 株式会社ZOZOでは、アイデア次第でこんなふうに自由度の高い開発を経験できる環境が整っています! ご興味のある方はぜひ、ご応募お待ちしております! corp.zozo.com
はじめに こんにちは、WEARバックエンド部バックエンドブロックの塩足です。普段は弊社サービスであるWEARのバックエンド開発・保守を担当しています。 WEARのバックエンドでは、これまで自動テスト環境としてCircleCIを使用していましたが、運用保守の改善を目的にGitHub Actionsへ移行しました。 今回は、GitHub Actionsへ移行する際に取り組んだ以下の3点について紹介します。 効率的にテストを分割してテストを並列実行する方法 失敗したテストのみを再実行する仕組みの構築 GitHubのCheck annotationsを活用して、失敗したテスト情報を表示 また、最後に今回行ったテストカバレッジのレポーティングとGitHub Pagesでのホスティングの方法について紹介します。 目次 はじめに 目次 背景 なぜ自動テスト環境をCircleCIからGitHub Actionsに移行したのか テストカバレッジのレポーティングやGitHub Pagesでのホスティングがシンプルに実現可能 octocovの導入が容易 ワークフローをトリガーする豊富なイベント 全社的にGitHub Actionsを推奨 課題 1. CircleCIのタイミングベースでテスト分割する仕組みがGitHub Actionsにない 2. CircleCIの失敗したテストのみを再実行する機能がGitHub Actionsにない 3. GitHub Actionsで失敗したテスト詳細情報へのアクセシビリティが低い 課題解決の方法 1. r7kamura/split-tests-by-timingsアクションを使用したタイミングベースのテスト分割 Download all test results for default branchステップ Split tests by timingsステップ 2. RSpecの--only-failuresオプションで失敗したテストのみ再実行 Download previous test resultステップ Place previous test resultステップ spec/examples.txt JUnit XMLファイル カバレッジデータ Re-run rspec only failuresステップ 3. JUnit XMLファイルとreviewdogを用いて、GitHubのCheck annotationsで失敗したテスト情報を表示 テストカバレッジを活用できる環境整備の方法 octocovを使用してテストカバレッジをPull Requestにレポートする テストカバレッジの結果をGitHub Pagesでホスティングする 今後の展望 Flaky testを検出する機能がない 追加・変更した実装コードのソースコードカバレッジ まとめ 背景 前述の通り、WEARのバックエンドではこれまで自動テスト環境としてCircleCIを使用していました。 なぜ自動テスト環境をCircleCIからGitHub Actionsに移行したのか では、なぜ自動テスト環境をCircleCIからGitHub Actionsに移行したのか、その理由を説明します。 テストカバレッジのレポーティングやGitHub Pagesでのホスティングがシンプルに実現可能 octocov の導入が容易 octocov はコードメトリクスを収集するツールキットです。 octocov には前回のテストカバレッジと比較するdiff機能があります。この機能を使うにはデータストレージが必要です。 CircleCIで利用する際は、外部ストレージを利用する必要があります。一方、GitHub Actionsでは、 octocov がGitHub Actionsアーティファクトをデータストレージとしてサポートしています。また、 k1LoW/octocov-action@v1 アクションが用意されているため、簡単に導入できます。 ワークフローをトリガーする豊富なイベント これまで、CircleCIでは push をトリガーにワークフローを実行していました。しかし、 octocov を利用するには pull_request をトリガーにワークフローを実行する必要があります。 pull_request をトリガーにすると、Pull Requestを作成するまでテスト結果を確認できないため、開発生産性が落ちてしまいます。 そこで、CircleCIで push と pull_request の両方をトリガーする方法を検討しました。しかしながら、両方をトリガーするにはGitHub ActionsからCircleCIのAPIでトリガーする必要があり、全体のワークフローが複雑になってしまいます。一方、GitHub Actionsであれば柔軟なトリガーが可能なため、シンプルに解決できます。 全社的にGitHub Actionsを推奨 全社的に新規のプロジェクトに関しては、基本的にGitHub Actionsの利用を推奨しています。そのため、今後はGitHub Actionsに揃えることで、ナレッジの共有やメンテナンスが容易になると考えました。 上記2つの理由から、自動テスト環境をCircleCIからGitHub Actionsへ移行することを決定しました。 課題 CircleCIからGitHub Actionsに移行するにあたって、以下の3つの課題がありました。 CircleCIのタイミングベースでテスト分割する仕組みがGitHub Actionsにない CircleCIの失敗したテストのみを再実行する機能がGitHub Actionsにない GitHub Actionsで失敗したテスト詳細情報へのアクセシビリティが低い 1. CircleCIのタイミングベースでテスト分割する仕組みがGitHub Actionsにない CircleCIは標準で タイミングデータに基づいたテストの分割 が可能です。GitHub Actionsには同様の機能が備わっていないので、別途仕組みを考える必要があります。 2. CircleCIの失敗したテストのみを再実行する機能がGitHub Actionsにない CircleCIには標準で 失敗したテストのみを再実行 する機能を提供しています。GitHub Actionsには失敗したテストのみ再実行する機能がないため、Flaky test等でテストが失敗した際、全テストを実行する必要があり開発生産性に影響します。 3. GitHub Actionsで失敗したテスト詳細情報へのアクセシビリティが低い CircleCIはJob詳細画面のTESTSタブで失敗したテストを一覧で閲覧できます。 一方、GitHub Actionsには失敗したテストを一覧で閲覧する機能はありません。並列で実行して複数のtestジョブでテストが失敗している場合、失敗しているtestジョブの数だけログを確認する必要があります。 課題解決の方法 まずは以下のようなTestワークフロー( .github/workflows/test.yml )を用意し、これを拡張することで3つの課題を解決していきます。 name : Test on : push : concurrency : group : ${{ github.workflow }}-${{ github.ref }} cancel-in-progress : true env : TEST_JOB_PARALLEL_COUNT : 2 RAILS_ENV : test defaults : run : shell : bash jobs : test : runs-on : ubuntu-latest timeout-minutes : 20 permissions : contents : read actions : read strategy : fail-fast : false matrix : group_index : [ '0,1' , '2,3' ] steps : - name : Checkout uses : actions/checkout@v4 - name : Setup Ruby uses : ruby/setup-ruby@v1 with : bundler-cache : true - name : Setup DB run : bundle exec rails "parallel:setup[`nproc`]" - name : Run rspec in parallel run : bundle exec parallel_rspec -n $((${TEST_JOB_PARALLEL_COUNT} * `nproc`)) --only-group ${{ matrix.group_index }} - name : Upload test result if : ${{ success() || failure() }} uses : actions/upload-artifact@v4 with : name : test-result-${{ matrix.group_index }} path : | test_results/ coverage/.resultset*.json include-hidden-files : true if-no-files-found : ignore このワークフローは matrix strategy を使用して2つ( TEST_JOB_PARALLEL_COUNT )のtestジョブを並列実行します。さらに、各testジョブは parallel_rspec で2つ(= nproc から取得したCPU数)のrspecプロセスを実行します。テストは parallel_rspec によってファイルサイズをベースに4つ(= testジョブ並列数 × CPU数)のグループに分割され、各testジョブで2グループずつ実行されます。テスト結果は test-result-${{ matrix.group_index }} という名前でアーティファクトに保存します。 testジョブのワークフローのフローチャートは以下のようになります。 1. r7kamura/split-tests-by-timings アクションを使用したタイミングベースのテスト分割 課題1を解決するための、タイミングベースのテスト分割について説明します。 parallel_rspec のオプション --group-by に runtime を指定することで、タイミングベースでテスト分割できます。しかし、今回はより汎用的に利用できる r7kamura/split-tests-by-timings アクションを採用しました。 r7kamura/split-tests-by-timings アクションはJUnit XMLファイルを元にタイミングベースでテスト分割するアクションです。つまり、過去のテスト結果からJUnit XMLファイルを抽出し、 r7kamura/split-tests-by-timings アクションに渡す必要があります。 タイミングベースでテスト分割するために、testジョブを以下のように修正します。 @@ -25,7 +25,7 @@ jobs: strategy: fail-fast: false matrix: - group_index: ['0,1', '2,3'] + test_job_index: [0, 1] steps: - name: Checkout uses: actions/checkout@v4 @@ -35,13 +35,30 @@ jobs: bundler-cache: true - name: Setup DB run: bundle exec rails "parallel:setup[`nproc`]" + - name: Download all test results for default branch + uses: dawidd6/action-download-artifact@v6 + with: + name: test-result-* + name_is_regexp: true + path: ${{ runner.temp }}/default-branch-test-results + branch: ${{ github.event.repository.default_branch }} + workflow_conclusion: success + if_no_artifact_found: warn + - name: Split tests by timings + uses: r7kamura/split-tests-by-timings@v0 + id: split-tests + with: + reports: ${{ runner.temp }}/default-branch-test-results/**/test_results + glob: spec/**/*_spec.rb + index: ${{ matrix.test_job_index }} + total: ${{ env.TEST_JOB_PARALLEL_COUNT }} - name: Run rspec in parallel - run: bundle exec parallel_rspec -n $((${TEST_JOB_PARALLEL_COUNT} * `nproc`)) --only-group ${{ matrix.group_index }} + run: bundle exec parallel_rspec -n `nproc` ${{ steps.split-tests.outputs.paths }} - name: Upload test result if: ${{ success() || failure() }} uses: actions/upload-artifact@v4 with: - name: test-result-${{ matrix.group_index }} + name: test-result-${{ matrix.test_job_index }} path: | test_results/ coverage/.resultset*.json testジョブにおいて以下の点線で囲った2つのステップが追加されます。 追加した2つのステップについて説明します。 Download all test results for default branch ステップ このステップではデフォルトブランチで成功している最新のテスト結果をダウンロードします。テストは複数のジョブで分散して実行されるため、その全てのテスト結果を取得する必要があります。 公式で用意されている actions/download-artifact アクションでは、ブランチやワークフロー実行のステータス等を指定してダウンロードできません。そこで、より柔軟に指定できる dawidd6/action-download-artifact アクションを使用することにしました。 dawidd6/action-download-artifact アクションの各入力パラメータについては以下の表で説明します。 キー 値 name ダウンロードするアーティファクト名のパターンを指定します。 name_is_regexp nameで正規表現を利用できるように、 true を設定します。 path ダウンロードするファイルパスを指定します。 branch ブランチでアーティファクトを検索します。今回はデフォルトブランチを指定します。 workflow_conclusion ワークフローのステータスでアーティファクトを検索します。今回は成功しているワークフローのみに絞り込むため、 success を指定します。 if_no_artifact_found アーティファクトが見つからない場合の挙動を定義します。 初回実行を考慮してアーティファクトが存在しない場合でも動作するように warn を指定しています。 Split tests by timings ステップ r7kamura/split-tests-by-timings アクションはJUnit XMLファイルを元にタイミングベースでテストを分割します。 r7kamura/split-tests-by-timings アクションの各入力パラメータについては以下の表で説明します。 キー 値 reports JUnit XMLのファイルパスを指定します。 指定したパスにある全てのXMLファイルからタイミングデータを取得します。 glob テストファイルのglobパターンを指定します。 index 分割したグループのインデックスを指定します。 total 分割するグループ数を指定します。 今回はtestジョブの数だけグループを作成します。 分割されたファイルパスのリストは ${{ steps.split-tests.outputs.paths }} でアクセスできます。 Split tests by timings ステップで分割したファイルパスのリストを Run rspec in parallel ステップで使用することで、タイミングベースのテスト分割ができます。タイミングベースのテスト分割によりtestジョブは約30秒高速化しました。 2. RSpecの --only-failures オプションで失敗したテストのみ再実行 課題2を解決するため、失敗したテストのみを再実行する方法を説明します。 CircleCIでは circleci tests run を使用することで、失敗したテストのみ再実行できましたが、GitHub Actionsにそういった機能は用意されていません。一方で、RSpecには --only-failures オプションが用意されています。 --only-failures オプションは、実行されるテストをフィルタリングして、前回実行時に失敗したテストだけが実行されるようにします。 失敗したテストのみを再実行するために、testジョブを以下のように修正します。 @@ -33,9 +33,35 @@ jobs: uses: ruby/setup-ruby@v1 with: bundler-cache: true + - name: Download previous test result + uses: actions/download-artifact@v4 + with: + pattern: test-result-${{ matrix.test_job_index }} + path: ${{ runner.temp }} + - name: Place previous test result + id: previous-test-result + env: + TEST_RESULT_DIR: ${{ runner.temp }}/test-result-${{ matrix.test_job_index }} + run: | + if [ -f ${TEST_RESULT_DIR}/spec/examples.txt ]; then + mv ${TEST_RESULT_DIR}/spec/examples.txt spec/examples.txt + echo "failed-tests-only=true" >> $GITHUB_OUTPUT + fi + suffix="_`date +%s`" + mkdir -p test_results coverage + if [ -e ${TEST_RESULT_DIR}/test_results ]; then + mv ${TEST_RESULT_DIR}/test_results/* test_results/ + find test_results -type f -name "*.xml" | sed "p;s/.xml/${suffix}.xml/" | xargs -n2 mv + bundle exec rails runner "Dir['test_results/**/*.xml'].each { |path| File.write(path, Nokogiri(File.read(path)).tap { _1.css('testcase:has(failure)').remove }.to_s) }" + fi + if [ -e ${TEST_RESULT_DIR}/coverage ]; then + mv ${TEST_RESULT_DIR}/coverage/.resultset*.json coverage/ + find coverage -type f -name "*.json" | sed "p;s/.json/${suffix}.json/" | xargs -n2 mv + fi - name: Setup DB run: bundle exec rails "parallel:setup[`nproc`]" - name: Download all test results for default branch + if: ${{ !steps.previous-test-result.outputs.failed-tests-only }} uses: dawidd6/action-download-artifact@v6 with: name: test-result-* @@ -45,6 +71,7 @@ jobs: workflow_conclusion: success if_no_artifact_found: warn - name: Split tests by timings + if: ${{ !steps.previous-test-result.outputs.failed-tests-only }} uses: r7kamura/split-tests-by-timings@v0 id: split-tests with: @@ -53,7 +80,11 @@ jobs: index: ${{ matrix.test_job_index }} total: ${{ env.TEST_JOB_PARALLEL_COUNT }} - name: Run rspec in parallel + if: ${{ !steps.previous-test-result.outputs.failed-tests-only }} run: bundle exec parallel_rspec -n `nproc` ${{ steps.split-tests.outputs.paths }} + - name: Re-run rspec only failures + if: ${{ steps.previous-test-result.outputs.failed-tests-only }} + run: bundle exec rspec --only-failures - name: Upload test result if: ${{ success() || failure() }} uses: actions/upload-artifact@v4 @@ -61,6 +92,7 @@ jobs: name: test-result-${{ matrix.test_job_index }} path: | test_results/ + spec/examples.txt coverage/.resultset*.json include-hidden-files: true if-no-files-found: ignore testジョブにおいて以下の点線で囲った3つのステップが追加されます。 追加した3つのステップについて説明します。 Download previous test result ステップ actions/download-artifact アクションで前回のテスト結果のアーティファクトをダウンロードします。 GitHub Actionsのジョブの実行はいくつか方法がありますが、通常はイベントトリガーで実行されます。また、再実行はGitHub Actionsの実行詳細ページにある以下のボタンから「Re-run all jobs」と「Re-run failed jobs」を選択して実行できます。 このジョブの実行方法の違いによりアーティファクト取得の挙動が変化します。 実行方法 アーティファクト取得の挙動 イベントトリガー アーティファクトがまだ存在しないため、取得できません。 Re-run all jobs すべてのジョブのアーティファクトがリセットされます。 つまり、挙動としては イベントトリガー と同じになります。 Re-run failed jobs 成功したジョブのアーティファクトは変更されず、そのまま保存されます。 失敗したジョブのアーティファクトは 再利用 でき、再実行後にそのジョブの新しいアーティファクトで 上書き できます。 Re-run failed jobs の場合、失敗したジョブのアーティファクトは再利用できるため、前回のテスト結果を利用できることになります。 Place previous test result ステップ Download previous test result ステップで前回のテスト結果をダウンロードできた場合、以下の3つのファイルを適切に配置する必要があります。 spec/examples.txt JUnit XMLファイル カバレッジデータ それでは1つずつ説明します。 spec/examples.txt spec/examples.txt は、RSpecの実行結果に関する情報を記録するためのファイルです。このファイルには、前回のRSpec実行時にどのテストが成功したか、失敗したかなどの情報が保存されます。 また、 --only-failures オプションを使用するには以下のように、 spec/examples.txt を spec/spec_helper.rb に設定する必要があります。 RSpec .configure do |config| config.example_status_persistence_file_path = ' spec/examples.txt ' end JUnit XMLファイル JUnit XMLファイルは以下の2箇所で利用します。 r7kamura/split-tests-by-timings アクションを使用したタイミングベースのテスト分割 後述するGitHubのCheck annotationsで失敗したテスト結果を表示 bundle exec rspec --only-failures を実行すると、JUnit XMLのファイルは前回失敗したテストだけの結果に上書きされます。タイミングベースでテスト分割する際に、全体のテスト結果が必要になるため、別の名前にリネームして残しておく必要があります。 当然、このファイルには前回失敗したテスト結果が含まれています。前回失敗したテストは再実行されるため、前回失敗したテスト結果だけ事前に削除しておく必要があります。 path = ' test_results/rspec.xml ' File .write(path, Nokogiri( File .read(path)).tap { _1.css( ' testcase:has(failure) ' ).remove }.to_s) カバレッジデータ このファイルはテストカバレッジをレポートする際に利用します。このファイルもJUnit XMLファイルと同様に bundle exec rspec --only-failures を実行すると、上書きされてしまいます。そのため、カバレッジデータも別のファイル名にリネームして残しておく必要があります。 前回のテスト結果がある場合は ${{ steps.previous-test-result.outputs.failed-tests-only }} に true が設定され、後続する処理で利用されます。 Re-run rspec only failures ステップ 前回のテスト結果がある場合のみ bundle exec rspec --only-failures を実行します。 これで Re-run failed jobs から再実行した場合に、失敗したテストのみを再実行する方法が実現できました。 3. JUnit XMLファイルとreviewdogを用いて、GitHubのCheck annotationsで失敗したテスト情報を表示 課題3を解決するために、GitHubのCheck annotationsで失敗したテスト情報を表示する方法について説明します。 reviewdog は Reviewdog Diagnostic Format(RDFormat) という独自のフォーマットを利用して任意のlinterと連携できます。 JUnit XMLのデータは、エラーが発生したテストのファイルパス、テスト名(full_description)、エラーメッセージを保持しています。 reviewdog を使用し、JUnit XMLのデータだけでエラー情報を表示すると以下のようになります。 対象ファイルの1行目にエラー情報が全て表示されるため、どのテストの情報なのか分かりにくくなってしまいます。 そこで、各テスト名の行番号を取得してエラー情報を見やすくする方法を検討しました。今回は RSpec::Core::ExampleGroup オブジェクトの metadata から行番号を取得する方法を採用しました。 以下のファイル( scripts/generate_rspec_reviewdog_json.rb )はJUnit XMLファイルからRDFormatファイルを生成するスクリプトとなります。 require ' nokogiri ' $LOAD_PATH .unshift ' spec ' require ' rails_helper ' # RSpecのExampleGroupを再帰的に辿り、全てのExampleを取得する # @param example_group [RSpec::Core::ExampleGroup] # @return [Array<RSpec::Core::Example>] def collect_all_examples (example_group) example_group.examples + example_group.children.flat_map { collect_all_examples(_1) } end # ExampleGroupからfull_descriptionとline_numberの対応関係を生成する # @param example_group [RSpec::Core::ExampleGroup] # @return [Hash{String => Integer}] def map_description_to_line_number (example_group) collect_all_examples(example_group) .each_with_object({}) { |example, obj| obj[example.metadata[ :full_description ]] = example.metadata[ :line_number ] } end # キャッシュを利用して、ファイルパスに対応するfull_descriptionとline_numberの対応関係を生成する # @param path [String] # @return [Proc] def cached_description_to_line_number cache = {} ->(path) { cache[path] ||= begin example_group = eval ( File .read(path)) # rubocop:disable Security/Eval map_description_to_line_number(example_group) end } end # JUnit XMLファイルからRDFormatのデータを生成する # @param junit_xml_file_path [String] # @return [Array<Hash>] def parse_junit_failures (junit_xml_file_path) description_mapper = cached_description_to_line_number Nokogiri( File .open(junit_xml_file_path)).css( ' testsuite testcase failure ' ).map do |failure_elem| elem = failure_elem.parent path = elem.attr( ' file ' ) description_to_line = description_mapper.call(path) { message : failure_elem.text, location : { path : path, range : { start : { line : description_to_line[elem.attr( ' name ' )] } } } } end end File .open( ENV .fetch( ' REVIEWDOG_JSON_FILE_PATH ' ), ' w ' ) do |f| Dir [ ENV .fetch( ' JUNIT_XML_FILE_PATH_PATTERN ' )].each do |junit_xml_file_path| rows = parse_junit_failures(junit_xml_file_path) f.puts(rows.map(& :to_json ).join( "\n" )) if rows.present? end end 上記スクリプトを利用して、TestワークフローにGitHubのCheck annotationsで失敗したテスト情報を表示する report-failed-tests ジョブを追加しました。 report-failed-tests : needs : test runs-on : ubuntu-latest timeout-minutes : 5 continue-on-error : true permissions : contents : read pull-requests : write if : ${{ success() || failure() }} env : REVIEWDOG_JSON_FILE_NAME : rspec_reviewdog.jsonl steps : - name : Checkout uses : actions/checkout@v4 - name : Setup Ruby uses : ruby/setup-ruby@v1 with : bundler-cache : true - name : Setup reviewdog uses : reviewdog/action-setup@v1 with : reviewdog_version : v0.20.0 - name : Download all test results uses : actions/download-artifact@v4 with : pattern : test-result-* path : ${{ runner.temp }}/test-results - name : Generate RSspec reviewdog json env : JUNIT_XML_FILE_PATH_PATTERN : ${{ runner.temp }}/test-results/**/test_results/*.xml REVIEWDOG_JSON_FILE_PATH : ${{ runner.temp }}/${{ env.REVIEWDOG_JSON_FILE_NAME }} run : bundle exec ruby scripts/generate_rspec_reviewdog_json.rb - name : Run rspec reviewdog env : REVIEWDOG_GITHUB_API_TOKEN : ${{ github.token }} REVIEWDOG_JSON_FILE_PATH : ${{ runner.temp }}/${{ env.REVIEWDOG_JSON_FILE_NAME }} run : | cat $REVIEWDOG_JSON_FILE_PATH | reviewdog -f=rdjsonl -reporter=github-check report-failed-tests ジョブでは scripts/generate_rspec_reviewdog_json.rb を実行してRDFormatのファイルを作成します。作成されたRDFormatファイルは reviewdog に渡されて、 reviewdog 内でGitHub APIの Update a check run を実行します。 report-failed-tests ジョブを実行した結果、以下のように各テストの行にエラー情報が表示されるようになりました。 テストカバレッジを活用できる環境整備の方法 最後に、テストカバレッジを活用できる環境整備の方法について説明します。 octocov を使用してテストカバレッジをPull Requestにレポートする まずアプリケーションに以下の .octocov.yml ファイルを用意します。 coverage : paths : - coverage/.resultset.json acceptable : 60% codeToTestRatio : acceptable : 1:1.2 code : - "app/**/*.rb" - "lib/**/*.rb" test : - "spec/**/*_spec.rb" diff : datastores : - artifact://${GITHUB_REPOSITORY} comment : if : is_pull_request && !is_default_branch hideFooterLink : false deletePrevious : true report : if : is_default_branch datastores : - artifact://${GITHUB_REPOSITORY} .octocov.yml ファイルは以下のような設定になっています。 テストカバレッジは60%未満の時、exist status 1で終了する コードとテストの割合が 1 : 1.2 未満の時、exist status 1で終了する デフォルトブランチとのテストカバレッジの差分を表示する コメントはデフォルトブランチ以外のPull Requestの場合に行う 次にTestワークフローに以下の report-coverage ジョブを追加します。 report-coverage : needs : test runs-on : ubuntu-latest timeout-minutes : 5 permissions : contents : read pull-requests : write if : ${{ success() || failure() }} steps : - name : Checkout uses : actions/checkout@v4 - name : Setup Ruby uses : ruby/setup-ruby@v1 with : bundler-cache : true - name : Download all test results uses : actions/download-artifact@v4 with : pattern : test-result-* path : ${{ runner.temp }}/test-results - name : Aggregate all coverage resultsets run : bundle exec rails runner "require 'simplecov'; SimpleCov.collate(Dir['${{ runner.temp }}/test-results/**/coverage/.resultset*.json'], 'rails')" - name : Report coverage by octocov uses : k1LoW/octocov-action@v1 - name : Upload coverage uses : actions/upload-artifact@v4 with : name : coverage path : coverage include-hidden-files : true report-coverage ジョブはテスト結果をダウンロードし、複数 test ジョブで生成されたカバレッジデータを SimpleCov.collate で集計します。集計したカバレッジデータを k1LoW/octocov-action@v1 に与えることでPull Requestにテストカバレッジをレポートすることが出来ます。 しかし、この方法ではテストカバレッジをレポートできないケースがあります。Testワークフローは push をトリガーに実行されます。つまり、このTestワークフローの report-coverage ジョブが実行している時点でPull Requestが存在しない場合、テストカバレッジをレポートできません。そこで、 pull_request をトリガーに実行する Report coverageワークフロー ( .github/workflows/report-coverage.yml )を用意します。 name : Report coverage on : pull_request : types : opened concurrency : group : ${{ github.workflow }}-${{ github.ref }} cancel-in-progress : true env : TEST_WORKFLOW_FILE_NAME : test.yml COVERAGE_ARTIFACT_NAME : coverage defaults : run : shell : bash jobs : report-coverage : runs-on : ubuntu-latest timeout-minutes : 5 permissions : contents : read pull-requests : write actions : read env : GH_TOKEN : ${{ github.token }} steps : - name : Checkout uses : actions/checkout@v4 - name : Get run_id of test workflow id : get-run-id run : | gh api \ -H "Accept: application/vnd.github+json" \ -H "X-GitHub-Api-Version: 2022-11-28" \ "/repos/${GITHUB_REPOSITORY}/actions/workflows/${TEST_WORKFLOW_FILE_NAME}/runs?head_sha=${{ github.event.pull_request.head.sha }}&status=completed" | \ jq '.workflow_runs | sort_by(.id)[] | select(.conclusion == "success" or .conclusion == "failure") | .id' | \ jq -sr '"test-run-id=\(last)"' >> $GITHUB_OUTPUT - name : Download coverage if : ${{ steps.get-run-id.outputs.test-run-id != 'null' }} uses : actions/download-artifact@v4 with : name : ${{ env.COVERAGE_ARTIFACT_NAME }} path : coverage run-id : ${{ steps.get-run-id.outputs.test-run-id }} github-token : ${{ github.token }} - name : Coverage Report by octocov if : ${{ hashFiles('coverage/.resultset.json') }} uses : k1LoW/octocov-action@v1 Report coverageワークフローの report-coverage ジョブはTestワークフローの report-coverage ジョブで保存したcoverageアーティファクトを利用します。ただし、Report coverageワークフローがトリガーされた時点でTestワークフローのcoverageアーティファクトが存在しない場合は処理をスキップします。 このように、 push と pull_request の両方のトリガーを利用することで、テストカバレッジをPull Requestにレポートできました。 テストカバレッジの結果をGitHub Pagesでホスティングする 続いて、テストカバレッジの結果をGitHub Pagesでホスティングする方法を説明します。 Testワークフローに以下の build-github-pages ジョブと deploy-github-pages ジョブを追加します。どちらのジョブもデフォルトブランチの場合のみ実行します。 build-github-pages : needs : report-coverage runs-on : ubuntu-latest timeout-minutes : 5 if : ${{ format('refs/heads/{ 0 }', github.event.repository.default_branch) == github.ref }} steps : - name : Download coverage uses : actions/download-artifact@v4 with : name : coverage path : coverage - name : Upload pages artifact uses : actions/upload-pages-artifact@v3 with : path : coverage deploy-github-pages : needs : build-github-pages runs-on : ubuntu-latest timeout-minutes : 5 if : ${{ format('refs/heads/{ 0 }', github.event.repository.default_branch) == github.ref }} permissions : pages : write id-token : write environment : name : github-pages url : ${{ steps.deployment.outputs.page_url }} steps : - name : Deploy to GitHub Pages id : deployment uses : actions/deploy-pages@v4 build-github-pages ジョブは actions/upload-pages-artifact@v3 アクションでcoverageをアーカイブします。そして、アーカイブしたファイルを github-pages というアーティファクト名でアップロードします。 deploy-github-pages ジョブは actions/deploy-pages@v4 アクションで github-pages アーティファクトをGitHub Pagesにデプロイします。 これでテストカバレッジを活用できる環境整備ができました。 今後の展望 以上の取り組みによって、テストカバレッジを活用できる環境を整えつつ、CircleCIからGitHub Actionsへ移行出来ました。 しかし、まだ改善余地があり、以下のような課題があります。 Flaky testを検出する機能がない CircleCIにはFlaky testを検出できる テスト インサイト機能 があります。GitHub ActionsにはFlaky testを検出できる機能がないため、別途用意する必要があります。 追加・変更した実装コードのソースコードカバレッジ テストカバレッジの結果をGitHub Pagesでホスティングすることで、デフォルトブランチのテストカバレッジをソースファイル単位で確認できるようになりました。しかし、Pull Requestのテストカバレッジを確認するにはアーティファクトからダウンロードする必要があるため、Pull Request上で確認するには仕組みを考える必要があります。 今後は、これらの課題を解決する方法を検討したいと思います。 まとめ 本記事ではRailsアプリケーションの自動テスト環境をCircleCIからGitHub Actionsへ移行した際に発生した課題とその解決方法に関して紹介しました。Railsアプリケーションの自動テスト環境をCircleCIからGitHub Actionsへ移行を検討している方がいれば、ぜひ参考にしてみてください。 ZOZOでは、一緒にサービスを作り上げてくれる方を募集中です。ご興味のある方は、以下のリンクからぜひご応募ください。 corp.zozo.com
はじめに こんにちは、データシステム部MLOpsブロックの薄田( @udus122 )です。 この記事ではFour Keysなどの指標を活用して、定量的な根拠に基づきチームの開発生産性を改善する考え方とふりかえり手法を紹介します。 Four Keysとはデプロイ頻度、変更のリードタイム、変更障害率、平均修復時間の4つの指標からなるソフトウェアデリバリーや開発生産性の指標です。 Four Keysなど開発生産性の指標を計測し、定期的にふりかえっているけれど、なかなか具体的な改善につながらない。 そんな悩みはないでしょうか? 実際に私たちのチームで抱えていた開発生産性の改善に関する課題と解決策を紹介します。皆さんのチームで開発生産性を改善する際のご参考になれば幸いです。 目次 はじめに 目次 開発生産性の改善に取り組んだ背景 チームの改善に取り組む上での課題 Four Keysの考え方に対する理解不足 指標に含まれるノイズ ステージング環境を含めた変更障害の集計定義 変更障害の修正以外のrevert活用 幅広い業務内容による指標の上振れ ふりかえりプロセスから「要因の把握」が漏れていた チームの改善サイクルを回すために行った工夫 Four Keysの考え方についてチーム内で認識を合わせた 指標の定義と集計対象を明確化し外れ値を除外した ブランチ名でふりかえるべき失敗と些細なミスを区別した ふりかえりの準備で外れ値を除外する運用を行った 「プルリク深掘り」という手法でふりかえりを実施し、改善に繋がりやすい工夫をした 役割分担 タイムテーブル 進行の流れ 前回のふりかえり Four Keys指標の確認と変更障害プルリクの深掘り サイクルタイム分析の確認と個別のプルリクの深掘り 改善アクションの優先順位の投票 ネクストアクションの明確化 ふりかえりから生まれた改善施策と効果 まとめ 開発生産性の改善に取り組んだ背景 MLOpsブロックがFour Keysを活用した開発生産性の改善に取り組んだ背景ときっかけを紹介します。 MLOpsブロックは ZOZOTOWN や WEAR の推薦、検索といった機械学習系のマイクロサービスを開発・運用するチームです。MLプロダクトを世に出すために必要となるモデル作成以外の全てのエンジニアリングを担当しています。API開発からインフラの設計構築、CI/CDパイプラインの構築、負荷試験、アラート対応、実験基盤の整備など業務は多岐に渡ります。 MLOpsブロックでは週に1度業務のふりかえりを実施しています。ふりかえりはKPTの形式で実施していました。KPTは「Keep、Problem、Try」の3要素を検討するふりかえりのフレームワークです。 ZOZOでは開発生産性の指標を可視化するため全社的に Findy Team+ を導入しています。Findy Team+は GitHub Pull Request(以下プルリク)のステータスの変化などから開発生産性の指標を集計・可視化してくれるツールです。MLOpsブロックでもFindy Team+を使ってFour Keysなど開発生産性の指標を確認できる状態でした。 従来はふりかえりを始める前にDevOps分析(Four Keys)を確認する流れでFindy Team+を活用していました。 しかし指標を観測してもこれを活用した具体的な開発生産性の改善は滞っていました。 そんな中、2024年度の全社目標で生産性の向上が掲げられました。これをきっかけに改めて開発生産性の指標を活用して、チームの開発生産性を改善する取り組みを始めました。 チームの改善に取り組む上での課題 MLOpsブロックの開発生産性の改善における課題は、観測した指標を具体的なチームの改善行動に活かせていないことでした。 特に開発生産性の指標が変化する要因を把握できていないことが大きな問題でした。 これまでの経験から、開発生産性の指標を活用したチーム改善のプロセスは次の流れで進めるのが理想だと考えています。 開発生産性の指標の変化を観測する 指標の変化要因となった事実を特定する 事実から横展開可能な成功や改善すべき失敗を発見する 成功や失敗から具体的な改善点を決め、実行する 改善行動の結果、指標が変化したかどうかを確認する(ステップ1に戻る) 開発生産性の指標を活用してチームを改善するには、ステップ2で変化要因となった事実を把握することが重要です。ステップ3での成功や失敗原因の分析はステップ2で変化の要因となった事実を起点に考えます。以前のMLOpsブロックで行っていたように指標を見て良かった点や悪かった点を考えるだけでは不十分です。 実際MLOpsブロックでもこの「指標が変化した要因の把握」がうまくいっていませんでした。原因は大きく3つありました。 Four Keysの考え方に対する理解不足 指標に含まれるノイズ ふりかえりプロセスでの「要因の把握」の漏れ 次にそれぞれの課題について詳細を説明します。 Four Keysの考え方に対する理解不足 Four Keysの可視化はFindy Team+を利用することで実現できていました。しかしその背後にある考え方に対する理解度は浅く、指標の背後にある原因を考えたり、指標の変化から改善策を検討したりする材料が少ない状態でした。 Four Keysは単独でみるとソフトウェアデリバリーのパフォーマンスを示す指標です。チームの生産性を示す指標ではありません。Four Keysはチームのデリバリーパフォーマンスを結果としてのみ表します。そのため変化の要因やその他の影響については、Four Keysの指標のみでは判断できません。 変化の要因やその他の影響を無視すると、例えば目先のデリバリーを優先して長期的なコードの保守性を疎かにしてしまうリスクがあります。デプロイ頻度・変更リードタイムの改善を重視し過ぎて他のことが疎かになってしまうと本末転倒です。 Four Keysを提唱した DORA の研究では、背後にあるチームのCapability 1 とセットで分析し、Four Keysが生産性などの組織全体のOutcome 2 と関連があることを示しています。つまり、Four Keysを開発生産性の指標として扱う場合は単独で見るのではなく、背後に存在するCapabilityとセットで見る必要があります。 以下が最新版(2024年9月23日時点)のDORA Core Modelです( DORA | Research より引用)。 こちらの図からチームのCapability、Performance、Outcomeの関係が読み取れます。チームのCapabilityがFour Keysなどのパフォーマンス指標を説明し、パフォーマンス指標から組織のOutcomeを予測できることを示しています。大元の出発点としてチームのCapabilityがあり、Four Keysを変化させる要因であることが読み取れます。 このことから改善すべき対象はチームのCapabilityであり、Four KeysはCapabilityの改善結果を確認するための指標であるとわかります。 以前はこの考え方が念頭になかったため、指標を見ても何を改善すればよいか分からず具体的な改善施策につなげることができていませんでした。 指標に含まれるノイズ 指標に含まれるノイズが原因で、指標の変化からチームのCapabilityの改善につながる事実を抽出することが困難という問題もありました。 ここで言うノイズ 3 とは、チームのCapability以外に由来する指標の変化です。指標の集計定義や集計の仕組みの不完全さに由来するリードタイムの外れ値や例外的な変更障害などが該当します。 指標の変化からチームのCapabilityを改善するには、指標の変化がチームのCapabilityに紐づいていることが大切です。しかしこのようなノイズが指標に含まれることでチームのCapabilityに関わる事実が見えにくくなっていました。 MLOpsブロックの指標におけるノイズの原因は次の3つでした。 ステージング環境を含めた変更障害の集計定義 変更障害の切り戻し以外のRevert活用 幅広い業務内容による指標の上振れ 順番に説明します。 ステージング環境を含めた変更障害の集計定義 変更障害率の一般的な定義は「デプロイが原因で本番環境で障害が発生する割合(%)」です。cf. エリート DevOps チームであることを Four Keys プロジェクトで確認する Findy Team+の定義では不具合を含む変更が本番環境にデプロイされた時、変更障害としてカウントします。逆に言えば不具合を含む変更であっても本番環境へデプロイされていなければ変更障害としてカウントしません。 一方で私たちのチームでは本番環境の前段のステージング環境への反映においても、不具合が発生した場合は変更障害としてカウントしています。我々の変更障害の定義は「本番/ステージング環境において変更をデプロイにより意図しない不具合が発生すること」です。 なぜ通常よりも厳しい定義を採用しているのか説明します。 MLOpsブロックでは次のブランチ戦略を採用しています。 メインブランチ( main )の内容がステージング環境に反映される リリースブランチ( release )の内容が本番環境に反映される 開発作業は、メインブランチからフィーチャーブランチ(ブランチ名は任意)を作成する メインブランチに変更が加わる度に、その内容をリリースブランチに反映するリリースプルリクが自動で作成・更新される リリースする際は、メインブランチから発行されるリリースプルリクをマージする 本番環境に対する変更は常にリリースプルリクを経由して反映されます。リリースプルリクのブランチ名も常に固定です。しかしFindy Team+はブランチ名から変更障害を判定する仕組みになっているため、本番環境に対する変更が通常のリリースなのか変更障害を修復するものなのか区別できません。そのため本番環境における変更障害を集計対象に含めることができませんでした。 またリリースプルリクはメインブランチに変更が反映されると自動で作成されます。リリースプルリクにはこれからステージング環境で検証する変更も含まれます。そのためタイミングによっては検証中の変更を他の人が誤って本番リリースしてしまう危険もあります。このように、ブランチの運用ルール上ステージング環境に反映されている内容は常に本番環境にも反映される可能性がありました。そのためチームの理想はステージング環境にも変更障害がないことでした。 MLOpsブロックの業務にはCI/CD整備やインフラ構築などが含まれます。問題があると本番環境への適用前にリリースが失敗する、または問題があってもユーザー影響のある障害にはつながらない作業も少なくありません。ステージング環境での変更障害も集計に含めることで、これらの作業で発生した問題も指標に反映されてふりかえりが可能になるメリットもありました。 まとめると次の3つの理由から集計の定義にステージング環境を含める判断をしました。 Findy Team+の集計の仕組みとリリースプルリクの運用ルールの兼ね合いに問題があったため ステージング環境の変更はそのまま本番環境への影響につながるリスクがあるため ステージング環境における問題をふりかえりの俎上にのせるため 一方でこの定義変更により、本番環境に影響がなかった些細なミスも集計対象に含まれ、ノイズとなっていました。ステージング環境で発見できた小さな失敗(タイプミスなど)まで含めてふりかえりで会話し対策を検討しているとキリがありません。ふりかえりの時間は有限です。 変更障害の修正以外のrevert活用 Findy Team+では変更障害の発生を判定する際に直接的な判定は難しいため、変更障害の修正プルリクの有無で判定します。MLOpsブロックでは名前が"hotfix"または"revert"から始まるブランチを変更障害の修正プルリクのブランチ名としています。これに一致するブランチがメインブランチにマージされたことを持って変更障害の発生を集計していました。 2種類のブランチ名は、次の2つの方法で作られた修正プルリクを変更障害として集計するために使い分けています。 "hotfix": 手動で発行された変更障害の修正プルリクを判定する "revert": GitHubのPull Request revert機能 を利用した変更障害の修正プルリクを判定する Findy Team+での集計でノイズとなったのは"revert"のプルリクでした。 GitHubのPull Request revert機能で作られる"revert"プルリクの変更内容は大きく分けて2種類ありました。 変更障害の修復 一時的な設定変更などの切り戻し 前者は変更障害ですが、後者は変更障害として含めたくありません。一時的な設定変更などを切り戻す際にrevert機能を使わないことでこの問題は回避可能です。しかし、GitHubのPull Request revert機能は便利です。GitHubのUIからワンクリックで修正できる変更を手作業で行うのは無駄が多くミスのリスクも高まります。そのため他の方法で課題を解決する必要がありました。 幅広い業務内容による指標の上振れ MLOpsブロックの業務は多岐に渡るためプルリクの種類も様々です。中には簡単な設定変更や権限付与などリードタイムが極端に短く済むプルリクも多くあります。 それらはデプロイ頻度やリードタイムの指標を底上げし、結果として全体の開発生産性スコアも業界のベンチマークと比較して上振れていました。 見た目上のスコアが良くても、チームに課題がないのかというとそうではありません。これまで指標のスコアが見かけ上高くなっていたことにより、課題のあるプルリクを見逃してしまうケースがありました。 ふりかえりプロセスから「要因の把握」が漏れていた 従来のふりかえりプロセスには、指標の変化のみを見て要因となった事実を確認するステップがないという問題がありました。 従来のふりかえりの流れでは最初にFindy Team+のDevOps分析(Four Keys)を確認し、すぐにKeepとProblemの検討を始めていました。 この流れでは、指標を見てもなぜそのように変化したのか曖昧なまま改善点を出すことになります。結果として、チームの改善までつなげづらい状況となっていました。 下の図は従来のプロセスで進めたある日のふりかえりのKPTです。各人のKPTがバラバラに配置されており、具体的な問題ではなく個人のアイデアがベースとなってふりかえりが進んでいることが見て取れます。 このように指標の変化の要因が曖昧になることで起こる問題は次の通りです。 ふりかえりの主語がチームではなく個人に寄ってしまい、チームの改善に繋がるアイデアが出づらい 他のメンバーが課題の具体的な内容や大きさを把握しづらく、改善の優先度を決めにくい 問題の重要性に関わらず直近起きた問題の方が議論に上がりやすい チームの改善サイクルを回すために行った工夫 本章ではチームの開発生産性の改善に取り組む上で存在していた課題に対して、どのような解決策を取ったのか紹介します。 MLOpsブロックで開発生産性の指標を活用したチームの改善がうまくいかなかったのは、次の3つの原因から指標が変化した要因を把握できていなかったためでした。 Four Keysの考え方に対する理解不足 指標に含まれるノイズ ふりかえりプロセスから「要因の把握」が漏れていた これらの課題を解決するために、次の3つの対策を実施しました。 Four Keysの考え方についてチーム内で認識を合わせた 指標の定義と集計対象を明確化し外れ値を除外した 「プルリク深掘り」という手法でふりかえりを実施し、改善に繋がりやすい工夫をした それぞれ具体的にどのようなことを行ったのか説明します。 Four Keysの考え方についてチーム内で認識を合わせた 指標を見るだけで終わってしまっていた要因の1つは、チームのCapabilityとセットでFour Keys指標を活用できていなかったことでした。Four KeysをチームのCapabilityに絡めて評価する考え方がチーム内に浸透していなかったため、指標を見てもどの部分を改善すべきか手がかりがなく具体的な改善施策につなげられていませんでした。 対策としてFour Keysの指標と背後にあるチームのCapabilityの関係についてチーム内で認識合わせを行いました。またFour Keysのふりかえりの際に単に指標のみを評価するのではなく、チームのCapabilityの課題について合わせて議論しました。 この考えのきっかけやチームで会話をする材料として、以下の資料がとても参考になりました。 speakerdeck.com Four Keysの考え方を共有したことで、次の共通認識を得ることができました。 全体の指標の数値が基準より高くても問題が隠れている場合がある 指標のスコアを変化とその要因と合わせて把握し、それらを起点にチームのCapabilityの問題を検討することが大切 指標の定義と集計対象を明確化し外れ値を除外した 続いて、指標に含まれるノイズの問題をどのように解決したか説明します。 変更障害の数値がばらつく原因は3つありました。 ステージング環境を含めた変更障害の集計定義 変更障害の切り戻し以外のrevert活用 幅広い業務内容により、指標が上振れする Four Keys指標の考え方を共有し前回からの変化に着目すること、後述する「プルリク深掘り」の手法で変化要因を深掘ることで指標の上振れにより課題を見逃す問題は解決できました。 残る2つの課題をどのように解決したか紹介します。 ブランチ名でふりかえるべき失敗と些細なミスを区別した 変更障害の定義にステージング環境を含めることによる弊害は、本番環境に影響がなかった些細なミスまで集計対象になってしまい、ふりかえりの時間を無駄にしてしまうことでした。 この問題を解決するために、ブランチの命名ルールを分けることにしました。Findy Team+はブランチ名を元に集計対象をフィルタリングできます。MLOpsブロックではふりかえる必要がない些細なミスの修正には"fix"で始まるブランチ名を、変更障害の修正としてふりかえるべきプルリクには"hotfix"で始まるブランチ名を使用しました。 些細なミスの基準については全てのプルリクを分類できるほど明確化できておらず迷うケースは多少存在します。迷った場合に"fix"を付与すると問題を見逃すリスクがあります。そのため迷う場合や繰り返し同じ問題が発生する場合は積極的に"hotfix"のブランチ名を付与し議論の俎上に載せることを推奨しています。 ふりかえりの準備で外れ値を除外する運用を行った 前述の通り、GitHubのPull Request revert機能を利用することで本来は変更障害ではない変更が変更障害として集計され、ふりかえりのノイズとなってしまう問題がありました。 設定の切り戻しなど変更障害の修正ではない例外的なrevertプルリクには特定のラベルを付与して集計対象から除外することにしました。これにはFindy Team+のラベルフィルター機能を使っています。 一方で上記のようなブランチやラベルの運用は人に依存するためこれだけでは課題が残ります。 ブランチやラベルの運用は明確な基準を設けることが難しく個々人の判断では多少のブレが出ます。ブレを最小限に抑えるためふりかえりの前日にふりかえりのファシリテーションの担当者が集計されたプルリクを簡単に確認し、除外すべきプルリクがあるかどうかをチェックしています。 手間にはなりますが5分程度実施することで個々人の判断によるブレを防止し、ふりかえりの質を向上させています。 「プルリク深掘り」という手法でふりかえりを実施し、改善に繋がりやすい工夫をした 続いてふりかえりの具体的な進め方についてご説明します。 従来のふりかえりの問題点は、指標の変化を見てその要因となった事実を確認するステップがないことでした。これにより指標の観測から具体的なチームの改善に繋げづらくなっていました。 この課題を改善するために、指標の観測からチームの改善に繋げやすい「プルリク深掘り」という手法を考えました。 具体的には指標の変化を見てその原因となったプルリクについて深掘りをするふりかえり手法です。 プルリク深掘りの進め方について説明します。プルリク深掘りは、次のような役割分担とタイムテーブルで進めます。ツールは Miro を使っており、Miroの画面を共有しながら進めています。私たちのチームでは隔週でプルリク深掘りを実施しています。 役割分担 ファシリテーター: 1名 全体の進行を担当する 書記: 1名 ふりかえりの中で出た気づき・アイデアなどをMiro上の付箋にメモとして残す アイデア出し: 残りの全員 指標の変化やプルリクを見て、課題や改善点のアイデア出しをする タイムテーブル 時間 タイトル 概要 5分 前回のふりかえり 前回出たネクストアクションを見て、改善できているか確認する 15分 DevOps分析の確認と変更障害プルリクの深掘り ・指標の変化を確認する ・障害対応のプルリクを1つ1つ確認し、気付きをMiroにメモする ・プルリクの担当者にプルリクの概要や背景を説明してもらう ・口頭で出たものは書記役がメモし、残りのメンバーも気づいたことは積極的にメモする 15分 サイクルタイム分析の確認と個別のプルリクの深掘り ・サイクルタイムが長いプルリクを全員で見ながら、気付きや改善点をメモしていく ・プルリクの担当者にプルリクの概要や背景を説明してもらう ・口頭で出たものは書記役がメモし、残りのメンバーも気づいたことは積極的にメモする 5分 優先順位の投票 Miroにメモしたアイデアに対して投票を行い、改善アクションを検討する優先順位をつける 10分 アクションを明確化する 投票数の多いものから順に具体的なネクストアクションに落とし込み、担当者を決める 進行の流れ 前回のふりかえり プルリク深掘りは前回のネクストアクションのふりかえりから始まります。前回のネクストアクションが適切に実行されているか確認し、実行漏れがあればリマインドします。 Four Keys指標の確認と変更障害プルリクの深掘り 次にFindy Team+の「DevOps分析」を参照し、チームのFour Keys指標を確認します。 1つずつ指標を確認して改善、悪化といった変化を確認します。変更障害率のタブを確認し変更障害を修正したプルリクを一覧し、1つずつ深掘ります。 次の流れでプルリクを深掘ります。 プルリクを開き、プルリクの作成者に変更の概要を説明してもらう 他のメンバーは気になる点があれば随時質問し、課題点や改善点があれば発言するかMiroに書く 書記はメンバーの発言を都度メモする メモを整理する際のコツは、トピックごとに樹形図形式でポイントを羅列することです。改善の優先順位を決める際に、分かりやすくなります。 サイクルタイム分析の確認と個別のプルリクの深掘り サイクルタイム分析はプルリクのリードタイムを細分化する機能です。 サイクルタイム分析についてもDevOps分析と同様にまず全体の指標を見ます。次にリードタイムが長いなど他と比較して目立ったプルリクを個別で深掘ります。 以上でプルリクの深掘りは終わりです。 改善アクションの優先順位の投票 次に深掘り中に出てきたアイデアについて、 Miroの投票機能 を用いてチーム全員で投票します。 トピックや関連する発言などが書かれた全ての付箋を対象にして、1人3票でネクストアクションとしての優先度が高いと思う付箋に投票します。 得票数が高い順に詳細な議論をして、後述するネクストアクションの明確化の材料にします。 投票が終わった後で付箋をまとめて得票数トピックごとの合計で優先順位を決めます。 ネクストアクションの明確化 最後に、得票数の多い付箋から順に詳細について議論します。 この議論は課題を改善するために実施するネクストアクションを明確化することを目的としています。この時の議論のやり方は課題によって様々です。 大事なポイントは、時間内にネクストアクションの明確化と担当者の決定までをやり切ることです。ネクストアクションは、「あえて何もしない」や「改めて時間を取って話す」といったものでも問題ありません。 課題が明確な場合はすぐにネクストアクションのブレストへと移りますし、まだ課題が抽象的な場合は、改めて何が問題なのか明確にするところから始めるケースもあります。 後からふりかえりやすいようにネクストアクションの付箋の色を変えて完了です。 ふりかえりから生まれた改善施策と効果 このふりかえり手法の導入によって、滞り気味だった開発生産性の改善サイクルが再び回り始めました。 ふりかえりから生まれた開発生産性の改善施策の例は次の通りです。 他チームが関わるプルリクのレビューやマージのルールの明確化 共通のプルリクテンプレートを用意 ブランチ名からのカテゴリラベルを自動付与する仕組みを作成 これらの改善成果として、リードタイムやアウトプット数に関する主要な指標を改善できました。オープンからマージまでの時間を約半分に短縮しながら、プルリク作成数を増やせていることが分かります。 一方で変更障害率は維持できています。これはふりかえりの内容が指標の改善ではなく、Capabilityの改善にチームの意識が向いた結果です。 実際ふりかえりから生まれた改善施策はプルリクに関わるものだけではありません。トイルの削減やコミュニケーション改善、ヒヤリハット予防など幅広い施策につながっています。実際の例は次の通りです。 社内問合せの対応ルールを明確化 業務を効率化するツールの作成 バッチ処理の失敗アラートにチームメンションを付与 他チームとのコミュニケーションの場作り 今後は現状維持だった変更障害率を重点的に改善予定です。またもう1つのパフォーマンス指標である信頼性(SLOs)もふりかえりに組み込むことで多角的な視点から改善できるプロセスも検討しています。 まとめ 本記事ではチームの開発生産性を高めるために行ったふりかえり手法とその考え方について紹介しました。 ポイントはただ指標の変化を見るのではなく、その変化要因となった事実を把握しチームのCapabilityと紐づけて改善を考えることです。そのコツはノイズとなる外れ値を取り除き、ふりかえりの中でプルリクを深堀ることでした。 Four Keys指標を使ったチームの開発生産性を向上させようと考えている方は、是非参考にしてみてください。 ZOZOでは、一緒にサービスを作り上げてくれる方を募集中です。ご興味のある方は、以下のリンクからぜひご応募ください。 hrmos.co Capability:コードの保守性や自動テストなど技術的なものから仕事のプロセスや組織文化に関するものまで、チームの能力や機能のこと ↩ Outcome:事業の収益性や生産性、仕事の満足度などの組織全体にとって望ましい成果のこと ↩ 一般的には指標のバラツキ(分散)を指しますが、ここでは指標に含まれるバイアス(偏り)も含めてノイズと呼んでいます ↩
こんにちは、DevRelブロックの ikkou です。2024年9月11日から13日の3日間にわたり「 DroidKaigi 2024 」が開催されました。ZOZOはゴールドスポンサーとして協賛し、12日と13日の2日間にわたりスポンサーブースを出展しました。 technote.zozo.com 本記事では「Androidエンジニアの視点」でZOZOから登壇したセッションと気になったセッションの紹介、そして「DevRelの視点」で協賛ブースの様子と各社のブースコーデのまとめをお伝えします。 登壇内容の紹介 Jetpack Compose Modifier徹底解説 2024年最新版!Android開発で役立つ生成AI徹底比較 パネルトーク 〜Androidエンジニアのキャリアとスキルアップ〜 Androidエンジニアが気になったセッションの紹介 仕組みから理解する!Composeプレビューを様々なバリエーションでスクリーンショットテストしよう WebADBを使用したAndroid専用端末化への自動キッティング手法 Android StudioのGeminiでコーディングの生産性を高める 魅力的な3つのポイント Geminiの誕生背景 セキュリティ機能:.aiexcludeファイル デモプロジェクト:Compose Pokedexer 特に注目したGeminiの機能 今後の機能追加予定 まとめ Jetpack Compose Modifier徹底解説 Debugging: All You Need to Know KSPの導入・移行を前向きに検討しよう! 1. KSPとkaptの詳細な比較 2. 混在した時のビルド時間の比較 3. K2との関係性 ZOZOブースの紹介 DroidKaigi 2024協賛企業のブースコーデまとめ おわりに 登壇内容の紹介 今年のDroidKaigiではセッションに2名が採択され、パネルトークに1名が登壇しました。会場で発表されたセッションとパネルトークについて紹介します。 DroidKaigi 2024で登壇したZOZOスタッフ Jetpack Compose Modifier徹底解説 昨年に続きJetpack Composeをテーマとした内容を話す直前のゐろは( @wiroha ) DevRelブロックのゐろは( @wiroha )は昨年の『 よく見るあのUIをJetpack Composeで実装する方法〇選 』に続き、今年もJetpack Composeをテーマとした内容で登壇しました。今回はピックアップした全47種のModifierをコードとアニメーションを用いてわかりやすく説明しました。 講演のアーカイブは公開され、発表資料はアニメーションを確認できるようGoogle スライドで公開しています。当日見逃した方はもちろん、会場で目にした方も改めて見ると発見があるかもしれません。 www.youtube.com docs.google.com ゐろはからのコメント 昨年に続き、今年もJetpack Composeのお話をさせていただきました。Ask the Speakerなどで質問・感想をいただいて交流できるのがとても楽しかったです! みんなでAndroidのコミュニティを盛り上げていきたいです! 2024年最新版!Android開発で役立つ生成AI徹底比較 生成AIをテーマとして共同登壇したゐろは( @wiroha )にしみー( @nishimy432 ) ZOZOTOWN開発1部 Android1ブロックのにしみー( @nishimy432 )とゐろはは生成AIをテーマとして共同登壇しました。今回はChatGPT、GitHub Copilot、そしてGeminiの3つについて、Android開発ならではのシナリオを交えながら比較して紹介しました。 話題のテーマということもあってか登壇後のAsk the Speakerも盛り上がっていました。こちらも講演のアーカイブと発表資料をぜひご覧ください。 www.youtube.com docs.google.com にしみーからのコメント 今年はAndroid開発における生成AIツールの実践的な使い方についてお話しさせていただきました。発表を通じて、開発のヒントや新たな視点を提供できていれば嬉しいです! ゐろはからのコメント Android開発を前提にしつつも他の技術分野にも活用できる内容だったため、幅広い方々が聞いてくださっていました! 満席で入れなかった人もいたそうで、スライドや動画を見ていただけると嬉しいです。 パネルトーク 〜Androidエンジニアのキャリアとスキルアップ〜 中央がZOZOでAndroidエンジニアのテックリードを務めるいわたん( @iwata_n ) 会場とライブ配信のハイブリッド形式で開催されたパネルトークにAndroidエンジニアのテックリードを務めるいわたん( @iwata_n )が登壇しました。「Androidエンジニアのキャリアとスキルアップ」をテーマとして、3名のパネラーが様々な質問に答える形で実施されました。 Jellyfishで開催中のパネルトークの様子です! Androidアプリ開発者としてのキャリアやスキルアップの話題について色々質問していきます! #DroidKaigi pic.twitter.com/6VGjTU6gai — DroidKaigi (@DroidKaigi) 2024年9月12日 x.com いわたんからのコメント パネルトーク楽しかったです! 2017年から運営に関わってますが、実はDroidKaigi初めての登壇でした。誰かのためになるような話が出来ていたら幸いです。 Androidエンジニアが気になったセッションの紹介 ZOZOのAndroidエンジニアが気になったセッションをいくつか紹介します。 仕組みから理解する!Composeプレビューを様々なバリエーションでスクリーンショットテストしよう ZOZOTOWN開発1部 Android2ブロックの高橋です。Sumio Toyama (sumio_tym)さんの『 仕組みから理解する!Composeプレビューを様々なバリエーションでスクリーンショットテストしよう 』を紹介します。 このセッションはJetpack ComposeのPreview関数を活用したVRT(Visual Regression Test)の概要と導入方法を紹介するという内容でした。VRTを導入するためのステップや、それぞれのステップで使用するツールの使い方が詳細に説明されており、VRTを基礎から学べるセッションでした。また、このセッションでは様々なバリエーションでのVRT/スクリーンショットテストを実施するための実践的な手法も紹介されており、見落としがちなパターンのリグレッション検知にも大変役立ちそうな内容でした。 では、セッションの中から個人的に重要だと感じた点をいくつか紹介します。 まず、セッション中における「スクリーンショットテスト」と「VRT」という用語の定義についてです。どちらもスクリーンショットを使用したUIのテストですが、スクリーンショットテストはスクリーンショットを撮影して保存するまでを自動化します。一方、VRTでは画像の撮影と保存に加え、過去に撮影したスクリーンショットとの比較までを自動化します。どちらのテストについても最終的なスクリーンショットおよび差分の確認は人間が行います。 次に、Preview関数を収集する方法についてです。Preview関数を使用したスクリーンショットを撮影するには、プロジェクト内からPreview関数を収集する必要があります。その際に利用できるのが Showkase です。ShowkaseはAirbnb社が公開しているオープンソースのライブラリで、プロジェクト内にあるJetpack ComposeのUI要素を整理する機能を提供しています。Showkaseではプロジェクト内のPreview関数を収集するAPIが提供されているため、VRT/スクリーンショットテストにも活用できます。しかし、 @Preview アノテーションに渡すことができる設定値は部分的にしか取得できません。そのため、Preview関数で設定された値を使用して様々なバリエーションのスクリーンショットを撮影するには代替となるツールを選択する必要があるようでした。 最後に、スクリーンショットの撮影方法についてです。スクリーンショットの撮影には、 ComposeTestRule と Robolectric 、 Roborazzi を使用します。ComposeTestRuleはJUnitのTestRuleで、Composableのテスト環境を構築するために使用します。RobolectricはAndroid端末やエミュレータを使用することなく、Androidフレームワークに依存したコードをテストするためのフレームワークです。Robolectricを使用することで開発用PCやCI環境のJVM上でテストを実行できるため、インストゥルメンテーションテストより高速にテストの結果を得ることができます。RoborazziはRobolectricを使用してVRT/スクリーンショットテストをするためのライブラリです。これらのツールと前述のShowkaseを組み合わせることで、様々なバリエーションスクリーンショットを撮影できます。セッションではツールの具体的な導入方法がコードと合わせて解説されているため容易に導入できそうでした。 Android端末にはフォントサイズやダークモードなどの様々な設定があり、普段の開発の中ですべてのバリエーションの動作を確認することは難しいです。このセッションを参考にVRTやスクリーンショットテストを導入すれば多くのバリエーションのUIを効率的に確認できるため、アプリの品質向上・維持に役立ちそうだと感じました。 WebADBを使用したAndroid専用端末化への自動キッティング手法 ZOZOTOWN開発1部 Android2ブロックの高橋です。Hisamoto Kunimineさんの『 WebADBを使用したAndroid専用端末化への自動キッティング手法 』を紹介します。 このセッションはADBをブラウザ上から使用できるようにし、非エンジニアでも簡単に利用できるキッティングやデバッグ用のツールを作成する方法を紹介するという内容でした。ADBはAndroidアプリの開発やデバッグにおいて非常に便利なツールです。しかし、環境構築やコマンドでの操作が必要であり、非エンジニアが使用するにはハードルが高いものでした。このセッションで紹介されている方法を用いれば、Androidエンジニア以外でもWebアプリを介してADBを簡単に使用できます。 このセッションでは「任意のAPKをインストールし、端末のフォントサイズを2段階大きくする」という操作を例として、adbコマンドを実行するWebアプリの作成方法を説明していました。 まずは、実行する必要があるadbコマンドを整理します。端末のフォントサイズを変更するには、「APKをインストールする」「フォントサイズの設定画面を開く」「フォントサイズを大きくするボタンを2回タップする」という操作が必要になります。これを実現するには下記のコマンドを使用します。 adb install [APKファイル] APKをインストールする adb shell am start -a android.settings.ACCESSIBILITY_SETTINGS ユーザー補助の設定画面を開く adb shell input touchscreen tap [タップするX座標] [タップするY座標] 画面をタップする これらのコマンドを組み合わせることで端末を目的の状態にできます。しかし、タップ操作のコマンドは瞬時に実行されるため画面遷移を伴うタップ操作をすると、画面遷移の完了前に後続のタップ操作が実行されてしまいます。そのため、 sleep などのコマンドを活用して操作のタイミングを制御する必要がある点に注意が必要のようでした。また、セッションではadbコマンドでの座標指定ではない方法で端末をタップ操作する方法も紹介されていました。 次に、adbコマンドを実行できるWebアプリを作成します。ブラウザからadbコマンドを実行するには、 Tango というADBクライアントが利用できます。Tangoを使用して前述に作成したadbコマンドを実行することで、Webアプリを介して端末を目的の状態にできます。 セッションではadbコマンドのスクリプトを作成する際の注意点やTangoの使用方法がコードや動画を交えて紹介されており、実際にツールを作成するイメージが湧く内容となっていました。 今後デバッグツールを作成する際にはこのセッションの内容を参考にしたいと思います。 Android StudioのGeminiでコーディングの生産性を高める ZOZOTOWN開発1部 Android1ブロックの高田です。私が聴講したAdarsh FernandoさんとChris Sincoさんによるセッション『 Android StudioのGeminiでコーディングの生産性を高める 』についてご紹介します。 まず最初に、以下ではGoogle AIであるGeminiを「Gemini」、Geminiとの質問履歴や文脈を「コンテキスト」、Geminiへの質問内容や質問の行動自体を「プロンプト」と記載します。 セッション全体を通して、Android StudioのGeminiを活用し、Android開発のライフサイクル全体で生産性を向上させる手法が、ライブデモを交えて発表されました。 魅力的な3つのポイント 個人的に特に魅力的だったポイントは以下の3つです。 Android Studio内でシームレスに利用可能:GeminiはAndroid Studioという既存のIDE上で簡単にセットアップでき、違和感なく使用できます 既存のプロジェクトに追加する形で使用:Geminiは既存のプロジェクトに上乗せしてサポートする形で使えます。これにより、開発フローを中断せずに導入が可能です 無料で使用可能:Geminiの基本的な機能は無料で利用できる点も大きなメリットです Geminiの誕生背景 セッションの冒頭では、Geminiが開発された背景として以下の3つのテーマが掲げられていました。 開発者がユーザー体験の向上につながる創造的な側面に集中できるようにする 高品質なコードをサポートし、より健全なエコシステムを構築する 最新技術を活用しやすくする セキュリティ機能:.aiexcludeファイル Gemini使用時のセキュリティ対策として、 .aiexclude ファイルが紹介されました。AIツールを使用する際にはプライバシーやセキュリティ面が気になるところですが、このファイルを使用することで、Geminiに読み取らせたくないファイルやディレクトリを制御できます。設定は .gitignore ファイルと同様の文法で記述できるため、機密情報を柔軟に保護できる点が非常に重要です。 デモプロジェクト:Compose Pokedexer セッションのデモ部分では、 PokeAPIを使用した初代ポケモン図鑑のプロジェクト をベースに、Geminiを活用してお気に入りフィルタリング機能を追加する手順がライブコーディング形式で紹介されました。 特に注目したGeminiの機能 Custom Code Transformation コードの特定部分を選択し、そのままGeminiに分析させることができます。プロンプトを与えることで、さらに精度の高い変更を提案してもらえます 変数の一括リネーム機能 コード全体の文脈を考慮し、適切な変数名を提案してくれます。また、どの変数に適用するか選択も可能です Unitテストのシナリオ自動生成 Unitテストのシナリオを自動生成してくれる機能もあります Crashlyticsサポート CrashlyticsとVitalsのデータに基づいて、Geminiがバグやクラッシュの原因と修正方法を提案します 今後の機能追加予定 今後、Multiple Chat SessionsやPrompt Libraryといった機能も開発予定と紹介されました。これにより、複数のコンテキストを持つプロンプトを同時に管理したり、プロンプトをセットで保存したりできるようになる予定です。 まとめ セッション内でも指摘がありましたが、Geminiはまだ開発途中であり、改善の余地があります。例えば、コールバック引数の渡し漏れが発生することや、部分的に提案されたコードを手動でコピー&ペーストする必要がある場合もあります。しかし、今後のアップデートでこれらの問題も解消されていくと期待されています。 Android開発では、複雑なUIやライフサイクル管理など、多くの課題に直面します。しかし、Geminiの活用によって、それらの課題が解決される未来を期待できます。セッションを通じて、私自身も今後Geminiを積極的に活用し、開発効率をさらに向上させていきたいと感じました。 Jetpack Compose Modifier徹底解説 ZOZOTOWN開発2部 Androidブロックの勝木です。wirohaさんの『 Jetpack Compose Modifier徹底解説 』を紹介します。 私は、約2年前にプログラミングのことが一切わからない状態で全く異なる業種からAndroidエンジニアの道を進み始めました。幸いなことに毎日教えていただきながら現在ではJetpack Composeも少しずつ学んでいます。そんな中、今回wirohaさんのセッションは私にとって非常に魅力的な内容だったため紹介したいと思います。 このセッションでは、基本的なCompose Modifierから普段使わないようなCompose Modifierまで約50種類のCompose ModifierをZOZOのプロダクトであるZOZOTOWN、WEAR、FAANSを交えて紹介するという内容でした。 まず、プロダクト内ではどのようなCompose Modifierが多く使われているかの集計がされていました。多く使用されているCompose Modifierの中でカテゴリごとにピックアップし、ひとつずつどういった挙動なのか画像やアニメーションを用いて視覚的にも非常にわかりやすい内容でした。また、カテゴリはaction、alignment、border、drawing、padding、pointer、semantics、size、testに分けられて説明されていたため「このCompose Modifierはこういう時に使えそうかも」とイメージが湧きやすかったです。 中には使用回数が少ないけれど「個人的に好きで」や「面白かったので紹介した」というマイナーなCompose Modifierの紹介もあり、聴講していてどんどん興味が湧いてくるような内容でした。一部抜粋するとtransformableやbasicMarqueeなどが紹介されており、transformableはユーザのジェスチャー(ピンチイン/アウト、回転など)に応じてComposableのサイズや回転を変更できるようになるもので「こんなModifierがあるんだ!」、と見ていて面白いCompose Modifierでした。またbasicMarqueeに関しては、幅が広すぎて利用可能なスペースに収まらないテキストの場合、文字が流れるような動きのあるもので視覚的にお洒落で、使える機会があればぜひ活用してみたいと思うCompose Modifierでした。 最後にプロダクトの1位〜54位のModifier関数の使用回数総合ランキングが紹介されていました。1位〜3位のpadding、height、fillMaxWidthにおいては1000回以上と圧倒的に使用回数が多かったり、逆に1回しか使用されていないCompose Modifierもいくつかありました。1回しか使用されていないCompose Modifierは一体どういった箇所で使用されているのか、またどういった要素のものなのか個人的に深掘りしたくなりました。 wirohaさんの『Jetpack Compose Modifier徹底解説』は、初学者から熟練者まで幅広く活用できる内容だったと思います。今まさに初学者である自身がより知識を深めたいと思う内容に当てはまっていたため、収穫の多いセッションでした。今後こちらを参考にしながら様々なCompose Modifierを活用していきたいと思います。 Debugging: All You Need to Know ZOZOTOWN開発2部 Androidブロックの小林です。Jumpei Matsudaさんの『 Debugging: All You Need to Know 』を紹介します。 このセッションは、Debugスキルを広く学べる内容となっています。Debugスキルは、不具合の原因特定や修正、問い合わせ対応はもちろん、新機能の開発時にコードの挙動を確認する際にも用いる汎用的なスキルです。このセッションでは、Android Studioの機能やDebug用オプションを使うテクニックが説明されており、Androidエンジニアから見て取っ付きやすく、かつデバッグ手法や効率的なデバッグ方法が学べる内容でした。 セッションの中から、個人的に驚いたポイントを2つ紹介します。 1つ目は、ブレークポイントの様々なオプションです。ブレークポイントには、ロギングや条件付きブレークポイントと言ったオプションがあります。ロギングはブレークポイントが通過したらメッセージを表示できます。ログの形式はいくつかのパターンがあり、ブレークポイントのヒット表示、スタックトレース、式の評価と結果のログがあります。また、条件付きブレークポイントは、アプリの中断を頻発させたくない時に活用できます。条件は、評価式、通過数、ブレークポイント間の依存などがあります。評価式の場合、評価式がtrueを返すときだけブレークポイントを機能させます。通過数は指定した回数分、通過した時にブレークポイントを起動できます。ブレークポイント間の依存は、別のブレークポイントがすでに機能していることを起動条件にできます。このような、ブレークポイントのオプションを活用することでアプリの処理を追いかける時に効率的なデバッグが可能になります。 2つ目は、特定のスレッドだけを中断できる機能です。例えば、Coroutineのデバッグ時に活用できます。CoroutineNameクラスとCoroutineデバッグモードを使うと良いです。Coroutineデバッグモードが有効の時、Coroutineごとにユニークな名前が振られます。suspend functionでも問題なく動きますが、最適化によってsuspend function内の変数が解放されてしまうことがあります。その場合は、-Xdebugオプションをコンパイラに渡すことで、デバッグ時のみ最適化をオフにできます。最適化を外すとメモリリークのリスクがあるので、デバッグ時のみこのオプションを使うように気を付ける必要があります。特定のスレッドを追いかけたいといった時に便利に活用できそうです。 今まではブレークポイントを使っていたものの、普段使わない機能ばかりでした。このセッションで得たデバッグ手法はすぐに使える内容でもあり、デバッグスキルの向上に役立つ内容でした。 KSPの導入・移行を前向きに検討しよう! FAANS部 フロントエンドブロックの田中とZOZOTOWN開発1部 Android1ブロックの愛川です。shxun6934さんの『 KSPの導入・移行を前向きに検討しよう! 』を紹介します。 このセッションでは、KSPとkaptの違いや移行時の注意点、KSP2の使用法が紹介されています。田中が所属するFAANSでもKSPへ移行しているものの、まさしく「導入・移行・実装したことあるけど、あんまりわかってない」状態だったため、とても興味をひくセッションでした。 このセッションのおすすめポイントは以下の3つです。 1. KSPとkaptの詳細な比較 KSPとkaptの位置付けから特徴、さらにはコード生成の仕組みまで詳細に説明されていました。まず、両者の位置付けと特徴について、Compiler PluginやAnnotation Processorから順を追って説明されており、各要素の関係性が分かりやすく図示されていました。また、普段Androidネイティブの開発がメインなのであまり意識していなかったのですが、KSPはKotlin Multiplatformでも使えると知り、KSPの有用性に驚きました。kaptのコード生成を紹介するパートでは、コードサンプルを使用して生成時の流れが説明されており、スタブやmetadataといった普段の開発で中々意識できない点まで知ることができました。 2. 混在した時のビルド時間の比較 KSPを使用した場合にどのくらい早くなるのか、また混在している時にどう影響が出るのかを数字で簡潔に示してくれていました。混在している場合はビルド時間が逆に延びてしまうため、一気に移行する or モジュール単位で移行・導入するのがおすすめとのことでした。 3. K2との関係性 最後に、K2 Compiler上で動くKSP2の説明があり、特に、エントリポイントを別プログラムから呼べるという話には衝撃を受けました。セッションの中では、実際に単体テストを実行するまでの一通りの流れが紹介されており、自分でも試してみたくなりました。 自身が所属するプロジェクトでもKSPへの移行を少しずつ進めているものの、KSPがどういったものなのかを理解し切れないまま作業するタイミングが多々ありました。このセッションを参考に、KSPの理解を深めながら移行作業を進められればと思います。 ZOZOブースの紹介 会期中はAndroidエンジニアを中心として10名以上のZOZOスタッフが入れ替わりながらブースに立っていました。DroidKaigi 2024でもiOSDC Japan 2024と同じように、ZOZOブースでは今年5月にリニューアルした「 WEAR by ZOZO 」の「 ファッションジャンル診断 」をメインコンテンツとして展示していました。 DroidKaigi 2024でもメインコンテンツとして展示していたWEAR by ZOZOのファッションジャンル診断 この「ファッションジャンル診断」は、WEARに投稿されている好みのコーディネートを5枚以上選ぶことで、AIがファッションジャンルを診断し、おすすめのコーデを教えてくれる機能です。 多くの方がブースに立ち寄ってファッションジャンル診断を試しました。 ブースに訪れた方々には、お手元の、またはデモ用に用意したAndroid端末で「ファッションジャンル診断」を体験してもらいました。iOSDC Japan 2024でもそうでしたが、興味を持って体験していただく方が多く、とても嬉しい気持ちになりました。この「ファッションジャンル診断」は、WEARを初めてインストールした方も起動直後にユーザー登録の必要もなく試せるため、今回のようなブース出展との相性が良かったと考えています。 ファッションジャンル診断の診断結果にあわせて1枚1枚ステッカーをお渡ししました。 ブースで「ファッションジャンル診断」を体験または診断結果を見せてくれた方には、その診断結果にあわせた診断結果ステッカーをお渡ししました。ステッカーの種類は全部で144種類ありますが、全種類のステッカーを用意していることに驚かれている方もいました。各ジャンルのステッカー枚数は均一ではなく、一般的な傾向として出やすいシンプルやラフを多めに用意しています。その他のジャンルはZOZOエンジニアの傾向と先行するiOSDC Japan 2024の傾向を加味して足りなくなりそうな分を少し多めに用意していました。 Fold端末をお持ちの方が目立ちました。 ブースに立っていると様々なAndroid端末を目にしました。まだ見かける機会がそう多くないGoogle Pixel 9 Pro FoldやGalaxy Z Fold6などのFold端末も、ここDroidKaigi 2024の会場では持っている方が目立ちました。サービスの特性上、積極的にFold端末への対応を進めている企業もあり、学びがありました。 箱猫マックスくんのステッカー ノベルティはiOSDC Japan 2024と同様のものを配布しました。特にZOZOTOWN公式キャラクターである箱猫マックスくんのステッカーはDroidKaigi 2024でも人気で、一部のアイテムは会期中に在庫切れとなりました。これを機に箱猫マックスくんのことを知った方は、ぜひ絶賛配信中のLINEスタンプ「 箱猫マックス Vol.4からVol.9 」もご覧ください! 色“縁”ぴつ また、デザイナー発案の「“一合一会”米」「“失敗を水に流す”トイレットペーパー」に続く「洒落の効いたアイテム」である「色“縁”ぴつ」も特定の条件を満たした方にお渡ししていました。来年はきっと別のZOZOならではのノベルティが登場していることでしょう! 改めてDroidKaigi 2024でZOZOブースに訪れていただいた皆様ありがとうございました! DroidKaigi 2024協賛企業のブースコーデまとめ あっすーです。DroidKaigi 2024の協賛企業ブースを回りながら、各社のコーデを撮影しました!( iOSDC Japan 2024で撮影した協賛企業のコーディネートはこちら ) 先日協賛したiOSDC Japan 2024では拝見しなかった企業をメインに注目しました。DroidKaigiならではのデザインが目立つ今回も、ファッションテック企業ZOZOの視点でお届けします。 株式会社ヤプリさん / ヤプリブルーが映えるボトムスと一緒に。 株式会社MIXIさん / エンジニアと企業ロゴの2種。 サイボウズ株式会社さん / 製品キャラクターがAndroidチーム用デザインに。 AndroidアプリのデザイナーさんがDroidKaigiのためにデザインした そうです。 LINE Digital Frontier株式会社さん / 過去制作したDroidKaigi用デザインとのこと。 株式会社U-NEXTさん / 全体的に黒でまとめており企画が目立っていました。 株式会社フォトラクションさん / 企業ミッションとキャラをアロハシャツに込めて。 WED株式会社さん / キャラクターコラボが背景にも映えるONEポイント。 フラー株式会社さん / ノベルティにも企業ロゴを添えて。 本田技研工業株式会社さん / 一際目立つ展示にHonda Redを添えて。 FlutterKaigiさん / お揃いのパーカーでカンファレンスの宣伝。 協賛ブースというとブースの出し物や装飾に目がいきがちですが、各社コーディネートを含めて工夫を凝らしているのがわかりますね! お忙しい中ご協力いただいたブースの皆さん、本当にありがとうございました! おわりに ZOZOから参加した一部メンバーで撮影した集合写真 ZOZOは毎年DroidKaigiに協賛し、ブースを出展していますが、多くの方との交流を通して今年も有意義な時間を過ごせました。実行委員会の皆さんに感謝しつつ、来年もまた素敵な時間を過ごせることを楽しみにしています! ZOZOでは、一緒にサービスを作り上げてくれる方を募集中です。ご興味のある方は、以下のリンクからぜひご応募ください。 corp.zozo.com また、会期中は混雑していることも多く、じっくりとお話しする時間が取れなかったので、もう少し詳しく話を聞きたい! という方はカジュアル面談も受け付けています。 hrmos.co それではまた来年のDroidKaigiでお会いしましょう! 現場からは以上です!
はじめに 技術評論社様より発刊されている Software Design の2024年5月号より「レガシーシステム攻略のプロセス」と題した全8回の連載が始まりました。 ZOZOTOWNリプレイスが順調に進む中始まった「カート決済機能」のリプレイス。第5回では、始動の経緯と、システムの安定稼働につながる大きな改善をもたらしたキューイングシステムの導入について解説します。 目次 はじめに 目次 ZOZOTOWNカート決済リプレイスの始動 体制変更 カート決済サービスの将来像 ジレンマと優先順位 スケールアップ戦略だけでは防ぎきれなくなった障害 キューイングシステムの導入 Kinesis Data Streamsの採用理由 First In First Outでのキャパシティ Kinesis Client Libraryを利用した開発工数の削減 本システムのポイント 過熱商品専用のKDSを作成 既存システムへの改修は最小に 過熱商品への運用を補助するしくみ 導入効果 残った課題とその解決方法 ページラッチ競合によるDB障害 在庫情報のDynamoDB化 スコープは欲張らず最小限に 異種DB移行による脱トランザクション 効果 キューイングシステム自体のランニングコスト Rate Limitの導入 導入効果 まとめ ZOZOTOWNカート決済リプレイスの始動 体制変更 2021年4月、ZOZOTOWNカート決済リプレイスが始まりました。ZOZOTOWNリプレイス開始からこの時点で4年が経過しており、専属のSREやバックエンドチームのメンバーは複数のプロジェクトを経験して、新しい技術や環境に馴染みノウハウも溜まってきたころです。ここからさらにリプレイスを加速するため、リプレイス専属バックエンドチームから3名がカート決済チームへ異動しました。 カート決済チームはZOZOTOWNのカート投入処理から注文データ作成、決済処理を開発・運用しているバックエンドチームです。カート決済機能の既存コードは約11万ステップ、ストアドプロシージャが250本、画面は105画面あります。さらに長年積み上げてきた機能改修により、仕様はもちろんコードは一度や二度見ただけでは到底理解できないほど複雑になっていました。これをもともと4名のエンジニアで開発・運用していましたが、メンバーの入れ替わりなどで歴史や仕様をすべて把握しているメンバーはおらず、都度調査しながら追加改修をしている状況でした。 カート決済リプレイス開始前は、リプレイス専属チームで一部機能を実装したマイクロサービスを新規に作成し、実際に運用するチームへ移譲していく形で進めていました(図1左)。移譲後も技術サポートは続けますが、複数プロジェクトを同時にサポートしていく難しさや、チームが分かれていることによる連携の取りにくさ、ドメイン知識が浅く将来を見越した適切なアーキテクチャ設計が難しいことなどが課題でした。 図1 リプレイスを加速するための体制変更 前述のとおりカート決済機能をリプレイスするには膨大なドメイン知識や運用を考慮したうえでの設計、状況に応じた柔軟な対応が必要です。まずは組織変更し(図1右)、リプレイスメンバーがカート決済機能のドメイン知識を習得する必要がありました。 カート決済サービスの将来像 ZOZOTOWNリプレイスを開始する前のZOZOTOWNはオンプレミスで動く1つのモノリシックなシステムでした。使用していた言語はVBScriptでWebサーバはIIS、データベースはSQL Serverです。SQLを実行する際にはVBScriptからSQL Server上のストアドプロシージャを呼び出しており、ストアドプロシージャにも数千行レベルのビジネスロジックが多数存在しています。また複数のデータベース間をリンクサーバで接続し、ストアドプロシージャ内で分散トランザクションを使用している箇所もあります(図2左)。 これをカート・注文・決済という機能単位でマイクロサービスへ切り出し、Amazon Elastic Kubernetes Service(以下、EKS)上で動くJava Spring Bootのアプリケーションにリプレイスすることになりました(図2右)。また、データベースも各サービスに適したものを選定する想定です。 図2 リプレイス前後のアーキテクチャ ジレンマと優先順位 将来的なアーキテクチャを思い描きつつも、2021年当時のカート決済機能はある致命的な問題を抱えていました。それは、人気商品販売などのイベント時にカート投入リクエストが爆発的に増加し、頻繁にデータベース障害が発生することです。ZOZOではこのようにアクセスがスパイクする商品を「過熱商品」と呼んでいます。多くは転売目的のBOTによるもので、メンバーは過熱商品の販売日時を日々調査し、負荷対策や障害発生時の対応のため休日もリアルタイムで監視を行っていました。このように日々の運用負荷が高く、事業案件はもちろんリプレイス案件にも集中できない状況が続いていました。 まずはこの問題を解決するため、直近7ヵ月後の大規模過熱イベントであった11月の福袋販売までにキャパシティコントロール可能なアーキテクチャに変更することを目標としました。 スケールアップ戦略だけでは防ぎきれなくなった障害 一般的に、ECサイトの多くは注文確定時に在庫を引き当てます。しかしこの仕様の場合、自分のカートに入れておいた商品がいつの間にか他の人に買われ、売り切れてしまうということがあり得ます。 一方ZOZOTOWNのカート投入機能には[カートに入れる]ボタンを押した時点で在庫を引き当て有効期限まで確保するという特徴があります。これは「ZOZOTOWNではお客様にリアル店舗のように安心してお買い物を楽しんでほしい」という思いから作られたためです。 ZOZOTOWNで[カートに入れる]ボタンを押すと、次の流れで処理が実行されます。 在庫テーブルの在庫数を減算する カートテーブルにレコードを登録する 在庫テーブルとカートテーブルは、SQL Serverのカート用データベース(以下、カートDB)にあります。障害の原因は1の在庫数の減算処理にありました。実際には次のようなクエリを実行しています。 UPDATE 在庫テーブル SET 在庫数 = 在庫数 - 1 WHERE PK = ? 過熱商品の販売開始直後には、在庫テーブルの同一レコードへ大量の更新リクエストが集中し、ロック競合が発生します。その結果、後続クエリの滞留によりクエリタイムアウトが多発します。最悪の場合はワーカースレッドが枯渇し、カートDBへ接続できない状況になります。カートDBに接続できなくなるとサイト全体がエラーになるため、状況によってはカートDBをフェイルオーバーする必要がありました。それまではカートDBの物理的なスケールアップを繰り返してしのいでいましたが、すでに性能の伸びが頭打ちになり限界が来ていました。 この問題を根本的に解決するためには、まずカートDBを柔軟にスケールアウト/スケールイン可能なAmazon DynamoDB(以下、DynamoDB)にリプレイスすることが有効だと考えました。しかしカートDBはZOZOTOWN以外のサービスや基幹システムからも接続があります。この時点でカート決済のリプレイスは開始からすでに2ヵ月が経過し、6月に差し掛かっていました。11月の福袋販売までにリリースし安定稼働まで持っていくには影響範囲が大き過ぎて現実的ではないというのが結論でした。 このような背景から、アーキテクチャの変更や影響範囲を最小限に留めつつ効果的な一手を打つ必要がありました。さまざまな案を検討した結果、ボトルネックとなっている更新処理の前にキューを挟むことでリクエストのキャパシティコントロールを実現する方向になりました。 キューイングシステムの導入 前述した背景により、Amazon Kinesis Data Streams(以下、KDS)を利用して次の処理を行うキューイングシステムを構築しました(図3)。 図3 キューイングシステムの概要 queuing-apiが商品タイプを判別 商品タイプに応じて異なるKDSにレコード投入、以後ポーリング処理でカート状態管理用DynamoDBを確認 Workerは定期的にKDSへポーリング、レコードが存在すれば後続処理を実施、カートDBのUpdateが完了した時点で状態管理用DynamoDBにその旨を記録 queuing-apiが状態管理用DynamoDBから処理終了のStatusを見てClientにレスポンス どのような経緯を経てこのようなシステムになったか、そして本システムのポイントを本節では解説していきます。 Kinesis Data Streamsの採用理由 ZOZOTOWNリプレイスは技術スタック選定でAWSを採用しています。本キューイングシステムもAmazon EKS上で稼働するアプリケーションを前提として利用サービスの検討を開始しました。キューイングシステムの候補として検討したサービスはAmazon Simple Queue Service(以下、SQS)とKDSですが、KDSを採用した理由は2つあります。 First In First Outでのキャパシティ 前述した「ZOZOTOWNではお客様にリアル店舗のように安心してお買い物を楽しんでほしい」という考えのもと、構築するキューイングシステムも「カート投入機能は同一商品に限り順序性を担保したい」というFirst In First Out(以下、FIFO)の要件がありました。いずれのサービスもFIFO機能が提供されているという面では要件を満たしていたのですが、検討を開始した2021年、SQSのFIFOキューにはAPIメソッドごとに300Req/secのAPIコール制限がありました。ZOZOTOWNのカート投入リクエスト数を考慮するとキャパシティ観点でSQSのAPIコール制限が懸念されました。これを防ぐためにサイトの成長に応じてSQSを増加させていく運用なども考えられましたが、この場合FIFOの要件を満たせなくなってしまいます。また、SQSの増加に追従するロジックをアプリケーション側で実装する必要があります。 一方KDSはシャードあたりのキャパシティという考え方になり、1シャードあたり1,000レコード/secまたは1MB/secという制限がありました。シャード数はKDSの設定変更のみで調整可能なため、キャパシティ変更のオペレーションと実装を考えた際にKDSにメリットがあると判断しました。 余談ですが、SQSは2021年5月末にFIFOキューの高スループットモードを提供しており、一度に複数のメッセージを発行する仕様にすれば300tpsを超える性能を発揮することも可能です。2023年10月には処理可能なトランザクション数が9,000tpsまで増加しています。コスト面ではSQSが優位になるため、何に優先度を置くかによっては選択が変わっていたかもしれません。 Kinesis Client Libraryを利用した開発工数の削減 もう1つの大きな決め手は、KDSとレコード処理ロジック(Worker)を仲介するKinesis Client Library *1 (以下、KCL)が提供されていたことです。 KCLでは、何らかの事情により特定のWorkerのパフォーマンスが低下または停止してしまうような事態に陥った場合に異なるWorkerがそのレコードを処理するためのフェイルオーバー機能が提供されています。Workerの状態管理のためLeaseTableとしてのDynamoDBの構築・管理は必要になりますが、自身でKCLのフェイルオーバー機能を実装する時間をカットできるのは本質的なカート決済機能のリプレイスを進めるうえで大きなメリットと判断しました。 本システムのポイント 過熱商品専用のKDSを作成 KDSの採用理由にFIFO要件がある一方、KDSでシャード数を変更することによりキャパシティが変更可能になることを挙げました。しかし前述したような過熱商品の存在はここでも避けられない課題となりました。すべての商品ごとにシャードを用意できれば特定の商品によるカート投入リクエストのスパイクによる影響範囲はその商品だけになります。しかし、これはコストの関係から断念しセール時などでもユーザー体験を損なわないレイテンシで処理できる量のシャード数を用意しました。過熱商品については過去にアクセスがスパイクした商品や明らかにアクセス数の多い商品をDynamoDBに登録し、登録済みの商品であれば異なるKDSにレコードを登録する仕様にしました。 この仕様を入れることで過熱商品の販売に伴いその他多くの商品のカート投入に影響が出てしまうことを防げるようになりました。 既存システムへの改修は最小に 本来であればクライアントから定期的にポーリング処理を行う形が最も望ましいのですが、カート投入機能はブラウザのほか、ネイティブアプリにも存在しています。ZOZOTOWNのアプリは下位バージョンについても一定期間のサポート期間を設けており、直近のバージョンに対する強制アップデートはさまざまな部門との調整連携が必要になります。福袋販売時期を加味するとネイティブアプリのバージョンアップは現実的ではありませんでした。 そこでエンキュー後の状態管理(ポーリング)もqueuing-apiに持たせることでネイティブアプリ側の改修は必要とせず、VBScriptの改修も最小限に抑え速やかに本システムのリリースにつなげられました。前段となるVBScriptとqueuing-apiは結果的に後続処理完了まで待つという動きになりますが、本キューイングシステムの最大の目的はDBへの流量をコントロールすることであり、フロントエンド側の改修範囲を最小限に留めスピード感を持って開発を進めるためには、この形がベストと判断しました。 過熱商品への運用を補助するしくみ 前述のように過熱商品専用のKDSを作成したものの、事前にアクセススパイクが予測できる商品もあれば、予測できずスパイクする事態もかなりの頻度で発生することが考えられました。 そこで図4のような過熱商品運用を補助するしくみを構築しました。本システムが稼働するEKS上ではログ収集の機構としてfluentd-firehoseを採用しており、コンテナのアクセスログを収集してAmazon Simple Storage Service(以下、S3)にログとして保存するしくみがあらかじめ構築されていました。またそれをAWS Athena(以下、Athena)を使い分析するという運用を行っています。そのしくみを流用してCronなどの定期実行でAthenaから一定時間内に大量にカート投入されている商品がないかをログから判断し、あれば過熱商品判定用DynamoDBにItem登録するしくみを実装しました。当初はこの定期ジョブをGitHub Actionsを使い実現していたのですが、多くのアプリケーションのCI/CDにGitHub Actionsが使われていることからたびたび実行待機状態になってしまう問題があり、意図した実行間隔で動作できないという課題が生まれたことから現在では自社でコントロール可能なEKS基盤上で動作するArgo Workflows上での定期実行を採用しています。 図4 過熱商品への運用を補助するしくみ 導入効果 本システムを当初ターゲットとしていた福袋販売イベント前にリリースできたこともあり、無事にイベントを乗り越えられました。リリースまでは過熱商品販売のたびに更新の競合に伴うエラーが大量に発生していましたが、更新の競合を激減させることに成功し福袋販売時以外にも障害件数も減らせました。また運用を補助するしくみがあることで過熱商品販売に関する人的工数も大幅に抑えられています。 残った課題とその解決方法 本キューイングシステムだけでは対処しきれなくなった課題が2つがありました。本節では、それらの課題と解決方法を紹介します。 ページラッチ競合によるDB障害 SQL Serverにはデータ格納領域であるページの一貫性を保つための排他制御のしくみとしてページラッチという概念があります *2 。キューイングシステムの導入により同一レコード更新の競合に伴う障害発生件数は低減できましたが、今度はページ単位の読み取りと書き込みの競合によるSQL Serverのワーカースレッド枯渇に伴う障害が課題となりました(図5)。 図5 ページ単位の競合とレコード単位の競合 在庫情報のDynamoDB化 カート投入処理のボトルネックを根本解決するために実施したのが、キューイングシステム導入前に検討していたDynamoDBへの移行です。DynamoDB上に在庫情報を持ったテーブル(在庫数テーブル)を作成し、VBScriptからJava API経由で操作します(図6)。 図6 在庫サービスの変更(矢印の太さはリクエスト量を表します) DynamoDBはフルマネージドなサーバレスNoSQLデータベースです。データは常に3つのアベイラビリティゾーンに保持され、内部的には複数のパーティションに分散されています。RDBではないためJOINを使用するような複雑なクエリで大量データを分析するOLAP処理には向いていませんが、単純なクエリを用いた書き込みや読み込みを行うOLTP処理を数ミリ秒で安定して大量に処理できるのが特徴です。また、書き込みと読み込みのスループットが相互に依存しないため、SQL Serverで課題となっていたページラッチのような競合は発生しません。 課金体系では従量課金型のオンデマンドモードを使用することで、事前に負荷の予測が難しい場合や偏りがある場合でも負荷に合わせて柔軟にスループットをスケール可能です。また、特定のパーティションに負荷が集中した場合に自動でパーティションを分割して追加キャパシティを割り当てるAdaptive capacity機能がデフォルトで有効になっています。チーム内にも知見があることから、移行先はDynamoDBが最適と判断しました。 スコープは欲張らず最小限に 今回の移行対象は在庫テーブル内の在庫数のみです。在庫テーブルには金額や販売日時なども存在するため、多くのストアドプロシージャから参照・更新されます。また、ZOZOTOWN以外のサービスや基幹システムからも使用されているため、在庫テーブルをすべて移行すると影響範囲があまりにも大きく、リリースまで数年かかってしまいます。 カート決済リプレイスの方針として、リリーススパンは半年程度にすることが定められています。ビッグバンリリースによるさまざまなリスクを下げるほか、リリースまでの期間が長くなるとエンジニアが成果を感じにくく、モチベーション低下にもつながります。また、スパンを短くすることで世の中の技術動向や事業の成長に合わせて方針転換しやすいというのも大きな理由でした。 異種DB移行による脱トランザクション 既存のカート投入処理は、在庫テーブルの更新とカートテーブルの登録を1つのトランザクションで処理し整合性を担保していました。リプレイス後はSQL ServerとDynamoDBの異なるデータベースの更新となり、トランザクションは使用できません。そのため処理を分解して次のように変更しました。 在庫サービスのAPIを呼び出して在庫数を減算する 減算に成功した場合、カートテーブルにレコードを登録する 2の登録処理が失敗した場合、在庫数は減算されたままとなりデータの不整合が発生します。そのため、在庫数更新履歴を常にチェックして補正するバッチを作成し、結果整合性を担保しています。在庫数更新履歴はDynamoDBのKDS連携機能を使用しており、項目の変更前後のキャプチャが取得可能です。そのキャプチャを、KCLを使用したWorkerが取得し、Aurora MySQLの在庫数更新履歴テーブルへレコードを登録するしくみとなっています(図7)。 図7 DynamoDBの在庫数更新履歴をAurora MySQLへ連携 効果 在庫サービスへの移行後は、以前の5倍以上のカート投入リクエストを受けてもカートDB内で競合や負荷の上昇は見られていません。また、DynamoDBも適切なリトライ処理をアプリケーション側で実装していることもあり、とくに大きな問題もなく安定して稼働しています。 キューイングシステム自体のランニングコスト 前述したように本キューイングシステムではエンキュー後の状態管理をqueuing-apiが担っています。過熱商品の販売に伴い、デキュー待ちのレコードが増えると必然的にqueuing-api自体のリソース消費量も上昇します。負荷状況に応じてオートスケールするシステムではあるものの、突発的なスパイクには対応できないケースが多々見受けられます。いつ大量アクセスが発生するかわからない状況では、常にある程度潤沢なリソースを本システムで稼働させ続ける必要があり、ランニングコスト面で改善の余地がありました。 Rate Limitの導入 ランニングコストの問題は、Rate Limitを導入し、1商品あたりの秒間カート投入リクエスト数に上限値を定めることで解決しました。 ZOZOTOWNリプレイスではインフラ基盤としてEKSを活用し、EKS内でサービスメッシュとしてIstioを採用しています。IstioにはRate Limit機能が提供されており、特定のエンドポイントやHeaderのValue単位などさまざまな細かい条件でリクエスト数を制限できます。 今回のケースでは、カート投入リクエストにおいて商品単位でリクエスト数を制限する機能を次の流れで実現しました(図8)。 図8 Istio Rate Limitの概要図 呼び出し元のVBScriptから商品情報を識別できる情報とともにカート投入リクエストが行われる Envoy Filter *3 にて条件にマッチした場合、該当のマイクロサービスに到達する前にIstio Rate Limitにトラフィックをルーティング 制限値に達しているかを判定し、達していなければそのまま本来のリクエスト先となるマイクロサービスにトラフィックをルーティング 制限値に達している場合Istio Rate Limitは該当のトラフィックをマイクロサービスにルーティングすることなくStatus:429を応答 呼び出し元のVBScriptでは制限値に達したレスポンスを受けた場合は後続処理を行わずユーザーに適切な文言のみ返す 導入効果 Istio Rate Limitを活用することで過剰なアクセスはqueuing-apiに到達する前に遮断できる状態になり、キューイングシステム自体の負荷状況の改善とランニングコストの低下を実現しました。 Rate Limitは上限を超えたリクエストはすべて遮断する仕様です。そのため、あまりに厳しい制限値ではユーザー体験を低下させるリスクが存在します。前述したキューイングシステムやDynamoDBの導入により本質的にカート投入機能の性能限界が上がったことで、ユーザー体験を損なわない制限値でのRate Limit導入ができたと考えています。 まとめ 長いZOZOTOWNの歴史の中でもとくにトラブルの多かったカート投入機能ですが、クラウドネイティブな技術を活用していくことでキャパシティコントロール可能な状態を作り出し、システムの安定稼働率は大幅に向上しました。結果としてビジネスロジックやフロントエンド部分の脱VBScript化という本質的なリプレイスプロジェクトに注力できています。 今後のカート決済機能のリプレイスについてもぜひご期待いただければと思います。 本記事は、技術本部 カート決済部 カート決済技術戦略ブロック ブロック長の半澤 詩織と同 SRE部 カート決済SREブロック ブロック長の横田 工によって執筆されました。 本記事の初出は、 Software Design 2024年9月号 連載「レガシーシステム攻略のプロセス」の第5回「キャパシティコントロール可能なカートシステム」です。 ZOZOでは、一緒にサービスを作り上げてくれる方を募集中です。ご興味のある方は、以下のリンクからぜひご応募ください。 corp.zozo.com *1 : https://docs.aws.amazon.com/ja_jp/streams/latest/dev/shared-throughput-kcl-consumers.html *2 : https://learn.microsoft.com/ja-jp/sql/relational-databases/diagnose-resolve-latch-contention?view=sql-server-ver16#what-is-sql-server-latch-contention *3 : https://istio.io/latest/docs/reference/config/networking/envoy-filter/
はじめに こんにちは! WEARバックエンド部バックエンドブロックの小島( @KojimaNaoyuki )です。普段は弊社サービスであるWEARのバックエンド開発・保守を担当しています。 10周年を迎えた WEAR は2024年5月9日に大規模な アプリリニューアル を行いました。アプリリニューアルに伴い負荷試験を行ったので、本記事ではどのように負荷試験を実施したか事例をご紹介します。 記事は計画編と実施編の2部構成で、本記事は後編の実施編です。前編の計画編は「 WEARアプリリニューアルにおける負荷試験事例(計画編) 」で公開していますので、まだ閲覧していない方はぜひご覧ください。 techblog.zozo.com 目次 はじめに 目次 背景 負荷試験の要件 使用した負荷試験ツール 負荷試験シナリオ作成 コード例 解説 ファイル構成について 仮想ユーザー(VU)について executorについて coefficientRateについて rateとtimeUnitについて 発生した課題とその解決策 リソースの作成と削除を実施するAPIの負荷試験の問題 大量のシナリオ作成の問題 負荷試験実施 発生した課題とその解決策 負荷試験中にロックが発生してしまう問題 十分なmaxVUsを指定していても想定のRPSにリクエスト数が届かない問題 まとめ おわりに 背景 負荷試験を実施する背景については、 計画編 をご覧ください。 負荷試験の要件 計画編にて設定した負荷試験を実施するためには、以下の要件を満たす必要があります。 約100個のAPIに対して、一斉に負荷をかけられること それぞれのエンドポイントにかける負荷を変更できること 指定の期間で負荷をかけられること 本番環境で実施できること 次章からはこれらの負荷試験の要件を実現するために実施した事例と、その時に発生した課題とその解決策を記載します。 使用した負荷試験ツール k6 というツールを利用して負荷試験を実施しました。 今回の負荷試験に採用した理由は、WEARでは現在チーム内で共通の負荷試験基盤としてk6環境が整備されており、普段から利用しているためです。また、今回の負荷試験の要件もk6を利用することで十分に満たすことができると判断しました。 チームの負荷試験基盤としてk6を導入した経緯などについては、「 WEARにおけるKubernetesネイティブな負荷試験基盤の導入とその効果 」の記事にまとまっていますのでご興味あればご覧ください。 負荷試験シナリオ作成 初めに今回の負荷試験で使用したシナリオコード例を以下に記載します。その後に解説します。 コード例 main.js import { get_v1_users , get_v1_articles , // ...省略 } from './exec_functions.js' export { get_v1_users , get_v1_articles , // ...省略 } const duration = '1s' const coefficientRate = 1 const maxVus = 50 export const options = { summaryTrendStats : [ 'avg' , 'min' , 'med' , 'max' , 'p(95)' , 'p(99)' , 'p(99.99)' , 'count' ] , scenarios : { get_v1_users : { executor : 'constant-arrival-rate' , duration : duration , rate : Math . ceil ( coefficientRate * 10 ) , timeUnit : '1s' , preAllocatedVUs : 1 , maxVUs : maxVus , exec : 'get_v1_users' } , get_v1_articles : { // ...省略 } // ...省略 } , } exec_functions.js import http from 'k6/http' import { check } from 'k6' import { getMemberUserNameRandomly , // ...省略 } from './dynamic_parameters.js' export const get_v1_users = () => { const headers = { /* ...省略... */ } let response = http . get ( `https://example.com/v1/users` , { headers : headers } , { tags : { my_custom_tag : get_v1_users } }) let result = check ( response , { "status is 200" : ( r ) => r . status === 200 }) if ( result === false ) { console . warn ( `status: ${ response . status } \turl: ${ response . url } ` ) } } export const get_v1_articles = () => { // ...省略 } // ...省略 dynamic_parameters.js const getRandomly = ( array ) => { const randomIndex = Math . floor ( Math . random () * array . length ) ; return array [ randomIndex ] ; } export const getMemberUserNameRandomly = () => { const testUserNames = [ 'hoge1' , 'hoge2' , 'hoge3' , 'hoge4' , 'hoge5' , /* ...省略... */ ] return getRandomly ( testUserNames ) } // ...省略 解説 今回の負荷試験では約100個のAPIに対して、一斉に負荷をかける必要があり、それぞれのエンドポイントにかける負荷を調節できることや負荷をかける期間を指定できる必要があります。 そこで、基本的に1シナリオには1エンドポイントを呼び出し、それら複数のシナリオをまとめて実行することにしました。そして、指定期間に指定の負荷(RPS)をかける必要があったため、executorは constant-arrival-rate を利用しました。executorについての詳細は後述しています。また、動的にパラメータの値を変更したい箇所があったため、リソース毎に関数化し、それらのパラメータはファイルを分けて管理しました。 ファイル構成について シナリオで実行する関数をまとめたexec_functions.jsと動的にしたいパラメータデータをまとめたdynamic_parameters.jsとシナリオを記述するmain.jsを作成しました。 今回の負荷試験は本番環境で実施していたため、実施する時間帯によって負荷を変える必要があり、複数のシナリオを作成する必要がありました。その際、実行する関数は共通で再利用できるため、exec_functions.jsに切り出して共通化しました。 動的にパラメータの値を変更したい箇所は、リソース毎に関数化してdynamic_parameters.jsにまとめ、それらを適宜exec_functions.jsの関数から呼び出すようにしました。 仮想ユーザー(VU)について 仮想ユーザー(VU)という概念があります。VUは、シナリオを実行するための仮想的なユーザーです。VUは任意の数を用意でき、VU数を増やすことで並列にリクエストを送信できる数を増やせます。 VU数の算出方法については、後述の「executorについて」で説明します。 executorについて executorとは、VUがシナリオを実行する方法を制御するものです。詳しくは Executors | Grafana k6 documentation をご覧ください。executorには様々な種類が存在し、実現したい負荷試験の要件によって適切なexecutorを選択する必要があります。今回の負荷試験では constant-arrival-rate を利用しました。 constant-arrival-rate は利用可能なVUが存在する限り、指定した期間に指定したレートで繰り返しシナリオを実行し続けます。そのため、今回の「指定負荷(RPS)を指定期間かけ続ける」という要件に適切と考えて利用しました。 注意点として、1回のシナリオの実行時間と指定したrate, timeUnit次第で、想定の負荷をかけるために必要な数のVUが増減するため適切なmaxVUsを指定する必要があります。もしもVUの数が枯渇すると想定の負荷がかからなくなります。今回の負荷試験では、k6のログに出力される使用しているVU数とk6実行環境のリソース使用量を確認しつつ適切な値を設定しました。 coefficientRateについて シナリオのrate定義に Math.ceil(coefficientRate * 10) としている部分があります。これにより、いきなり負荷試験で確認したい想定負荷量の100%の負荷をかけるのではなく、係数をかけて段階的に負荷をかけられます。 rateとtimeUnitについて 今回の負荷試験ではRPSの単位で負荷をかける必要があったため、1秒間に何回繰り返すかを指定する必要がありました。そのため、timeUnitを1sに設定し、rateに繰り返す回数を設定しました。 発生した課題とその解決策 リソースの作成と削除を実施するAPIの負荷試験の問題 今回は本番環境で負荷試験を実施していたため、負荷試験で作成したテストデータはできるだけ残らないように削除する必要がありました。こちらは、リソースの作成と削除を1つのシナリオに順番で記載することで、負荷試験で発生したデータを本番環境に残すことなく実施できました。 実際のユーザーに紐付くデータとしては作成できないため、テスト用のアカウントを本番環境に用意し、そのアカウントで負荷試験を実施しました。 大量のシナリオ作成の問題 今回の負荷試験ではシナリオの総数は200程度と大量だったため、手作業で作成することが困難でした。そこで、計画段階にエンドポイント名や負荷量などの情報はGoogleスプレットシートに記載していたためそこからシナリオを生成するGoogle Apps Scriptを作成し、大部分を自動生成しました。 自動生成するにあたって、シナリオで実行する関数の命名は一意にする必要があったため、以下のルールで実施しました。 httpメソッド + apiのパス 例: GET v1/articles → get_v1_articles 負荷試験実施 シナリオは本番環境の現行負荷を考慮して適切な負荷量になるように、時間帯毎に負荷量を調節したシナリオを複数用意して実施しました。 初めから想定される100%の負荷量で試験を実施するのではなく、都度結果を確認しながら10%→30%→50%→100%と負荷量を段階的に上げて実施しました。 また、負荷試験の実施中はエラーなどを常に監視し、ユーザ影響が出た場合にすぐに負荷を中止できるように準備しておきました。 発生した課題とその解決策 負荷試験中にロックが発生してしまう問題 負荷試験を実施したところ、デッドロックやロック起因のDBタイムアウトによるAPIエラーが多数発生してしまいました。監視体制を整えていたため、すぐに負荷試験を中断し、ロック原因の調査をしました。 ロックが発生したリソースとブロッカーとなるAPIを調査した結果、負荷試験シナリオの問題であることが分かりました。具体的には、とある親リソースに紐づいている子リソースをまとめて取得するAPIと、その子リソースを削除するAPIが同時に実行されるシナリオになっており、リソースの競合が発生していたためでした。 取得するAPIと削除するAPIとでリソースが競合しないように、それぞれパラメータに渡すリソースを調節することで解決しました。 十分なmaxVUsを指定していても想定のRPSにリクエスト数が届かない問題 負荷試験を実施中に、十分なmaxVUsを指定していたにもかかわらず、予想したRPSに実際のリクエスト数が到達しない状況になることもありました。 原因としては、k6を実行していたコンピューターの性能が不足しており、maxVUsまでVUの数を増やすことができていなかったことが原因でした。 そのため、k6を実行するコンピューターの数を増やすことで解決しました。 まとめ 負荷試験では、想定した負荷量をかけることができ、問題なく本番環境で負荷試験を実施できました。そして、APIのレイテンシやCPU使用率などの問題を未然に発見でき、リリース前に改善できました。これは負荷試験を実施しなければ発見することが難しかったことと思われるため、負荷試験の成果と言えます。 一方で、今回の負荷試験には実際のユーザーへの影響が出てしまう危険性や、工数面などデメリットも存在しました。しかし、今回の負荷試験は安全なWEARリニューアルリリースを実現するために必要な作業であったと考えています。 おわりに WEARアプリのリニューアルにおける負荷試験の実施事例についてご紹介しました。シナリオ作成時には、負荷試験を計画する時に設定した要件を満たすことを、負荷試験を実施する時には、安全で正確な負荷試験を実施することが求められます。WEARでの事例が参考になれば幸いです。 ZOZOでは、一緒にサービスを作り上げてくれる方を募集中です。ご興味のある方は、以下のリンクからぜひご応募ください。 corp.zozo.com
はじめに こんにちは。会員基盤ブロックの小原田です。弊社では、ZOZOTOWNという大規模なモノリシックシステムをマイクロサービスへリプレイスする取り組みを進めています。私が所属する会員基盤ブロックでは、ZOZOTOWNの会員情報を扱うマイクロサービスの開発と運用を担当しています。 会員基盤ブロックでは、開発生産性の向上を目指し、約半年間にわたり様々な取り組みを行ってきました。本記事では、会員基盤ブロックが開発生産性の向上のために実施してきた施策と、その成果について紹介します。 目次 はじめに 目次 開発生産性の向上に関する取り組みの背景 Findy Team+を用いた調査 会員基盤ブロックが抱える開発生産性の課題 サイクルタイム短縮の取り組み PRの変更行数を100行以下にする レビューを優先する仕組みの整備 ブレスト会の実施 品質向上についての取り組み Goガイドラインの策定 テストカバレッジレポートの導入 半年間の取り組みの結果 取り組みに関するメンバーからのフィードバック ポジティブだったこと ネガティブだったこと まとめ 開発生産性の向上に関する取り組みの背景 弊社では、全社的に開発生産性の向上に注力しており、各部署やチームでさまざまな取り組みを進めています。その中でも、私たちの部署は「品質を維持しながら効率を高める」ことを目標に掲げ、各チームに対して開発生産性の可視化とそのサポートツールである Findy Team+ の導入を推進しました。各チームは、Findy Team+が提供する指標をもとに、開発生産性の向上に取り組んでいます。 こうした背景を受けて、会員基盤ブロックでも開発生産性の向上に向けた取り組みを進めることになりました。私たちはFindy Team+の指標や機能を用いて開発生産性の課題を調査するところから始めました。 Findy Team+を用いた調査 会員基盤ブロックでは、チーム状況を正しく把握することを目的とした「ふりかえり会」を週に一度実施しました。このふりかえり会では主に以下のようなFindy Team+が提供する指標を用いて、これまでのチームの動き方がどのような状態であったかを確認していました。 DevOps分析 チームサマリ サイクルタイム分析 レビュー分析 会員基盤ブロックが抱える開発生産性の課題 毎週のふりかえり会を通してわかったことは、会員基盤ブロックでは主にPRのレビュープロセスに課題が存在することでした。以下の図は、Findy Team+の「サイクルタイム分析」を用いて可視化した、2024年3月の会員基盤ブロックのサイクルタイムです。 図1. 2024年3月のサイクルタイム ここでのサイクルタイムとは、ある機能の実装(コミット)を開始してから、PRを作成し、それがマージされるまでにかかる時間を指します。Findy Team+のサイクルタイム分析では、サイクルタイムの平均時間の他に以下の4つの項目を確認できます。 コミットが開始されてからPRがオープンされるまでの平均時間 PRがオープンされてから初めてレビューされるまでの平均時間 PRのレビューが開始されてから初めてアプルーブされるまでの平均時間 PRがアプルーブされてからマージされるまでの平均時間 会員基盤ブロックでは、サイクルタイムの平均値が212時間と、かなりの時間を要していました。特に、PRがレビューされてからアプルーブされるまでの平均時間は108時間であり、サイクルタイムの大半を占めています。 レビューからアプルーブされるまでの時間が長くなる要因としては様々なものが考えられますが、代表的なものとしてPRの規模が挙げられます。PRの規模が大きいと、PRの確認に時間がかかり結果としてサイクルタイムが伸びます。実際、会員基盤ブロックでもこの傾向がみられました。次の図は2023年12月の変更行数の平均とレビューからアプルーブまでの時間のグラフです。棒グラフが変更行数の平均を表し、赤色の折れ線グラフがレビューからアプルーブまでの平均時間を表します。変更行数が多くなるにつれてレビューからアプルーブまでの時間が伸びていることが分かります。 図2. 2023年12月のレビューサマリ また、図1や図2をみるとオープンからレビューまでの時間は短いことがわかります。しかし、会員基盤ブロックでは一部のPRのレビューが後回しにされ、長時間レビューされないといった問題も見られました。次の図は2024年3月における、PRがオープンされてからレビューされるまでの時間をヒストグラムで表したものです。横軸はオープンされてからレビューされるまでの時間、縦軸はPRの数を表します。図から分かるように、100時間以上レビューされていないPRが存在します。このような場合、レビューよりも自分の作業を優先することや優先度の低いPRは後回しにし続けるといったレビュー意識に関する問題があると考えられます。 図3. 2024年3月における、PRがオープンされてからレビューされるまでの時間とPR数のヒストグラム サイクルタイム短縮の取り組み 上記のような課題を解決するために、Findy Team+の「KPTふりかえり」を用いることにしました。以下の図はKPTふりかえりの様子です。私たちはFindy Team+の指標や分析から、それぞれ良かった点や改善したい点などを挙げ、今後行うべき取り組みをチームで出し合いました。 図4. KPTふりかえりの様子 このKPTふりかえりを通して実際に行なってきた取り組みのうち、効果的であった取り組みをいくつか紹介します。 PRの変更行数を100行以下にする 会員基盤ブロックではPRの粒度が大きくなると、レビューからアプルーブまでの平均時間が長くなる傾向にありました。そこでPRのレビューを効率的に行うために、PRの粒度を小さくする取り組みを実施しました。実のところ会員基盤ブロックでも以前からこの取り組みはされており、実際「変更ファイル数が5〜8を超える場合はPRを分けることを検討する」というルールが存在していました。今回、新たに「ファイル数」ではなく「変更行数」に着目し、1PRあたりの変更行数を100行以内に抑えることを目標に設定しました。 図2を見ると取り組み前の変更行数の平均は300行を超えているため、1PRあたり100行という目標は厳しいものと考えられます。実際、会員基盤ブロックではこの目標を完全に達成できていません。しかし、各メンバーはできる限り100行程度の変更行数でPRを出すよう努力しています。例えば、リポジトリを作成する際には、最初にインタフェースのみ定義したPRを作成するなど、スコープを狭める工夫をしています。 この取り組みの結果、以前よりもサイクルタイムが改善しました。取り組み前後に実装したAPIの中から、機能的に類似した4つのAPIを取り出し、サイクルタイムを比較した図を次に示します。棒グラフの各要素はPRごとのサイクルタイムを示しており、その合計、つまり棒グラフ全体が1つのAPIを実装するのにかかったサイクルタイムを表しています。変更行数を抑える取り組みの結果、API実装にかかる合計のサイクルタイムが減少していることが読み取れます。 図5. 取り組み前後のサイクルタイムの比較 レビューを優先する仕組みの整備 レビューを優先させるために、チーム全員で積極的にPRを確認する機会を設けました。会員基盤ブロックでは、毎朝、各自のタスクを確認する「朝会」を行っていますが、この朝会で、現在出ているPRやレビューコメントの確認も行うようにしました。さらに、アプルーブされていないPRがある場合には、毎朝Slackで通知される仕組みも整備しました。これらの施策により、PRが長期間レビューされない状況を改善できました。 次の図はこの取り組みを開始した後の2024年6月における、PRがオープンされてからレビューされるまでの時間をヒストグラムで表したものです。図3ではレビューされるまでに100時間を超えるようなPRがありましたが、取り組みを開始してからは最大でも25時間未満でレビューを開始できました。 図6. 2024年6月における、PRがオープンされてからレビューされるまでの時間とPR数のヒストグラム ブレスト会の実施 会員基盤ブロックではKPTふりかえりを通じてさまざまな取り組みを行ってきましたが、「レビューからアプルーブまでの平均時間」の改善が頭打ちしていました。次の図は2024年5月のサイクルタイム分析です。レビューからアプルーブまでの時間が42.3時間になっており、図1の場合の108.4時間と比べて大きく改善しています。Findy Team+のサイクルタイム分析にはそれぞれの項目に評価が設けられており、上から「Elite」「High」「Medium」「Low」と設定されています。図7のレビューからアプルーブまでの時間の評価をみると、最低評価のLowとなっており、まだ十分に改善できていない状態でした。 図7. 2024年5月のサイクルタイム分析 そこで、レビューからアプルーブまでの時間が長くなっている原因を特定するために、チームメンバーとブレスト会を実施しました。ブレスト会では、最近出されたPRのうちサイクルタイムが長かったものを参考にし、以下のテーマについて図8のように付箋に意見を書き出し、アイデアを出し合いました。 レビューに時間がかかる要因は何か? 時間がかかる原因はどこにあるのか? その対策案は何か? 図8. ブレスト会の様子 ブレスト会の結果、レビューに時間がかかる理由として、「なぜそのPRが必要かメンバーの理解度が一致していない」ことや「設計時に見落とした考慮漏れにより、実装時に手戻りが発生する」ことが挙げられました。それに対する対策として、本実装の前に必要最低限の実装(PoC)を行い、その内容について口頭での説明会を実施することにしました。PoC共有会を行うことで、なぜその対応が必要なのかについてチーム内で共有し、実装方針について事前に合意を得ることができるようになりました。 さらに、PoCの取り組みは別の課題も解決しました。会員基盤ブロックではPRの変更行数を少なくする取り組みを行っていました。しかし、これにより「PRが小さすぎて全体の変更内容が把握できない」という問題が発生していました。例えば、ある関数を実装する際にその関数の利用方法が不明瞭なため、レビューが難しくなるといった問題です。PoC共有会では実装したい機能全体をチームに共有するため、細かい単位でのPRであってもその機能の利用方法についてレビュアが理解できるようになり、スムーズなレビューが可能となりました。 品質向上についての取り組み 私たちの部署内では開発生産性の向上に加え、「品質を維持しながら効率を高める」ことも目標として挙げられています。会員基盤ブロックでは以前からCIによるLintチェックなどは導入していますが、追加で次のような品質向上につながる取り組みを行いました。 Goガイドラインの策定 会員基盤ブロックでは、Goを使用してマイクロサービスの開発をしています。ZOZOではバックエンドの開発言語としてJavaまたはGoの利用を推奨していることもあり、会員基盤ブロックが中心となって全社的に利用できるGoガイドラインを策定しています。ガイドラインには、コーディング規約、パフォーマンス向上のためのベストプラクティス、テストの書き方などが含まれています。現在、ガイドラインは策定中ですが、これにより実装速度の向上、レビュー時間の短縮、そして品質の向上が期待できます。 テストカバレッジレポートの導入 品質を維持するための取り組みとして、図9のようなテストカバレッジレポートの導入も行いました。PRを出す際に、mainブランチと比較して全体のテストカバレッジの上昇率を確認できます。また、全体ではなく、変更があったファイル単位でのテストカバレッジの上昇率も確認可能です。テストカバレッジレポートの導入により、テストの不足部分を一目で把握できるようになりました。 図9. テストカバレッジレポート 半年間の取り組みの結果 会員基盤ブロックでは、約半年間にわたって開発生産性の向上に取り組んできました。ここではその取り組みの結果について紹介します。 まず、サイクルタイムが大きく改善しました。次の図は2月から8月まで約半年間のサイクルタイムを示しています。棒グラフの長さはサイクルタイムの合計平均値を表しています。取り組みを始める前の2024年2月や3月には、サイクルタイムがほとんど100時間を超えており、その中には300時間を超えるケースも見られました。しかし、取り組みを始めた4月以降、サイクルタイムは徐々に短縮され始めました。7月のある週には150時間を超えることもありましたが、それ以外の週はほぼ30〜40時間程度に改善しています。 図10. 2024年2月から8月までのサイクルタイム分析 同様の傾向はレビューサマリでも確認できます。以下の図は2月から8月までのレビューサマリです。7月に若干の上昇が見られますが、オープンからレビューまでの平均時間およびレビューからアプルーブまでの平均時間は減少傾向にあります。また、変更行数の平均も以前は400行を超えるものがありましたが、現在はおおよそ100〜150行程度に収まっています。 図11. 平均変更行数および平均レビュー時間の推移 取り組みに関するメンバーからのフィードバック ここまで紹介してきた開発生産性の向上の取り組みについて、メンバーからのフィードバックをアンケートで収集しました。ここでは、その中からいくつかの意見を紹介します。 ポジティブだったこと レビューを優先する取り組みやPRの粒度を小さくする取り組みが効果的だったという意見が多く寄せられました。具体的には、レビュー速度が向上したことで開発者体験が改善されたという意見がありました。また、PRの粒度を小さくすることでレビューに対する心理的負担が軽減し、レビュー時間も短縮されたと感じる人が多かったようです。さらに、PoCの導入についても好印象を持つ人も多く、事前に実装イメージを共有することで、PRレビューがスムーズに進んだという意見がありました。 また、Findy Team+は様々な指標やKPTふりかえりなどの機能を提供するため、Findy Team+だけで開発生産性を向上できたことが良かったという意見がありました。特にふりかえり会を行うことにポジティブな意見が多数ありました。ふりかえり会を通じて現在の課題を確認し、チーム全体で改善意識が高まったとの声がありました。他にもPRのサイクルタイムが可視化されたことで、時間短縮に向けた取り組みが促進されたという意見もありました。さらに、Findy Team+のスコアの向上がモチベーションとなり、継続的な改善への意欲が向上したという意見もありました。 ネガティブだったこと 一方で、品質への配慮が不十分であったとの懸念もありました。例えば、開発速度や時間短縮にフォーカスするあまり、十分なレビューが行われていないという懸念や、テストカバレッジレポートのような品質を数値化して注視する仕組みが必要であるという意見がありました。また、Findy Team+のスコア向上を意識した動き方に疑問を持つ声もありました。例えば、夕方にPRをオープンするとレビュー担当者がすでに退勤しているため、PRのオープンを翌日に行うといった動き方です。 品質への配慮が不十分であるとの懸念に対しては、策定したGoガイドラインに基づいたLinterを用意するなど、コードの一貫性と品質を向上させる仕組みをさらに整備していく予定です。Findy Team+のスコア向上を意識した動き方に関しては、スコア向上を目指す際にどのような行動が適切かをチームで定義し、実質的な開発生産性の向上につながる取り組みを進めていきたいと考えています。 まとめ 会員基盤ブロックが約半年間にわたって実施してきた開発生産性の向上の取り組みについて紹介しました。これらの取り組みにより、サイクルタイムは平均200時間を超えていたものが、平均41.5時間程度まで短縮されました。また、サイクルタイムの短縮だけではなく、テストカバレッジレポートの仕組みの構築やGoガイドラインの策定など、品質向上に関する取り組みも行えました。 しかし、Findy Team+のスコアはまだ十分に高いとは言えず、改善の余地があります。特に、レビューからアプルーブまでの時間は他チームと比べて依然として時間がかかっています。今後も定期的なふりかえり会やKPTを続け、さらに開発生産性の向上を目指していきたいと考えています。 ZOZOでは、一緒にサービスを作り上げてくれる方を募集中です。ご興味のある方は、以下のリンクからぜひご応募ください。 corp.zozo.com
はじめに こんにちは。データシステム部/推薦基盤ブロックの佐藤 ( @rayuron ) です。私たちはZOZOTOWNのパーソナライズを実現する推薦システムを開発・運用しています。推薦システムごとにKPIを策定していますが、データの欠損やリリース時の不具合によってKPIが意図しない値を取ることがあるため定常的に確認する必要があり、これをKPIのモニタリングと呼んでいます。 先日、 推薦システムの実績をLookerでモニタリングする というテックブログで推薦システムのKPIをモニタリングする方法を紹介しましたが、運用していく中でいくつかの課題が見えてきました。本記事では、より効率的かつ効果的なKPIのモニタリングを実現するための取り組みについて詳しくご紹介します。 はじめに 改善の背景と課題 背景 課題 トレンドを考慮した異常検知が不可能 モニタリングの設定が面倒 アラート対応フローが不明確 サマリの定期配信が形骸化 課題解決のアプローチ 異常検知の自動化 KPI集計パイプラインの構築 モニタリングパイプラインの構築 Prophetの採用 設定の簡素化 アラート対応フローの整備 ダッシュボードを見る会の運用 ダッシュボードを見る会の進め方 効果 動的な閾値で異常値を検知できるようになった モニタリングの設定が簡単になった アラート対応の属人化の解消 異常値の取りこぼしの削減 課題と展望 偽陰性の防止 異常検知モデルの精度のモニタリング アラートの原因分析の自動化 おわりに 改善の背景と課題 背景 推薦基盤ブロックでは、ZOZOTOWNのトップページやメール配信などにおいて、ユーザーに最適なアイテムを推薦するシステムを開発・運用しています。弊チームで運用している推薦システムの具体例は以下の記事を参照してください。 techblog.zozo.com cloud.google.com techblog.zozo.com 元々、KPIのモニタリングはLookerを用いて各指標の変化を確認するか、Looker Studioで作成されたダッシュボードはあるが定常的にモニタリングされていない、というどちらかの状態でした。 課題 冒頭で紹介した 推薦システムの実績をLookerでモニタリングする で挙げた様に、既存のモニタリングシステムには以下のような課題がありました。 トレンドを考慮した異常検知が不可能 モニタリングの設定が面倒 アラート対応フローが不明確 サマリの定期配信が形骸化 トレンドを考慮した異常検知が不可能 これまで運用されていた異常検知は、固定の閾値でKPIの異常を判定していました。固定の閾値では、時系列のトレンドを捉えきれず、KPIの異常値を正しく検知できませんでした。例えばZOZOTOWNではZOZOWEEKなどのセールイベントが定期的に開催されているため、こういったイベントによるKPIの変化を考慮した異常検知が必要でした。 モニタリングの設定が面倒 以下で示す様にモニタリングのための設定はYAMLファイルを使って管理していましたが、指標ごとに閾値を設定する必要があり非常に手間がかかっていました。閾値設定は担当者の主観的な判断に基づいて行われることが多く、客観的な根拠に基づいた設定が難しいという問題もありました。 - lookml_dashboard_id : kpi_monitoring_shoes::shoes_recommendation alerts : - lookml_link_id : visit/open cron : "0 10 * * *" name : mail_result.visit_per_open # <- 指標ごとの設定が面倒 lower : 0.1 # <- 下限閾値の設定が面倒 upper : 0.5 # <- 上限閾値の設定が面倒 - lookml_link_id : recommend_generation cron : "0 10 * * *" name : generation # <- 指標ごとの設定が面倒 lower : 0.01 # <- 下限閾値の設定が面倒 upper : 0.1 # <- 上限閾値の設定が面倒 field_name : member.age_tier field_value : "19 to 22" ... アラート対応フローが不明確 KPIの異常値を検知するアラートが発生した場合、担当者はアラートがなぜ引き起こされたのかを確認し適切な対応をする必要があります。しかし明確な手順が定まっていないため、対応者がシステムを作った人に限られてしまうという属人化の問題がありました。 サマリの定期配信が形骸化 メール配信数やクリック率などの数値が羅列されたサマリをSlackで定期配信していましたが、次第に形骸化し最終的にはほとんど誰も目を通さなくなってしまいました。 課題解決のアプローチ これらの課題を解決するため、以下のアプローチを採用しました。 異常検知の自動化 アラート対応フローの整備 ダッシュボードを見る会の運用 それぞれのアプローチについて詳しく説明します。 異常検知の自動化 KPI集計パイプラインの構築 これまでKPIの集計はスプレッドシートやBigQueryのスケジュール実行で行っていましたが、Vertex AI Pipelinesへ移行しました。弊社ではVertex AI Pipelinesの実行・スケジュール登録・CI/CD・実行監視等をテンプレート化した、GitHubのテンプレートリポジトリを運用しているため、このリポジトリを利用することで簡単にVertex AI Pipelinesの実行環境を導入できます。KPI集計のジョブは以下のように構成されています。 パイプラインではKPIの集計に加えて、後続のモニタリングのジョブのためにデータを整形します。集計されたKPIは以下の形式でBigQueryに保存されます。 日付 CTR CVR 2024-01-01 0.2 0.3 2024-01-02 0.3 0.4 2024-01-03 0.4 0.3 モニタリングパイプラインの構築 KPI集計と同じくVertex AI Pipelinesを使用して異常検知システムを構築しました。KPIをモニタリングするパイプラインは1日1回、KPI集計が完了した後に実行されます。以下のようなパイプラインが構築されています。 異常検知には、次のセクションで説明する Prophet と呼ばれるライブラリを使用し、検知した指標名やグラフと一緒にSlackメッセージを通知します。 Prophetの採用 私たちは、異常検知を自動化するためにProphetを採用しました。Prophetは単一の時系列データでトレンドを考慮した予測と 不確定区間 の計算ができるため、これを異常検知に利用します。具体的にはKPI集計パイプラインで保存されたBigQueryのテーブルにおいて、最新の日付の不確定区間を計算し、測定された値が不確定区間の外側にある場合、異常値として検知します。 キャンペーンやセールなどのイベント情報をモデルに組み込むことで、イベントの影響を考慮した上で異常検知ができます。また、イベント情報をProphetに与えることで、イベントを考慮した異常検知が可能になります。以下は イベント情報をProphetに与える例 です。 playoffs = pd.DataFrame({ 'holiday' : 'playoff' , 'ds' : pd.to_datetime([ '2008-01-13' , '2009-01-03' , '2010-01-16' , '2010-01-24' , '2010-02-07' , '2011-01-08' , '2013-01-12' , '2014-01-12' , '2014-01-19' , '2014-02-02' , '2015-01-11' , '2016-01-17' , '2016-01-24' , '2016-02-07' ]), 'lower_window' : 0 , 'upper_window' : 1 , }) superbowls = pd.DataFrame({ 'holiday' : 'superbowl' , 'ds' : pd.to_datetime([ '2010-02-07' , '2014-02-02' , '2016-02-07' ]), 'lower_window' : 0 , 'upper_window' : 1 , }) holidays = pd.concat((playoffs, superbowls)) m = Prophet(holidays=holidays) 設定の簡素化 Prophetを使用することで動的な閾値を設定できるようになります。さらに、これまでは指標単位でモニタリングの設定を記述していましたが、テーブル単位で記述することによって設定が簡素化されました。具体的には以下のようなYAMLファイルで記述される設定を使用します。 kpi_monitoring_ma_personalize_shoes_parameters : monitor_table_id : 'project_id.dataset_id.table_id' date_field : send_date freq : D expected_interval_days : 2 plot_periods : 7 start_date : '2023-01-01' exclusion_dates : - '2024-06-26' exclusion_fields : - campaign_id dashboard_link : https://lookerstudio.google.com/dashboard interval_width : 0.99 各項目の説明は以下の通りです。 パラメータ 説明 monitor_table_id モニタリング対象のBigQueryのテーブルID date_field 日付列名 freq モニタリングを実施する頻度 expected_interval_days 意図した集計間隔 plot_periods 通知時にx軸にプロットする期間 start_date モニタリングを開始する日付 exclusion_dates モニタリング対象から除外する日付のリスト exclusion_fields モニタリング対象から除外する列名のリスト dashboard_link ダッシュボードのリンク interval_width 不確定区間の幅 アラート対応フローの整備 アラート対応フローを整備することで、対応の属人化を解消しました。このワークフローはアラートが発生した場合、担当者がどのような手順で対応すればいいのかを明確に示すものです。以下のようなアラート対応のワークフローを設定しました。以下で具体的に説明します。 アラートが発生した時、パイプラインは以下のような画像を含むSlackメッセージを通知します。 通知を受け取った後は具体的な原因を調査します。以下の表に示す3つの原因に分類し、それぞれの原因に対する対応方針を明確にしました。 原因 対応 データ データの欠損や品質の低下が原因と考えられる場合、データ連携の確認やデータ品質の改善を試みます。 モデル モデルの誤動作やパフォーマンスの低下が原因と考えられる場合、モデルのチューニングを行います。 アラートの設定 アラートの設定に誤りがある場合や指標の分散が大きく予測が不確実な場合は、アラート設定の見直しを行います。 異常値をProphetの学習データから除外するため、異常値として捉えた日付を exclusion_dates として設定に追加します。これまでのアラートの対応内容はドキュメント化し次回同様のアラートが発生した際、参照できるようにします。 ダッシュボードを見る会の運用 これまでご紹介した異常値の自動検知の取りこぼしを防ぐため、チーム全員でダッシュボードを定期的に確認するミーティングを運用しています。先述の通り、元々行っていたサマリの定期配信は強制力のある方法ではなかったため形骸化しました。そこでSlackでのサマリの定期配信は廃止し、週1回ダッシュボードを見る会を開催することで積極的にKPIの状況を把握する体制を構築しました。 ダッシュボードを見る会の進め方 ダッシュボードを見る会は毎週1回20分のミーティングで以下の手順に従って進行します。 ファシリテーターを中心にダッシュボードを見て、先週から ±N% 以上の変化率か、グラフの形状が大きく変わったかを確認 大きな変化がある場合、祝日、イベント、障害が発生していないか等原因を調査 時間内に原因解明が出来なかった場合は、ファシリテーターが問題をチケット化し調査タスクをバックログへ積む 具体的には以下のようなダッシュボードをモニタリングしています。 効果 今回の取り組みによって、以下の効果が得られました。 動的な閾値で異常値を検知できるようになった Prophetを用いることで季節変動やイベントの影響を考慮した動的な閾値を設定できるようになりました。これにより誤検知を減らし、真の異常値を検知できるようになりました。 モニタリングの設定が簡単になった これまで指標ごとに閾値を設けモニタリングを行っていましたが、閾値を自動で決めることやテーブル単位で設定項目をまとめることで設定が簡素化されました。 アラート対応の属人化の解消 アラート対応フローを整備しワークフローに従って対応することで、担当者の知識や経験に依存せず誰でも対応できるようになりました。 異常値の取りこぼしの削減 ダッシュボードを見る会を通してKPIのトレンドや全体的な傾向を把握できるようになりました。これにより自動検知での異常値の取りこぼしを削減しました。6月中旬から9月中旬まで運用した中で、データの欠損や集計定義の異常等に関する5つの異常値を検知しました。 課題と展望 偽陰性の防止 現在どこまでを異常値として捉えるかをinterval_widthというパラメータで調整しています。KPIモニタリングシステムを運用してみるまでどこまでを異常値として捉えるかは運用者であっても不明な場合が多いためこのパラメータには一定の初期値を設定します。一方でKPIモニタリングシステムは異常値でないと判定したが、実際には異常値であった場合を検知できないというシステム特有の問題があります。定期的にinterval_widthを調整することやダッシュボードを見る会での議論を通じて偽陰性を防止する取り組みを行うつもりです。 異常検知モデルの精度のモニタリング KPIをモニタリングする異常検知モデルの精度が低下していることに気づくためには、異常検知モデルのメトリクスをモニタリングする必要があります。また、この際にはモニタリングの連鎖という問題に上手く対処する必要があると考えています。 アラートの原因分析の自動化 KPIのモニタリングシステムを運用していて一番時間がかかるのは、人によるアラートの原因分析です。データの欠損やメールの配信数制限には指標の変化にパターンが存在するので、アラートの変化に対応して原因の候補を自動で提案する仕組みを構築することで、アラートの原因分析の時間を短縮できると考えています。 おわりに 本記事では推薦システムのKPIのモニタリング自動化と運用体制の整備についてご紹介しました。今後もより効率的で効果的なモニタリングシステムの構築を目指して、改善を続けていきます。 ZOZOでは一緒にサービスを作り上げてくれる方を募集しています。ご興味がある方は以下のリンクから是非ご応募ください! corp.zozo.com
はじめに こんにちは。株式会社ZOZOのSRE部プラットフォームSREチームに所属している はっちー と申します。 本記事では、Kubernetesクラスター上にモックリソースをサクッと構築する「モック構築ツール」を紹介します。ZOZOの事例をもとにした説明となりますが、Kubernetesクラスター上での負荷試験やフロントエンド開発などの効率化において広く一般的に活用できるツールのため、OSSとして公開しています。GitHubリポジトリは以下です。 github.com 本ツールは、私個人のOSSとして管理しています。ZOZOでは、社員がOSS活動しやすいように、「業務時間中に指示があって書いたソフトウェアでも著作権譲渡の許諾によって個人のものにできる」というOSSポリシーがあります。ありがたいです。 techblog.zozo.com 目次 はじめに 目次 モック構築ツールとは 開発のきっかけ ZOZOでモック構築ツールが役立つ場面 負荷試験で依存先マイクロサービスに多くの負荷がかかる場面 stg環境の競合回避 APIクライアント側の開発 使い方 前提(ツール実行側) Step1. OpenAPI仕様書のコピー Step2. AWSとKubernetesの接続設定 Step3. パラメーター設定 Step4. モックリソースの構築 Step5. (任意)レイテンシーの設定 Step6. (任意)テストリクエスト Step7. 負荷試験 Step8. モックリソースの削除 実装紹介 なぜGoで実装したか ディレクトリ構成 Goコード以外 Goコード パラメーター処理と初期化処理 main関数 DockerイメージとECRの構築と削除 Kubernetesリソースの構築と削除 Istioリソースの構築と削除 今後の展望 追加開発 使ってもらう まとめ We are hiring モック構築ツールとは モック構築ツールは、Kubernetesクラスター上でマイクロサービスのモックリソースを構築し、負荷試験やフロントエンド開発などを効率化するツールです。モックは、APIなどの処理を模倣するものです。OSSの Prism を利用しており、モックサーバーは OpenAPI で定義された仕様書における正常系のexample値でレスポンスを返します。本ツールは、単にPrismのPodをKubernetesクラスター上に構築するだけではありません。 Amazon Elastic Container Registry (以降、ECR)や一連のKubernetesリソースをコマンド一発で構築します(事前作業あり)。詳細は後述します。また、モックは1つのマイクロサービスだけでなく、複数構築できます。 開発のきっかけ あるマイクロサービスの負荷試験で大きい負荷をかけた際に、依存先となるマイクロサービスにさらに依存するマイクロサービスや外部システムへ大量にリクエストが飛んでしまい、問題となったことがきっかけです。自チームの管轄マイクロサービスであれば影響範囲は予測できますが、他チームの管轄マイクロサービスとなると、さらにその先の影響範囲を把握するのは困難です。また、負荷試験のたびに各SREチームへ影響範囲を確認しあうのも現実的ではありません。 そこで、負荷試験時にモックが欲しいという考えになりました。しかし、Kubernetesクラスター上にマイクロサービスのモックを用意するのは、面倒な作業です。加えて、負荷試験は開発完了後のリリース日が迫った段階で実施されるケースがほとんどで、試験期間は限られています。したがって、なるべく工数をかけずに、誰でも均一的な方法で手軽にマイクロサービスのモックを用意する仕組みが社内に必要だと感じました。そこで、モック構築ツールを開発することにしました。 ZOZOでモック構築ツールが役立つ場面 負荷試験で依存先マイクロサービスに多くの負荷がかかる場面 きっかけとなった場面になりますが、もう少し詳細に説明します。 前提として、ZOZOでは負荷試験を検証環境(以降、stg環境)で行います。stg環境では、すべてのマイクロサービスが本番環境(以降、prd環境)と同じスペックのPodで動作しています。しかし、インフラコストの観点から、Pod数はprd環境よりも大幅に少ないです。また、負荷試験の対象となるマイクロサービスのPod数は1で固定しており、オートスケーリングもしないようにしています。 負荷試験では、試験対象のマイクロサービスが短時間に大量のリクエストを実行します。試験対象のマイクロサービスが別のマイクロサービスに依存している場合、実行するAPIによってはそちらにもリクエストが流れます。流れるリクエスト量が多くない場合は、stg環境で起動している、依存先のマイクロサービスのPodにそのままリクエストが流れても支障はないです。一方、流れるリクエスト量が多い場合は、リクエストを捌ききれなくなり、負荷試験に支障がでます。依存マイクロサービスはオートスケーリングしますが、スケーリングが完了するまでに多少の時間はかかるため、正確に性能を計測できません。したがって、依存するマイクロサービスを事前にスケールアップする必要があります。 しかしながら、マイクロサービスの数が多いと事前スケーリングの対象が多くて作業が大変ですし、自チームの管轄外マイクロサービスに関しては、その担当SREチームとの調整コストが発生します。また、「1PodあたりCPU使用率50%で捌ける限界のスループットを計測する」という試験項目があるため、試験前に負荷の程度を見積もって伝えるのが難しいです。少しずつ増強依頼となると調整が大変ですし、大雑把に増強しすぎるとムダなインフラコストが発生してしまいます。さらに、ZOZOでない外部のシステムに依存している場合は、より調整が困難になります。このようなケースでモックは非常に役立ちます。 stg環境の競合回避 ZOZOでは1つのstg環境で複数のSREチームが複数のプロジェクトに関する負荷試験や障害試験を実施しています。したがって、しばしばstg環境では複数の試験タイミングが重複してしまいます。もし、同時に試験を実施してしまうと、お互いの試験が影響してしまい、正しく試験ができません。現状は担当者間の調整で回避していますが、負荷試験ではモック構築ツールでモックを用意するようになれば、調整コストを削減できます。 APIクライアント側の開発 マイクロサービスのOpenAPI仕様設計が完了すれば、Kubernetesクラスター上にモックを構築できます。したがって、フロントエンドなどのAPIクライアント側はそのマイクロサービスの開発完了を待つ必要なく、クラウド環境上で自分たちの開発や動作確認を進めることができます。 使い方 前提(ツール実行側) AWSとKubernetesの認証情報が設定済み 以下がインストール済み Go v1.22.5での動作は確認済み aws-cli 完全に aws-sdk-go へ移行できていないため kubectl VirtualServiceやテストリクエストで利用 必須でない Docker イメージビルドなどをするため Step1. OpenAPI仕様書のコピー openapi.yaml にOpenAPIの仕様をコピー&ペーストします。 ZOZOでは、ほぼすべてのマイクロサービスのAPIはOpenAPIで定義されています。社内では GiHub Pages 上で公開されています。 Step2. AWSとKubernetesの接続設定 リソースを構築するAWSとKubernetesの接続設定をします。たとえば、 awsp と kubie を使っている場合は以下です。 awsp < your_profile > kubie ctx < your_context > Step3. パラメーター設定 params.go でパラメーターを設定します。現状は、ハードコーディングで設定する必要があります。ツール利用者は最低限、以下のパラメーター設定が必要です。 microserviceName モックにするマイクロサービスの名前 e.g. zozo-member-api microserviceNamespace モックにするマイクロサービスのネームスペース e.g. zozo-member Step4. モックリソースの構築 以下のコマンドを実行します。 make run-create コマンド一発で、以下のリソースがAWSとKubernetesクラスター上に構築されます。 AWS ECR Kubernetes Namespace Deployment Service VirtualService Step5. (任意)レイテンシーの設定 この手順は任意です。 現状のままですと、モックは即座にAPIレスポンスを返します。これでは負荷試験のモックとしては不十分な場合があります。なぜならば、実際のAPIではDBアクセスなどのさまざまな処理をした後にレスポンスを返すため、レイテンシーが少なからず発生するからです。負荷試験用のモックとしては、このレイテンシーも考慮してAPIレスポンスを返すようにした方がよいです。そこで、Istioの Fault Injection 機能を利用して、固定時間の遅延を発生させるようにします。具体的には、ツールで構築されたVirtualServiceリソースをeditして、 spec.http.fault.delay.fixedDelay にレイテンシーの値を設定します。 kubectl edit VirtualService -n example-namespace example-vs apiVersion : networking.istio.io/v1alpha3 kind : VirtualService metadata : name : example-vs spec : hosts : - example-service.example-namespace.svc.cluster.local http : - name : example1 match : - uri : prefix : /example1/ method : exact : GET fault : delay : percentage : value : 100.0 fixedDelay : 0.1s # here route : - destination : host : example-service.example-namespace.svc.cluster.local - name : default route : - destination : host : example-service.example-namespace.svc.cluster.local 当然ながらレイテンシーはAPIごとに異なるため、負荷試験のシナリオ中で実行されるAPIごとに上記の設定をします。すでにprd環境でリリース済みのAPIであれば、prd環境のデータを分析して実際のレイテンシーを設定します。ZOZOでは、DatadogからAPIごとのp95レイテンシーの値を簡単に確認できるようになっているため、それを利用します。 正直なところ、この設定作業は負担が大きいので、一部自動化する予定です。なお、試験的に問題なければレイテンシーを設定しなくても構いませんし、全API一律でdefaultセクションにレイテンシーを設定しても構いません。 Step6. (任意)テストリクエスト この手順は任意です。 モックリソースが構築できたら、テストリクエストをします。たとえば、Kubernetesクラスター内に適当なPodを起動して、モックに対してcurlでAPIリクエストを実行します。OpenAPIの仕様に即したレスポンスが返ることを確認できます。 kubectl run tmp- $( date " +%Y%m%d-%H%M%S " ) -hacchi --image yauritux/busybox-curl:latest -n api-gateway --annotations =" sidecar.istio.io/inject=true " --rm -it -- sh -c " curl -v -m 10 http://zozo-member-api-prism-mock.zozo-member-prism-mock.svc.cluster.local/internal/members/1 " ... * Request completely sent off < HTTP/ 1 . 1 200 OK < access-control-allow-origin: * < access-control-allow-headers: * < access-control-allow-credentials: true < access-control-expose-headers: * < content-type: application/json < content-length: 467 < date: Mon, 22 Jul 2024 10:09:48 GMT < x-envoy-upstream-service-time: 6 < server: envoy < * Connection #0 to host zozo-member-api-prism-mock.zozo-member-prism-mock.svc.cluster.local left intact { " id " :1, " email " : " taro.tanaka@zozo.com " , " zozo_id " : " tanaka " , " has_password " :false, " last_name " : " 田中 " , " first_name " : " 太郎 " , " last_name_kana " : " タナカ " , " first_name_kana " : " タロウ " , " gender_id " :1, " birthday " : " 2004-12-15 " , " zipcode " : " 1020094 " , " prefecture_id " :1, " address " : " 千代田区紀尾井町1-3 " , " address_building " : " 東京ガーデンテラス紀尾井町 紀尾井タワー " , " phone " : " 0120-55-0697 " , " zozo_employee_id " : " 1 " , " registered_at " : " 2004-12-15T12:00:00+00:00 " } pod " tmp-20240722-190922-hacchi " deleted Step7. 負荷試験 接続先情報をモックのServiceに切り替えて、負荷試験を実施します。 Step8. モックリソースの削除 負荷試験が完了したら、モックリソースをすべて削除します。 make run-delete 以上で、使い方の説明は終了です。 実装紹介 なぜGoで実装したか 本ツールはGoで実装しました。Goを選択した理由は以下の通りです。 社内推奨プログラミング言語の1つのため。 開発者である私がもっとも使い慣れた言語であるため。 AWSやKubernetesのライブラリが豊富であり、社内でも使用実績があったため。 なお、社内のインフラ関連のツールはほとんどがシェルスクリプトで実装されているため、シェルスクリプトでの実装も選択肢にありました。しかし、上記の理由に加えて、YAMLファイルを読み取る機能を開発するにあたって、主観ではGoの方が書きやすそうと感じました。また、シェルスクリプトだと利用者に yq をインストールしてもらう必要がありそうなため、それを避けました。 ディレクトリ構成 まず、全体像としてディレクトリ構成を示します。 とくに、特別な点はありません。そこまで複雑なツールではないため、今のところはmainパッケージのみにしています。Goファイルは、 main.go 、 ecr.go 、 k8s.go 、 istio.go 、 params.go 、 action_type.go 、 lib.go の7つです。その他には、 Makefile 、 openapi.yaml 、 Dockerfile.prism があります。 Goコード以外 説明のしやすさから、Goコード以外の説明から始めます。 簡単にツールの実行ができるように Makefile を用意しています。基本的には、 make run-create (モックリソースの構築)および make run-delete (モックリソースの削除)を実行します。実行時に作成されるワンバイナリは残さないようにしています。また、開発用に make deps (依存モジュールのダウンロード)も用意しています。 BINARY_NAME =prism-mock GO =go build: $(GO) build -o $(BINARY_NAME) . run-create: build ./ $(BINARY_NAME) -action create $(MAKE) clean run-delete: build ./ $(BINARY_NAME) -action delete $(MAKE) clean clean: $(GO) clean rm -f $(BINARY_NAME) deps: $(GO) mod download モック対象マイクロサービスのAPI仕様を openapi.yaml にコピー&ペーストします。Prismはこのファイルを元にモックサーバーを起動します。 Prismの Dockerfile.prism は以下の通りです。イメージは stoplight/prism:5.8.2 を指定しています。 openapi.yaml をCOPYします。mockコマンドでPrismを起動します。 FROM stoplight/prism:5.8.2 COPY ./openapi.yaml /app/openapi.yaml CMD ["mock", "-h", "0.0.0.0", "-p", "80", "/app/openapi.yaml"] Goコード パラメーター処理と初期化処理 パラメーターの管理は、 params.go で処理しています。設定可能なパラメーターは以下です。 microserviceName=zozo-aggregation-api の場合、構築されるリソース名は zozo-aggregation-api-prism-mock となります。 Parameter Name Description default required microserviceName モックにするマイクロサービス名 "" Yes microserviceNamespace モックにするマイクロサービスのネームスペース名 "" Yes prismMockSuffix リソース名のサフィックス "-prism-mock" Yes prismPort Prismコンテナーのポート番号 "80" Yes prismCPU PrismコンテナーのCPUリクエスト "1" Yes prismMemory Prismコンテナーのメモリリクエスト "1Gi" Yes istioProxyCPU istioサイドカーコンテナーのCPUリクエスト "500m" Yes istioProxyMemory istioサイドカーコンテナーのメモリリクエスト "512Mi" Yes timeout ツールの実行タイムアウト時間 10 * time.Minute Yes ecrTagEnv ECRのCostEnvタグの値 "stg" No main.go のinit関数で以下の初期化処理を行います。 openapi.yaml のデータ取得と空チェック パラメーターのバリデーションチェック コマンドライン引数(アクションパラメーター)の取得 AWSとKubernetesの設定 リソース名の作成 main.goのコードを見る var ( action actionType awsConfig aws.Config awsAccountID string kubeConfig *restclient.Config resourceName string namespaceName string ) func init() { //empty check for openapi.yaml data, err := os.ReadFile( "openapi.yaml" ) if err != nil { panic (err) } if len (data) == 0 { panic ( "openapi.yaml is empty" ) } // validation parameters err = validateParams() if err != nil { panic (err) } // action parameter var actionStr string flag.StringVar(&actionStr, "action" , "create" , "create or delete(default: create)" ) flag.Parse() parsedAction, err := validateActionType(actionStr) if err != nil { panic (err) } action = parsedAction // AWS config awsConfig, err = config.LoadDefaultConfig(context.Background()) if err != nil { panic (fmt.Errorf( "failed load AWS config: %v" , err)) } // get AWS account ID stsClient := sts.NewFromConfig(awsConfig) result, err := stsClient.GetCallerIdentity(context.Background(), &sts.GetCallerIdentityInput{}) if err != nil { panic (fmt.Errorf( "failed to get caller identity: %v" , err)) } awsAccountID = *result.Account // kube config kubeconfigPath := clientcmd.NewDefaultPathOptions().GetDefaultFilename() kubeConfig, err = clientcmd.BuildConfigFromFlags( "" , kubeconfigPath) if err != nil { panic (fmt.Errorf( "failed to build kubeconfig: %v" , err)) } // resource name resourceName = microserviceName + prismMockSuffix namespaceName = microserviceNamespace + prismMockSuffix } main関数 main.go のmain関数では、リソース構築と削除に関するさまざまな処理を呼び出しています。リソース構築の場合は、buildAndPushECR関数とcreateK8sResources関数とcreateIstioResources関数を順に実行します。リソース削除の場合は、deleteIstioResources関数とdeleteK8sResources関数とdeleteECR関数を順に実行します。いずれも、エラーが発生した場合はpanicします。contextパッケージでタイムアウト設定しています。 main.goのコードを見る func main() { ctx, cancel := context.WithTimeout(context.Background(), timeout) defer cancel() if action == create { err := buildAndPushECR(ctx) if err != nil { panic (err) } err = createK8sResources(ctx) if err != nil { panic (err) } err = createIstioResources(ctx) if err != nil { panic (err) } log.Println( "[INFO] All resources for prism mock are created successfully" ) } else if action == delete { err := deleteIstioResources(ctx) if err != nil { panic (err) } err = deleteK8sResources(ctx) if err != nil { panic (err) } err = deleteECR(ctx) if err != nil { panic (err) } log.Println( "[INFO] All resources for prism mock are deleted successfully" ) } } main関数の処理の流れを図にすると以下の通りです。 DockerイメージとECRの構築と削除 ecr.go ではDockerイメージのビルドやECRの構築と削除をします。buildAndPushECR関数は、Dockerイメージをビルドして、ECRを構築してプッシュします。deleteECR関数では、ECRを削除します。なお、現状はECRログインの箇所で aws-cli を実行してしまっているので、 aws-sdk-go を使って改修する予定です。また、ECRだけでなく他のコンテナレジストリにも対応する予定です。 すでに同名のリソースが存在する状態で構築リクエストをするとWARNログを出力しますがエラーにはなりません。同様に、指定リソースが存在しない状態で削除リクエストをするとWARNログを出力しますがエラーにはなりません。これは、 ecr.go 、 k8s.go 、 istio.go のすべてで同じ仕様です。 ecr.goのコードを見る func buildAndPushECR(ctx context.Context) error { // build Docker image imageTag := microserviceName + ":latest" cmd := exec.Command( "docker" , "build" , "-f" , "Dockerfile.prism" , "-t" , imageTag, "." ) if err := cmd.Run(); err != nil { return fmt.Errorf( "failed to build docker image: %v" , err) } log.Println( "[INFO] Docker image is built successfully" ) // create ECR repository ecrClient := ecr.NewFromConfig(awsConfig) repositoryName := resourceName input := &ecr.CreateRepositoryInput{ RepositoryName: aws.String(repositoryName), Tags: []types.Tag{ { Key: aws.String( "CostEnv" ), Value: aws.String(ecrTagEnv), }, { Key: aws.String( "CostService" ), Value: aws.String(microserviceName), }, }, } _, err := ecrClient.CreateRepository(ctx, input) if err != nil { var ecrExistsException *types.RepositoryAlreadyExistsException if !errors.As(err, &ecrExistsException) { return fmt.Errorf( "failed to create ECR repository: %v" , err) } log.Println( "[WARN] The ECR already exists" ) } else { log.Println( "[INFO] ECR is created successfully" ) } // tag Docker image for ECR ecrImageTag := fmt.Sprintf( "%s.dkr.ecr.%s.amazonaws.com/%s:latest" , awsAccountID, awsConfig.Region, repositoryName) cmdTag := exec.Command( "docker" , "tag" , imageTag, ecrImageTag) if err := cmdTag.Run(); err != nil { return fmt.Errorf( "failed to tag image: %v" , err) } log.Println( "[INFO] Docker image tagged successfully" ) // login to ECR loginCommand := fmt.Sprintf( "aws ecr get-login-password --region %s | docker login --username AWS --password-stdin %s.dkr.ecr.%s.amazonaws.com" , awsConfig.Region, awsAccountID, awsConfig.Region) cmdLogin := exec.Command( "bash" , "-c" , loginCommand) if err := cmdLogin.Run(); err != nil { return fmt.Errorf( "failed to log in ECR: %v" , err) } log.Println( "[INFO] Logged in ECR successfully" ) // push image to ECR cmdPush := exec.Command( "docker" , "push" , ecrImageTag) if err := cmdPush.Run(); err != nil { return fmt.Errorf( "failed to push image to ECR: %v" , err) } log.Println( "[INFO] Docker image is pushed to ECR successfully" ) return nil } func deleteECR(ctx context.Context) error { // Delete ECR ecrClient := ecr.NewFromConfig(awsConfig) repositoryName := resourceName input := &ecr.DeleteRepositoryInput{ RepositoryName: aws.String(repositoryName), Force: true , // Force delete to remove all images } _, err := ecrClient.DeleteRepository(ctx, input) if err != nil { var ecrNotFoundException *types.RepositoryNotFoundException if !errors.As(err, &ecrNotFoundException) { return fmt.Errorf( "failed to delete ECR: %v" , err) } log.Println( "[WARN] The ECR is not found" ) } else { log.Println( "[INFO] ECR is deleted successfully" ) } return nil } Kubernetesリソースの構築と削除 k8s.go ではKubernetesリソースの構築と削除をします。 kubernetes/client-go を使用しています。createK8sResources関数では、対象KubernetesクラスターのIstioバージョンを取得し、Namespace、Deployment、Serviceを構築します。deleteK8sResources関数では、Service、Deployment、Namespaceを削除します。 Istioバージョンの取得は、 istio-system ネームスペース上で動作する app: istiod ラベルの付いたPod(istiod)の istio.io/rev ラベル値から取得します。このラベル値は 1-21-4 などのハイフン繋ぎのものになります。この時、もしKubernetesクラスター上でIstioのバージョンアップグレード作業中であれば、2つのバージョンのPodが存在します。そこで、それらのうち最新バージョンを返すgetLatestVersion関数を実装しました。getLatestVersion関数は、x-y-z形式のバージョンリストを受け取り、parseVersion関数でx-y-z形式のバージョンを数値のスライスに変換します。そして、compareVersions関数でメジャーバージョンから順に大小比較し、最終的に新しい方のバージョンを返します。このように、本ツールはIstioのバージョンアップグレード作業中も問題なく動作するよう工夫しています。なお、取得したIstioバージョンは、Namespaceの istio.io/rev ラベルに使用します。バージョン情報をうまく取得できなかった場合はエラーにせず、空で処理を続行します。 Deploymentでは、PodにはIstioのサイドカーを注入しています。メインコンテナーのイメージは構築したECRのものを指定しています。 k8s.goのコードを見る func createK8sResources(ctx context.Context) error { // create clientset using kubeconfig clientset, err := kubernetes.NewForConfig(kubeConfig) // ... // get the latest istio version from istiod pod considering during upgrade podList, err := clientset.CoreV1().Pods( "istio-system" ).List(ctx, metav1.ListOptions{ LabelSelector: "app=istiod" , }) //... hyphenedVersions := [] string {} for _, item := range podList.Items { hyphenedVersions = append (hyphenedVersions, item.ObjectMeta.Labels[ "istio.io/rev" ]) } latestVersion, err := getLatestVersion(hyphenedVersions) // ... // Namespace namespace := &corev1.Namespace{ ObjectMeta: metav1.ObjectMeta{ Name: namespaceName, Labels: map [ string ] string { "istio.io/rev" : latestVersion, }, }, } _, err = clientset.CoreV1().Namespaces().Create(ctx, namespace, metav1.CreateOptions{}) //... // Deployment deployment := &appsv1.Deployment{ ObjectMeta: metav1.ObjectMeta{ Name: resourceName, }, Spec: appsv1.DeploymentSpec{ Replicas: int32Ptr( 1 ), Selector: &metav1.LabelSelector{ MatchLabels: map [ string ] string { "app" : resourceName, }, }, Template: corev1.PodTemplateSpec{ ObjectMeta: metav1.ObjectMeta{ Labels: map [ string ] string { "app" : resourceName, }, Annotations: map [ string ] string { "sidecar.istio.io/inject" : "true" , "sidecar.istio.io/proxyCPULimit" : istioProxyCPU, "sidecar.istio.io/proxyMemoryLimit" : istioProxyMemory, "traffic.sidecar.istio.io/includeOutboundIPRanges" : "*" , "proxy.istio.io/config" : `{ "terminationDrainDuration": "30s" }` , }, }, Spec: corev1.PodSpec{ Containers: []corev1.Container{ { Name: resourceName, Image: fmt.Sprintf( "%s.dkr.ecr.%s.amazonaws.com/%s" , awsAccountID, awsConfig.Region, resourceName), Ports: []corev1.ContainerPort{ { ContainerPort: int32 (prismPort), }, }, Resources: corev1.ResourceRequirements{ Limits: corev1.ResourceList{ corev1.ResourceCPU: resource.MustParse(prismCPU), corev1.ResourceMemory: resource.MustParse(prismMemory), }, }, }, }, }, }, }, } _, err = clientset.AppsV1().Deployments(namespaceName).Create(ctx, deployment, metav1.CreateOptions{}) //... // Service service := &corev1.Service{ ObjectMeta: metav1.ObjectMeta{ Name: resourceName, }, Spec: corev1.ServiceSpec{ Selector: map [ string ] string { "app" : resourceName, }, Ports: []corev1.ServicePort{ { Protocol: corev1.ProtocolTCP, Port: 80 , TargetPort: intstr.FromInt( 80 ), }, }, Type: corev1.ServiceTypeClusterIP, }, } _, err = clientset.CoreV1().Services(namespaceName).Create(ctx, service, metav1.CreateOptions{}) //... return nil } func deleteK8sResources(ctx context.Context) error { // create clientset using kubeconfig clientset, err := kubernetes.NewForConfig(kubeConfig) //... // Service err = clientset.CoreV1().Services(namespaceName).Delete(ctx, resourceName, metav1.DeleteOptions{}) //... // Deployment err = clientset.AppsV1().Deployments(namespaceName).Delete(ctx, resourceName, metav1.DeleteOptions{}) //... // Namespace err = clientset.CoreV1().Namespaces().Delete(ctx, namespaceName, metav1.DeleteOptions{}) //... return nil } func getLatestVersion(versions [] string ) ( string , error ) { if len (versions) == 0 { return "" , fmt.Errorf( "no versions provided" ) } // init max with the zero index element maxVersion := versions[ 0 ] maxVersionParts, err := parseVersion(maxVersion) if err != nil { return "" , err } // compare all versions for _, version := range versions[ 1 :] { versionParts, err := parseVersion(version) if err != nil { return "" , err } if compareVersions(versionParts, maxVersionParts) > 0 { maxVersion = version maxVersionParts = versionParts } } return maxVersion, nil } func parseVersion(version string ) ([] int , error ) { // convert "x-y-z" to [x, y, z] parts := strings.Split(version, "-" ) if len (parts) != 3 { return nil , fmt.Errorf( "invalid version format: %s" , version) } intParts := make ([] int , len (parts)) for i, part := range parts { num, err := strconv.Atoi(part) if err != nil { return nil , fmt.Errorf( "invalid number in version: %s" , part) } intParts[i] = num } return intParts, nil } func compareVersions(v1, v2 [] int ) int { // return 1 if v1 > v2, -1 if v1 < v2, 0 if v1 == v2 for i := 0 ; i < len (v1); i++ { // if just one part is greater, the version is greater if v1[i] > v2[i] { return 1 } else if v1[i] < v2[i] { return - 1 } } // if all parts are equal, the versions are equal return 0 } Istioリソースの構築と削除 istio.go ではIstioリソースの構築と削除をします。 istio/client-go を使用しています。createIstioResources関数では、VirtualServiceを構築します。deleteIstioResources関数では、VirtualServiceを削除します。 VirtualServiceの設定は、 /example1/ のGETリクエストに対して100%の確率で100msの遅延を発生させるものです。また、 /example1/ 以外のリクエストに対しては遅延を設定していません。この設定は、サンプルのようなもので、VirtualServiceを構築してから手動で編集することを想定しています。将来的には、configファイルでAPIのパス、HTTPメソッド、遅延時間などを設定できるようにし、その設定を元にVirtualServiceを自動で構築するように改修する予定です。 istio.goのコードを見る func createIstioResources(ctx context.Context) error { // Istio clientset istioClient, err := versioned.NewForConfig(kubeConfig) //... // VirtualService virtualService := &v1alpha3.VirtualService{ ObjectMeta: metav1.ObjectMeta{ Name: resourceName, }, Spec: networkingv1alpha3.VirtualService{ Hosts: [] string { resourceName + "." + namespaceName + ".svc.cluster.local" , }, Http: []*networkingv1alpha3.HTTPRoute{ { Name: "example1" , Match: []*networkingv1alpha3.HTTPMatchRequest{ { Uri: &networkingv1alpha3.StringMatch{ MatchType: &networkingv1alpha3.StringMatch_Prefix{ Prefix: "/example1/" , }, }, Method: &networkingv1alpha3.StringMatch{ MatchType: &networkingv1alpha3.StringMatch_Exact{ Exact: "GET" , }, }, }, }, Fault: &networkingv1alpha3.HTTPFaultInjection{ Delay: &networkingv1alpha3.HTTPFaultInjection_Delay{ Percentage: &networkingv1alpha3.Percent{ Value: 100.0 , }, HttpDelayType: &networkingv1alpha3.HTTPFaultInjection_Delay_FixedDelay{ FixedDelay: &duration.Duration{Nanos: int32 ( 100000000 )}, // 100ms }, }, }, Route: []*networkingv1alpha3.HTTPRouteDestination{ { Destination: &networkingv1alpha3.Destination{ Host: resourceName + "." + namespaceName + ".svc.cluster.local" , }, }, }, }, { Name: "default" , Route: []*networkingv1alpha3.HTTPRouteDestination{ { Destination: &networkingv1alpha3.Destination{ Host: resourceName + "." + namespaceName + ".svc.cluster.local" , }, }, }, }, }, }, } _, err = istioClient.NetworkingV1alpha3().VirtualServices(namespaceName).Create(ctx, virtualService, metav1.CreateOptions{}) //... return nil } func deleteIstioResources(ctx context.Context) error { // Istio clientset istioClient, err := versioned.NewForConfig(kubeConfig) //... err = istioClient.NetworkingV1alpha3().VirtualServices(namespaceName).Delete(ctx, resourceName, metav1.DeleteOptions{}) //... return nil } 今後の展望 追加開発 現時点で、以下の追加開発を予定しています。 パラメーターをハードコーディング( params.go )以外の方法で設定できるようにする。 ECRログインで、 aws-sdk-go を使用して、 aws-cli をプログラム中で使わないようにする。 ECR以外のコンテナレジストリにも対応する。 ECRリソースタグ(CostEnvとCostService)の付与はZOZO特有なのでオプションにする。 PodのAffinity設定を可能にする。 spec.affinity.nodeAffinity のmatchExpressionsのkey/value設定ができるようにする。 Istioのサイドカーコンテナーインジェクションをオプションにする(不要な場合もあるため)。 IstioのVirtualServiceの設定をconfigファイルで設定できるようにし、その設定を元にVirtualServiceを構築する。 レイテンシーの設定値をDatadogから自動で取得するようにする。 Query Time Seriesを利用できそう。 Goのクライアント もありそう。 openapi.yaml からAPIパスとHTTPメソッドの情報を抽出して、Datadogのクエリに利用する想定。 パスパラメーターの取り扱いも考慮する必要がある。 もう少し要調査。 CIを追加する。 テストコードを追加する。 golangci-lint を追加する。 使ってもらう 社内外含め、色々な負荷試験や開発で利用いただき、使用実績を積み重ねたいです。また、その中で得られたフィードバックから、必要に応じてissue化して、機能追加やバグ修正をします。 まとめ 本記事では、Kubernetesクラスター上にPrismを使って、マイクロサービスのOpenAPI仕様をそのまま返すモックリソースをサクッと構築する「モック構築ツール」を紹介しました。Goのソースコードを読んだ方はお気づきかと思いますが、モック構築ツール自体の実装は難しくありません。AWSリソースやKubernetesリソースの構築と削除をしているだけです。強いて言えば、Istioの最新バージョン取得のロジックが少し複雑かもしれない程度です。シンプルで理解しやすいツールですので、よろしければぜひ使ってみてください。また、少しでも良いなと思っていただいたら、 GitHubリポジトリ にスターをいただけるととても嬉しいです。ほぼはじめての自作OSSなので少し緊張しています。 なお、本ツールの中核であるPrismは素晴らしいOSSです。もし、Prismの活用がまだでしたら、ローカルの動作確認や結合試験などにも便利ですのでぜひ使ってみてください。 We are hiring ZOZOでは、一緒にサービスを作り上げてくれる方を募集中です。ご興味のある方は、以下のリンクからぜひご応募ください。 hrmos.co corp.zozo.com
こんにちは、MA部MA開発ブロックの @gachi-muchi-engineer です。 私の所属するMA部で7月に開発合宿を実施しました。一般的に、開発合宿は開発者が集まって新しいサービスや機能を開発しますが、今回の開発合宿では開発しない開発合宿という形で実施しました。本記事では、今回行った開発合宿の目的と結果を紹介します。 開発合宿をおこなうことになった経緯 MA部ではシステム運用での課題がありました。その課題の原因を紐解くと人的な要因(システム理解や意識の問題)が大きく関わっていることがわかりました。そのため、メンバー全員が集まり、課題に取り組むことで、システム理解を深め、意識を統一することを目的に開発合宿を実施することにしました。 システム運用での課題とは MA部では日々の業務の中でアラート対応業務を行っています。アラート対応は、システムエラーなどの異常を検知し、ユーザー影響が出る前に対応する重要な業務です。 週ごとのアラート当番制を採用しておりメンバー二人体制でアラート対応業務を行っています。 以前大幅にアラートを減らすことに成功しましたが、その後もシステム構成の変更や新しいシステムの追加やシステムの利用状況が変わったことにより、またアラートが増えてきました。 以下はアラートを減らしたときの記事です。 techblog.zozo.com 状況としてサンプリングした月のアラートの発生回数は、月に244回で1日平均8件発生しています。MTTRは約3時間弱です。アラート当番だけでなく、該当システムに詳しいメンバーもアラート対応に参加するケースがあるため、チーム全体のアラート対応時間が長くなります。これは、日々の作業時間を奪うだけでなく、夜間対応等で、メンバーの生産性も下げてしまっています。 このような状況になっている要因は、アラートが発生した場合、一次対応後に根本対応ができていない状態が続いていたことです。 なぜ根本対応ができていないのか、その原因を調べると以下のような課題が浮かび上がりました。 【人的課題】メンバーのシステム理解・把握が不十分 MA部では、15名弱のメンバーで運用しています。対応メンバーの在籍年数を見ると40%強が1年未満で75%のメンバーが3年未満になっています。 MA部では、3つの部署(それぞれブロックと読んでいます)が合わさって部を形成しています。ブロックごとにシステムが分かれているわけではないので、メンバーがすべてのシステムをある程度把握し、アラート対応業務を行う必要があります。 そのためシステムの数が多く、在籍年数が若いメンバーはシステム理解が十分にできているとはいえない状況でした。結果として、根本の原因調査等に時間がかかってしまう場合や原因を調査しきれないケースが見られました。 以下は過去に紹介したMA部が管轄しているシステムの一部です。 techblog.zozo.com techblog.zozo.com techblog.zozo.com techblog.zozo.com techblog.zozo.com 【人的課題】マインドセットが統一されていない MA部は、アラート当番によりすべてのメンバーがアラート対応をする環境となっています。ですが、アラートや監視に関して部内でしっかりとマインドセットが整えられていないと感じていました。具体的には、人によって一次対応で行うべき内容や、アラートの重要度を判断する基準が異なっていました。 結果として、監視やアラートに対して、部内のメンバーの意識が揃っていないので、アラート当番のルールの徹底がおろそかになってしまいます。 また、弊社の環境としてフルリモートのため、コミュニケーション面でも以下の課題がありました。 実際に会ったことがないメンバーとのコミュニケーションが取りづらい チームを跨ぐとコミュニケーションを取る機会が少ない そのため、当番で一緒になってもお互いに一歩引いてコミュニケーションがうまく取れていないケースがありました。 【システム課題】監視が不適切なケース 監視を設定した当初から、システムの状況に合わせて見直しや調整ができておらず、適切な監視になっていないものがありました。そのため、過剰に反応してしまうケースや、検知タイミングが遅れてしまっているケースが見られました。 結果として、確認作業が増えて開発の時間が削られたり、重大なインシデントにつながってしまうことがありました。 課題のまとめ システムの利用状況、構成の変更やメンバーの入れ替わりにより、アラート対応において課題が発生していることがわかりました。特にこの数年でメンバーの増員が多かったため、人的課題(育成やナレッジ蓄積、意識の統一など)が顕著になっていることがわかりました。 課題への対策 それぞれの課題に対して、以下のような対策を検討しました。 メンバーのシステム理解を深める アラートや監視に関してスキル・知識の拡充とマインドセットを整える 実際に会って会話・作業をすることで、コミュニケーションの活性化を図る これらの対策を効率良く行う方法を検討し今回は、開発合宿を実施することにしました。開発合宿と書いていますが、日々の業務を離れメンバー全員が集まり課題に対して集中的に取り組むことで、効率よく課題解決を図れると考えました。 また、開発合宿を実施しただけでは、中長期的に同じ状況に陥ってしまう可能性があると考えられました。 そのため、アラート当番が終わった後にテックリードによるアラート対応時のレビューをする仕組みを取り入れることにしました。 これの目的は、アラート対応のスキルアップを図ると共に、根本対応が行われない状況に陥らないような継続的な仕組みを作ることです。 開発合宿の内容と準備 今回の開発合宿は、1泊2日で実施することにしました。作業時間から逆算すると合宿中に課題を複数設定するのは現実的でなかったので、メインの課題をシステム理解に設定しました。得意分野が異なるメンバーを集めた4、5人程度のチームを3つ作り、お互いに教え合いながらシステムレポートを作成してもらうことで、システムの理解を深めてもらうようにしました。マインドセットの統一に関しては、合宿前にシステム運用に関しての図書を読んでもらい、合宿の最初にレクリエーション要素も含めたコンテンツとしてテスト形式で理解度を確認することにしました。 以下は、合宿のスケジュールです。 課題の準備について システム理解 依存度の高いシステムをグループに分け、そのシステムグループごとにチームを割り振り、システムレポートを作成してもらうようにしました。システムレポートは、事前にまとめてほしいポイントをまとめたテンプレートを用意し、資料を作るコストを減らして、システム理解に集中してもらうようにしました。 今回テンプレートに含めた理解してほしいポイントは以下の通りです。 システムの目的 このシステムの目的や背景など、なんのために存在するのかを書いてください。 システムアーキテクチャ ポイントに関しては以下のとおりです。 アプリケーションの動きについて(図で表現できると良し) データの流れについて(図で表現できると良し) システムやアプリケーションの特徴や気をつけるべきポイント 外部システム/他システムとどのようにつながっているか? 外部システムがどのような状況になるとどのような影響があるか? モジュール モジュールに関してそれぞれ簡単にまとめて、特徴や概要をまとめてください。 システム監視・サービス監視・メトリクスについて 現状行われているシステム監視・サービス監視についてまとめてください。それぞれにその監視が入っている意図やその監視がなるとどういうことになるのかを分かる範囲でまとめてください。 メトリクスをどうやって確認するか、特徴的なメトリクスなどを分かる範囲でまとめてください。 システム課題/対策 足りてない監視、監視のチューニング、頻発アラートの根本改善案などを分かる範囲でまとめてください。 以下は、システムレポートのテンプレートの一部です。 チーム分けでは、テックリードやリーダー陣は、チームには組み込まず、いつでも質問を受け付けられるようにしました。 これはメンバーの理解度を底上げしたかったためです。各チームには、メンバー同士で議論しながら資料を作成してもらいました。メンバー編成としては、システムグループごとに複雑なところであれば、経験者を混ぜたり、今後の中長期的に携わっていってもらうメンバーを配置したりするなどしました。また、メンバーのコミュニケーションの相性も考えながら、編成をしました。 チームには、班長というチームの進捗管理などを行ってもらう役割を設けました。 マインドセットの統一 今回は システム運用アンチパターン を合宿までに読み込んでもらい、当日にテストを実施しました。こちらの技術書の選定とテスト作成・実施解説に関しては、テックリードにお願いしました。本に書かれいている一般的な問題から、MA部や、弊社特有の問題まで様々な問題を用意してもらいました。 以下は、テストの一部です。 テスト形式は、Yes/No形式で問題毎に正解の発表と解説をしました。こうすることで、全員が理解しながら正答を確認し一喜一憂するようにしたかったためです。また、成績優秀者には、表彰状を用意し、1日目の夜に表彰式を行いました。 実施にあたっての準備 課題以外では実施場所、食事の手配、社内調整や申請系のフォローアップなども行いました。 開催場所の候補はいくつかあったのですが、今回の合宿は おんやど恵 様で実施しました。開発合宿に必要な準備をサポートしてくれる合宿プランで予約し、宿の皆様の丁寧なサポートにより昼食のお弁当の手配や各種設備のレンタルなどもスムーズに進めることができました。 それ以外にも、社内の申請系の調整を行い参加メンバーが合宿前後で行わないといけない申請のまとめやフォローアップの準備をしました。 準備まとめ 合宿の準備としては、やってもらう課題の設定とボリューム感がオーバーワークにならないように注意しながら、いろいろなレベルのメンバーがいることを想定して設計・準備をしました。運営側として携わることは初めてだったので、過去に参加したことがあるメンバーや、テックリードに協力を仰ぎながら進めていきました。 実際に実施した合宿の様子 1日目 まず全員揃うか心配でしたが、無事に集まりました。合宿の最初に、合宿の目的やスケジュール、ルールや注意事項を説明しました。特に羽目を外しすぎないように、合宿の目的を忘れないように注意を促しました。 その後、システム運用アンチパターンに関する理解度テストを実施しました。ある程度場が盛り上がったところで、昼食を食べながら、システム理解の課題に取り組んでもらいました。最初のコンテンツでレクリエーション的な要素を交えながら行ったあとに、メインの課題に取り組んでもらう流れは緊張もほぐれ、とても良かったと思います。 定期的に各チームに足を運びながら困っていること、詰まっていることはないか、まったく進捗していないチームがないかを確認しました。どのチームもコミュニケーションを取りながら、進めていたので、運営側としてはホッとしておりました。 1日目の最後には、各チームから中間発表してもらいました。大きく方針が間違っていないかなどをチェックするとともに、いくつかアドバイスや、追加で調査してほしいところなどを伝えて1日目の終了としました。 2日目 2日目は、朝から引き続きシステム理解の課題に取り組んでもらいました。1日目の中間発表から、アドバイスを受けていたチームは、アドバイスを元に進めていきました。 1日目と同じく、定期的に各チームに足を運びながら、進捗を確認や困っていることがないかなどを確認しました。 ここで、資料を作ることがゴールになりだしていると感じられたためリーダー陣と相談し、最終発表では資料の投影はなし、口頭のみで説明してもらうことにしました。これは、システムを理解できていたら、資料がなくても説明できるはずだという考えからでした。 最終発表では、1チーム30分で全チームが発表しました。質疑応答では、システム特有の仕様や、歴史的な背景から課題になっているところなどを理解しているか確認しました。リーダー陣以外からも各チーム間でも質疑応答が行われ、議論が行われていました。 最終発表が終わった後に、MA部の部長から合宿でのMVPを選出してもらい、表彰式を行いました。その後、各自解散の運びとなりました。 合宿の結果 合宿後にアンケートを実施して、今回の合宿の目的が達成できたかを調査しました。 全体的にポジティブな意見が多かったです。システム理解に関しては、全員がシステムの理解を深められたと回答してくれました。 今後のアラート対応において、システム理解が深まることで、アラート対応にかかる時間が短縮されることが期待できるという意見もありました。 マインドセットの統一に関しても、アンケートの回答では、アラートや監視に関して、意識が統一されたと回答してくれました。テストは比較的簡単だったようなので、次回の機会があれば、もっと難易度を上げてもいいかもしれないとテックリードからのフィードバックもありました。 特に年次が浅いメンバーは実際にメンバーに会う機会も多くなかったので、コミュニケーションの強化や知見があまりないシステムに関して理解を深めるいい機会にしてもらえたと思います。 総じて、なかなか日々の業務の中でまとまった時間を確保して取り組むことが難しいシステム理解という課題に対して、開発合宿を通して集中して理解を深めることで、効率よく対策できたと感じました。 合宿での課題 進め方/ゴールに関して システムレポートを作ることがゴールになってしまっていたケースがありました。今回は、そこを起動修正するために最後の発表を資料なしという形を取りましたが、最初からここを想定しておくべきでした。 また、なかなかリーダー陣に質問が飛んでこないことも課題だと感じました。もっと定期的に確認しに行く頻度を上げる、リーダー陣にも質問を促すようにするなどの工夫が必要だと感じました。 チーム編成/役割 リーダー陣の役割を明確にしていませんでした。その結果質問を待っているだけになってしまい、ワークしていたとは言いづらい状況だったと思いました。次回はリーダー陣の役割を明確して、よりワークするようにしたいと思いました。 また、チーム編成はうまくできたと思いますが、班長の役割を明確にしなかったため、任命しただけで終わってしまったと感じました。もっと具体的な動きなどを伝えてチームがワークするような動きを取ってもらえるような準備をするべきだったと思いました。 最終発表/質疑応答 満足行くまで調査しきれなかったチームや、質疑応答でチーム間での議論が活発に行われなかったなどの課題もありました。次回は、作業時間の工夫や最終発表での各メンバー1つ以上質問をするようにするなどの工夫が必要だと感じました。 今回の課題への効果 開発合宿の実施後のアラート対応の状況は以下のような変化が現れました。 まず、MTTRが大幅に改善されました。システム理解が進んだことで、アラート対応にかかる時間が短縮されました。 次に、インシデントの総数も減りました。テックリードによるアラート対応のレビューにより、根本対応がしっかりと実施される仕組みがワークしているため減少させられました。 これは、合宿でのシステム理解の深まりや、マインドセットの統一の効果とテックリードによるアラート対応のレビューの効果があったためと考えられます。 まとめ 今回運営側として初めて開発合宿を企画・運営しましたが、大変学びが多かったです。 特に、普段の業務を離れてメンバー全員で1つの課題に集中して取り組む機会を作ることは、とてもいい手段で、非常に効果的なやり方だと思いました。また、準備が非常に大切なことも痛感しました。今回はたまたま準備がある程度できていたため、メンバー全員が集中できる環境の準備はできたと思いますが、もしできていなかった場合はグダグダになってしまっていたかもしれません。もし次の機会があれば、もっと準備に時間をかけるようにしたいと思いました。 開発合宿の成果という点では、今回のケースでは定量的なものはなかなか出しづらいものでもありました。そこは、今回の合宿を実施しただけで終わらせないようにフォローアップを行っていこうと思いました。 今回実施して感じた課題などは、今後実施する機会があれば開発合宿の設計として活かしていきたいと思いました。 最後に ZOZOでは一緒にプロダクトを開発してくれるエンジニアを募集しています。ご興味のある方は下記リンクからぜひご応募ください! corp.zozo.com