株式会社メルカリの技術ブログ

全269件

2023/06/12

こんにちは、メルカリのレコメンドチームで ML Engineer をしている ML_Bear です。以前の記事 [1] では、item2vecと商品メタデータを用いた、メルカリのホーム画面のレコメンド改善のお話をさせていただきました。今回は商品詳細画面でレコメンド改善を行ったお話をさせていただきます。商品詳細画面の例は図1の通りです。ユーザーはアイテムの詳細な説明を見たいときにこの画面に来訪するため、同様の商品を推薦する自然な接点として非常に重要です。まず、私たちが商品詳細画面で行った改善の概要を示します。各部の詳細については次節以降で詳しく触れます。日本有数の大規模ECサービスにおいてベクトル検索ベースの商品推薦アルゴリズムを実装し、推薦精度の大幅な改善を実現しました。協調フィルタリングとニューラルネットワーク (以下、NN) を利用した商品推薦アルゴリズムを構築し、コールドスタート問題を回避しつつ、ユーザーの閲覧履歴を活用することに成功しました。協調フィルタリングの学習の際にはPython implicitライブラリを活用し、GPUを利用して膨大な行動ログの計算を高速化しました。 NNのモデリングではKaggleコンペティションのsolutionなども一部参考にしつつ、極めて軽量なモデルを作成しました。モデリングではアクセスログを活用したオフライン評価を行うことで、改善が常に正しい方向へ向かうように工夫しました。ベクトル検索エンジンにはVertexAI Matching Engineを採用して、少ない工数でベクトル検索を実現しました。 VertexAI Matching Engineは本番運用の高負荷にも十分耐えうるものであり、テスト実行後、迅速に本番適用へ移行することが可能でした。実際のABテストでモデリング時に見逃していた重要な特徴量も発見することができました。初回のテストの失敗後、それを迅速に修正し、実ビジネスに貢献する強力な推薦モデルの構築に成功しました。図1. 今回のお話の対象「この商品を見ている人におすすめ」メルカリにおけるベクトル検索エンジンの活用昨年、 wakanapo が書いた記事 [2] でも紹介した通り、メルカリグループではベクトル検索エンジンを活用したレコメンド精度改善にトライしています。以前の記事はメルカリShopsの商品に限定した改善の試みのお話でしたが、今回の私の記事では、メルカリに出品されている全ての商品を対象とした改善の試みをご紹介します。ベクトル検索エンジンは wakanapo の記事と同様に、Vertex AI Matching Engine [3] (以下、Matching Engine と表記) を採用しました。既に社内での導入事例があるためコードベースや運用ノウハウが流用できること、また、後述の通り高いアクセス負荷にも耐えられることから採用しました。ベクトル検索エンジンを利用した商品推薦今回構築した商品レコメンドシステムは以下のような流れで商品を推薦します。(詳細については以降のパートで詳しく説明します) (括弧内の数字はシステムアーキテクチャ概略図に対応) Indexing “何らかの方法” で商品のベクトルを計算する (i, ii, iii) 商品のベクトルを以下2つのGCPサービスに格納する (iv) Bigtable [4]: 全ての商品のベクトルを保存する Matching Engine: 販売中の商品のベクトルを保存する Recommendation ユーザーが商品を閲覧した際 (1) に、以下の流れで推薦を行う。 Bigtable から閲覧中の商品のベクトルを取得する (2, 3) Matching Engine を用いて、そのベクトルと似たベクトルを持つ、販売中の商品を近似近傍探索する。(4, 5) Matching Engine の検索結果を「この商品を見ている人におすすめ」に表示する (6) 図2. システムアーキテクチャ概略図ちなみに、当初、Matching Engine はベクトルをクエリとして受け付けて、それに対して類似商品のIDを返す、という動作しかできなかったため、Bigtableを必要とする構成になっています。現在は Matching Engine のアップデートにより、(ベクトルの代わりに) 商品IDを投げると類似商品を返してくれるようになったため、Bigtableを不要にすることも可能です。また、Matching Engineのインデックス作成にはStreaming Update [5]というものを採用しました。詳細は省略しますが、この方式でインデックスを作成しておくと、新たに出品された商品のインデックスへの追加や、売り切れてしまった商品のインデックスからの削除を瞬時にインデックスへ反映することができます。ものすごい勢いで商品の在庫が入れ替わっていくメルカリでは非常に便利な機能でした。初回のABテストはおもちゃカテゴリを対象メルカリは販売中の商品だけで数億点、過去全てを累計すると30億点以上[6]の商品が出品されています。「この商品を見ている人におすすめ」のレコメンドパーツは売り切れた商品にも表示する必要があるため、売り切れた商品にもベクトルの計算が必要です。仮説の迅速な検証のため、初回のABテストでは一部の商品のみを対象としました。具体的には、まずおもちゃカテゴリを初回の対象カテゴリとして選定し、そのテストが成功した後に、より多くのカテゴリに展開することとしました。参考までに、おもちゃカテゴリを選定した理由は以下の通りです。商品の流行り廃りがあまりにも早いため、現在のレコメンドのロジックがうまく機能していない。具体的には新商品や新キャラクターに全く対応が追いついておらず、新しく登場した人気キャラクターの商品に対して、全く関係ない商品が表示されたりする。トレーディングカードをはじめとして売上の大きいカテゴリが複数存在しており、推薦の改善によって、売り上げへの貢献が期待できる。協調フィルタリングの活用メルカリShopsの改善では word2vec [7] を活用していたため、今回、私がモデリングを行った際にもword2vecを利用してベースラインモデルを構築しました。しかし非常に多くの商品を扱う際には、word2vecではオフライン評価のメトリクス (MRR: Mean Reciprocal Rank) が伸び悩み、また、目視での推薦結果もあまり満足のいくものではありませんでした。具体的には、商品数が非常に多くなった場合は商品の細かな違いを区別できていないような挙動でした。一般に配布されている学習済みword2vec以外にも、自社のデータセットで word2vec を学習してみたりもしましたが、思ったほど精度は伸びなかったため、試行錯誤の結果、古典的な協調フィルタリングを利用することにしました。具体的には、Python の implicit ライブラリ [8] を利用し、ユーザーの閲覧ログから商品の factor を計算しました。 implicit ライブラリはGPUを使って計算を高速化できるため、数億行のデータを突っ込んでも現実的な時間で計算を完了してくれます。また、差分更新にも対応しており、商品の閲覧履歴が溜まるとより精緻なベクトルに更新していくことが可能です。莫大なユーザーログデータと商品データ数を有するメルカリにとって、このライブラリの存在は非常にありがたいのですが、以下2点の課題がありました。 implicit ライブラリのログの取り回しが非常に煩雑ライブラリの制約から0始まりのidでデータを扱う必要があり、implicit id と商品idの変換テーブルが必要 (データパイプラインが複雑になって辛い) コールドスタート問題フリマアプリというサービスの特性上、新しいものに閲覧が集中する。新しい商品では「この商品を見ている人におすすめ」があまり機能しない、というのはユーザー体験の毀損につながってしまう。 (ただこれは協調フィルタリングという手法そのものの問題なのでimplicit単体の問題ではない) よって、ABテストを行う直前に、以下のようなモデルに変更を行ってテストしました。十分な商品閲覧数をもつ商品に対して協調フィルタリングでベクトル (factor) を計算するタイトル、商品説明文などの商品情報を利用してそのベクトルを再現するNNモデルを学習するおもちゃカテゴリの全ての商品に対してNNモデルでベクトルを計算し、それを商品のベクトルとして利用する。 NNモデルの実装詳細まで書くと長くなってしまうので詳細は省略しますが、以下のような構成のシンプルなモデルを組みました。(数千万商品を処理する必要があるため、初回のテストではBERTなどの重いモデルは利用しませんでした) 図3. NNモデルアーキテクチャ (一部簡略化) テキスト処理において商品タイトルにカテゴリー情報の文字列を足すと言った点は、Kaggleのメルカリコンペ[12] の解法を参照しました。紆余曲折あって協調フィルタリングのfactorをNNで近似するという結構無理やりな問題設定になってしまったので、別の機会にtwo-tower モデルなどのより効果的と思われるモデルのテストを実施したいと思っています。なるべく新しい商品を推薦する実は今回のABテストは一度失敗しました。幸いにも、データ分析の結果すぐに敗因が特定できたので2回目のABテストを実施し、それが成功したのでことなきを得ました。失敗した原因は「出品から長い時間売れ残って放置されている商品をたくさん推薦してしまっていた」ということでした。前述の通り、今回の商品ベクトルは主に商品情報 (タイトル・説明文など) を利用してベクトルを生成していましたが、商品がいつごろ出品されたものかということ(新鮮さ)の考慮はしていませんでした。後からわかったことですが、オフライン評価を行う際には、特定の時期のデータのみを利用していたため、新鮮さを考慮しないことがモデリングの問題にならなかったようです。そのため、初回のABテストを行うまで、商品の新鮮さを考慮する必要性に気づけませんでした。商品の新鮮さを考慮するように推薦ロジックを修正した結果、推薦された商品の購買率が一気に向上し、記事末尾で述べる圧倒的な数値改善に繋げることができました。その他の苦労した点これは私たちがMatching Engineを大規模に利用した初めての事例でした。本番環境への適用の際にいくつか問題があったので、以下に箇条書きで列挙しておきます。 Google Cloudのサポートチームがチケットで質問に気軽に対応してくれましたが、Matching Engineのドキュメントにはまだまだ不足している点が多かったです。(SDKの利用方法、Public Endpointの構成方法など。) Tokyo Region の GPU リソースが不足しているためか、GKEのノード自動プロビジョニング(NAP) [13] で全然GPUを掴めないタイミングが稀によくあった。結局、NAPを諦めてインスタンスを1個立ててGPUを常に確保した。(画像生成AIの隆盛の影響だったりするのでしょうか…。) 改善結果 – 商品推薦タップ率が3倍にさて、ここまで書いてきたモデリングの結果、以下のような推薦を行えるようになりました。ユーザーが新しいキャラクターに関連する商品を閲覧している場合、関連する商品をうまく推薦できていなかったのですが、今回の手法を採用することで、その弱点を克服することができました。図4. うまく推薦を行えるようになりました ([]内の数字は推薦順位) 閲覧中の商品: ちいかわワクワクゆうえんちポーチ改善前の推薦商品リスト (ちいかわと全然関係ないものも多い) [1] ハイキューアートコースターまとめ売り [2] 呪術廻戦0 TOHOくじ H賞ステッカージッパー... [3] ちいかわセリフ付きマスコットハチワレプライズ品 [4] 美少女戦士セーラームーンR S カードダスアマダ [5] プロメアガロ＆リオ SGTver. Special Box PROMARE [6] 宇宙戦艦ヤマト 2205 新たなる旅立ちキーホルダーまとめて [7] ドラえもんストラップ付　財布　パスケース [8] 【新品・非売品】日本食研バンコぬいぐるみ [9] ポケットモンスターメイ EP-0137バスタオルサイズ... [10]ちいかわワクワクゆうえんち限定タオルセット改善後の推薦商品リスト (“ちいかわワクワクゆうえんち”を認識している) [1] ちいかわワクワクゆうえんち 2個セットポーチジェットコ... [2] ちいかわワクワクゆうえんちポーチ [3] ちいかわワクワクゆうえんち限定タオルセット [4] 匿名配送ちいかわワクワクゆうえんちガチャアクスタ3種 [5] ちいかわワクワクゆうえんちマグカップ [6] 匿名配送新品未開封ちいかわワクワクゆうえんちマコット... [7] ちいかわワクワクゆうえんち中皿 [8] ちいかわワクワクゆうえんちミニフレームアートハチワレ [9] ちいかわワクワクゆうえんちマスコットセット売り [10] ちいかわワクワクゆうえんち 2個セットポーチ (この記事においては著作権に配慮し、推薦される商品の商品名の羅列のみとしております、実際にお手元のアプリで確認してみてください。) ABテストを行った結果、以下のような驚くべき結果を叩き出すことができました。「この商品を見ている人におすすめ」の商品タップ率が3倍「この商品を見ている人におすすめ」からの購入が20%増加上記の結果、メルカリアプリ全体の売り上げが大幅に向上経営に関するメトリクスが向上したことは当然嬉しいのですが、何よりも、ちゃんとユーザーが閲覧している商品に対して、関係性の深い商品をきちんと提案できるようになったこと、また、それをチームとして誇りに思えたことが何よりも嬉しかったです。まだまだ改善の余地ありご紹介したい内容が多く、各部の詳細は非常に簡潔な説明となってしまいましたが、参考になりましたでしょうか？今回はメルカリ全体でのベクトル検索商品推薦の初回テストということもあり、モデルの設計自体は非常にシンプルなものでした。まだ画像を考慮に入れていなかったり、Matching Engineの高度な機能 (多様性を出すための Crowding Option [14] という機能など) もまだ使っていません。また、おもちゃカテゴリ以外では今回の施策の適用もしておらず、まだまだ改善の余地があります。今後も改善を繰り返して、より良いサービスへと進化させていきたいと思っています。ご意見ご感想などあれば Twitter などで聞かせてください。それではまたお会いしましょう。 References [1] Item2vecを用いた商品レコメンド精度改善の試み | メルカリエンジニアリング [2] Vertex AI Matching Engineをつかった類似商品検索APIの開発 | メルカリエンジニアリング [3] Vertex AI Matching Engine overview | Google Cloud [4] Cloud Bigtable: HBase 対応の NoSQL データベース [5] Update and rebuild an active index | Vertex AI | Google Cloud [6] フリマアプリ「メルカリ」累計出品数が30億品を突破 [7] [1301.3781] Efficient Estimation of Word Representations in Vector Space [8] GitHub – benfred/implicit: Fast Python Collaborative Filtering for Implicit Feedback Datasets [9] [1408.5882] Convolutional Neural Networks for Sentence Classification [10] [1805.09843] Baseline Needs More Love: On Simple Word-Embedding-Based Models and Associated Pooling Mechanisms [11] MeCab: Yet Another Part-of-Speech and Morphological Analyzer [12] Mercari Golf: 0.3875 CV in 75 LOC, 1900 s | Kaggle [13] Use node auto-provisioning | Google Kubernetes Engine（GKE） [14] Update and rebuild an active index | Vertex AI | Google Cloud

株式会社メルカリ

2023/06/12

新人編集長の技術書典14参戦記

この記事は、 Merpay Tech Openness Month 2023 の5日目の記事です。はじめにメルカリ技術書典部の knsh14 です。 6月4日まで行われていた技術書典14に参加しました。技術書典14は5/21にオフライン開催を行いました。株式会社メルカリは、Goldスポンサーとしてイベントを支援させていただいており、スポンサーブースを割り当てていただきました。そこで、このブースではメルカリ技術書典部から「Unleash Mercari Tech!」という書籍をみんなで執筆し販売しました。自分は編集長として本の制作に携わったので、当日までどのような作業があったか紹介します。本を作る Slack を振り返ると、自分が編集長に立候補したのは 3/13 でした。オフラインイベント当日から逆算すると、2ヶ月ほど活動時間がありました。立候補しプロジェクトを始めるタイミングとしては早めで良かったと思います。なぜ自分が立候補したのか詳細は覚えていませんが、おそらく雑談している中でそそのかされたんだと思います。せっかくスポンサーブースに出展できるのなら、物理本（印刷した紙の書籍）を作るぞ！と決めました。前準備本の制作に着手する前に事前準備をします。この時点で必要なものは次の3つです。本の制作に関わる人がやり取りするためのチャットチャンネル書籍を作成するリポジトリ全体のスケジュールをカレンダーに登録する立候補してからすぐにこの3つの事前準備を済ませると自分の退路を断てるので有効です。今回の自分は3番目の全体スケジュールをカレンダーに登録する作業をやらなかったので、スケジュール管理が疎かになってしまいました。チャットチャンネル本の制作をするためには、編集長とコンテンツを制作する方々とのやりとりをする場所が必要です。会社の Slack や、Discord など都合が良いツールを使いましょう。後述のリポジトリで制作状況を管理したり、レビューしたりするので、GitHub と連携できるサービスが好ましいです。メルカリの標準のコミュニケーションツールはSlackなので、今回もSlackを使っています。リポジトリ書籍のデータを管理するためのリポジトリが必要です。リポジトリ、適切なディレクトリ構成、成果物を確認するためのスクリプトなどを 0 から準備するのは大変なので、TechBooster が公開しているテンプレートリポジトリ TechBooster/ReVIEW-Template を使って作成します。 Slackなどのチャットツールを使っている場合、アプリで連携してコミットが push されたり、 PR が作られたり、レビューがつけられたりするとチャンネルにポストされるようにしておくと、進捗が見えやすくなって良いです。執筆者を集める本を制作するための箱が出来上がったので、技術書典部の一員として記事を書く人を集めます。この仕事が編集長としての最初の大仕事です。最初に考えたのはどんな人に書いてもらうかです。今回は会社のプロダクトとして最近の大きなリリースであるメルコインに関連した話はエンジニアの読者なら興味があるかなと思いました。また、メルペイからは昨年メルカードをリリースしています。この2つのプロジェクトからできるだけ書いてもらえる人を集められるように働きかけました。呼びかける方法にスマートな方法はありません。プロジェクトの開発チャンネルに突撃し、書いてください！とお願いするのみです。テックリード（TL）やエンジニアリングマネージャ（EM）に相談し、面白そうなネタを持ってる方を推薦してもらったり、社内勉強会の Go Friday などによく顔を出してる方に問い合わせたり、過去自分と一緒のプロジェクトにいた方に聞いてみたりと、とにかく「久しぶりに書いてみるかあ」と思ってくれる人を探します。また、ちょうどよく大勢のエンジニアの前でライトニングトーク（LT）をする機会があったので、技術書典部に参加する方を募集しています！というLTをしてきました。 LT では次のことを説明し、参加へのハードルを下げられるようにしました。今まで書いたことがない人にこそ勧めたい。みんなで書きあえば一人の記事は短くても全体でちょっと分厚い本にできるネタがすぐに思いつかなくてもOK。編集長がめちゃくちゃ協力します！書く文章量は大体技術ブログ1記事分程度あれば十分。過去の参加者を見てもそれくらいでちょうどよい今回は十分人も集まったので良かったのですが、全社の開発チャンネルでもっと宣伝したり、各チームの EM に手伝ってもらったりして人を集める必要があったかもしれません。ここまでで書いてもらう人数の想定は特にしていません。物理本のページ数、1記事の長さなどから大体の必要な人数は割り出せます。しかし集まった人数ピッタリで打ち切ってしまうと、業務都合で断念する方が出たり、思ったより記事が短かったりして予定した分量を下回ってしまう懸念がありました。足りなくなるよりはたくさん書いてもらって溢れたら分冊すればいいか…と思ったので人数上限は設けずにできるだけ人を集めようと思いました。ありがたいことにメルペイ、メルコインのメンバーは技術発信に興味がある方、お願いします！と頼んだら書いてくれる方が多かったので、ギリギリのラインを攻めずにすみました。人集めはできるなら編集長になった日から着手したほうが良いです。早く書き始めて貰えれば、それだけ毎日少ない苦労で書き上げることができるので、書いてもらえる方に時間を残せるようにしましょう。コンテンツを作ってもらうリポジトリもでき、執筆者も集まったのでここからは本格的に制作していきます。内容を決める参加してくれる方がどんな記事を書くかを決めていきます。自分でどういう記事を書くか既に決まっている人はそれが機密情報が含まれていたり、公序良俗に反していなければ特に問題にはなりません。ダメそうならコミュニケーションして別のネタにしてもらう必要があります。一方、決まらない人がいる場合は編集長の出番です。30分程度1on1で雑談しながら次のことを聞いてみて面白そうなネタを探します。最近やった仕事プロジェクトの概要解決したい問題難しかったところ最近気になっている技術エディタ気になるライブラリ便利ツール 1on1 で話してみると、意外と2〜3個くらいのネタがでてくるので、それで書こうと決めました。もしそれでも見つからなかったらマネージャーに聞いてみて、頑張ってたことなどを聞いてそれを書いてもらうという作戦も考えていました。締切を決める編集長の大事な仕事に、締切を決めて守っていくことがあります。締切の目安は物理本か電子本かでも異なりますし、オンライン参加かオフライン参加かも影響しますが、今回は物理本の締切を考えます。 21日前 – 執筆者候補が全員参加表明をしている 14日前 – 執筆者全員の記事の目次くらいが完成している 10日前 – 技術的なレビューが終わる 8日前 – 執筆者の修正が終わる 7日前 – 編集長が全体をチェックする 6日前 – 最終稿が完成し、印刷所に送るイベント当日 – イベント会場に届いた本を検品し、販売するこれくらいのスケジュールで制作を進めていきました。 6日前の印刷所に送る日付だけは絶対に死守しなければいけません。遅れると、特急料金を支払う必要があるので、負担をかけないように頑張る必要があります。また、その前日には編集長が全体をチェックし修正する時間が必要です。ここで細かく変更が入ってしまうとチェックをやり直しになるので、編集長以外が編集できないようにする必要があります。今回はGWがあり、執筆者にはそこで追い上げるチャンスがあったので、このようなスケジュールになりましたが、大型連休がない場合はもっと前に執筆表明をしてもらい、時間を確保してもらう必要があります。この2つの締め切りを守るために本当のやばい締切、目安の締切を執筆者に提示し、うまくコントロールしていける編集長はかなりハイレベルな編集長です。自分は今回この締切が自分でも曖昧なまま進んでしまい、 vvakame さん、 mhidaka さんに突っつかれながら進めてしまったので、執筆者にも急に締め切りを設定して色々直してもらい迷惑をかけてしまいました。次回は前準備の段階ですべての予定をカレンダーに入れてきちんと今何をすべきか把握すること、週に一回など定期的に進捗を把握することが必要だなと思います。普段の仕事とまったく同じですね。リマインドする前述のスケジュールを守るために、執筆者に定期的にリマインドを送る必要があります。次のようなリマインドを順に執筆者、あるいは執筆者候補に送ります。参加表明してくれましたか？ネタは決まりましたか？記事の Pull Request は作ってくれましたか？記事はいったんレビューできる状態になりましたか？いったん直さないとやばいものは直しましたか？これらを目安の締切、絶対に守る締切を意識しつつ、心理的安全性を損なわないように送っていきます。ここで如何にいいタイミングで送れるかが編集長の腕の見せ所ですが、自分は結構下手くそでした。プロジェクト管理の手法を勉強すると上達できる気がします。レビューする執筆者の方たちが頑張って書いてくれた記事をレビューします。自分は記事の最初の読者として、読む中で文章が分かりづらいところ、前後関係がわかりにくいところなどを探してレビューしていきました。技術的な面は自分も使っている技術については多少コメントできたのですが、暗号資産に関連する記事では自分はまったくわからないので、詳しい方にお願いしてレビューしてもらいました。他人の書いた文章をレビューするのは難しいですが、次の動画や記事から良い文章はどんな文章なのか、読みやすく書くためにはどう書くべきかをある程度把握してから、自分がこのテーマで書くならどうすればよいか考えながらやってみると良さそうです。 merpay Tech Talk \~伝わる技術文書の書き方\~ LINE Technical Writing Meetup 技術的な文章を書くための第0歩～読者に伝わる書き方～技術的な文章を書くための1歩、2歩、3歩自分がレビューした後、 vvakame さんも忙しい中レビューしてくれました。自分だけだと心もとなかったのですが、 vvakame さんは自分より文章を書いたりレビューする経験が豊富なので、よりよい視点からレビューしてくれて自分も勉強になりました。もし時間があるなら、執筆者どうしで互いの記事をレビューすると、より多くの視点からのレビューができ、全体のクオリティを上げることができそうです。表紙を描いてもらう本には表紙が必要です。表紙は文字通り本の顔なので、本職の方にお願いしました。今回は弊社のデザイナーの tottie さんにお願いしました。 tottie さんは同人誌ノウハウをよくご存じなので、いろんな部分を先回りしてやってくださったのですが、依頼するときには次のことをわかった上で依頼するとスムーズに進みます。納期表紙のイメージ本のタイトル、著者名表紙表紙だけなのか、裏表紙も欲しいのかサイズ A4 なのか B5 なのか形式印刷所用の形式と、電子版の形式印刷用ならpsd ファイル電子版なら、png 形式どこの印刷所に依頼するか既に決まっているなら共有するとデザイナーさんが気になることを確認できるトンボいる？いらない？印刷の場合、印刷用の形式（トンボなど）を作成する必要があるまた、物理本にする場合は、背表紙の調整を考える必要があります。 (本文のページ数+表紙のページ数）× 0.063mm の厚みを本の背として確保します。0.063mm は今回使用した紙の厚さです。別の種類の紙を使う場合は再度確認し、修正する必要があります。これを表紙と裏表紙の間にこの厚みを追加してもらうことで、きれいな背表紙になります。最終的にこのような素敵な表紙ができあがりました！本にする本を作るために必要な要素は揃ったので、全体をまとめ上げて印刷所に入稿するためのデータを作ります。これに着手するのは印刷所に送る直前1日程度です。あまり前すぎると記事を修正したいこともあるので、執筆者に厳しくなりますが、遅すぎても自分の作業時間が取れないので、短すぎないようにします。編集長の仕事の中で一番大変な仕事です。ここでの作業の成果物は印刷所に送るためのデータを作成することです。今回僕らは日光企画さんに印刷してもらったので、必要なデータは表紙用の psd ファイルと、中身の pdf ファイルの2つです。表紙の psd ファイルは「表紙を描いてもらう」でも書いたとおり、背表紙の幅を調整したものを送ります。中身については出来上がったものを読んで、おかしい部分を見て修正する作業を繰り返します。テンプレートリポジトリ https://github.com/TechBooster/ReVIEW-Template から作業リポジトリを作成した場合、pdf はリポジトリの GitHub Actions により生成されてダウンロードすることができます。そこからダウンロードして確認します。確認する項目は次のとおりです。書いてもらった記事が全部載っているか誤字脱字がないか表示崩れがないか数式などが崩れていないかコードブロックが崩れていないか URLが長すぎて表示が崩れていないか確認作業をするときに過去に参加したときの本とリポジトリのセットがあると修正作業がとても楽になります。このタイミングで、記事の順番も編集長が決めます。今回は記事の Pull Request を作った順番で並べたのですが、見本誌を手にとって眺めてもらったときに興味を持ってもらえそうな内容を先に持ってくると良かったかもしれません。また目次の章に記事を書いた人の名前も入れると見本誌でパラパラっと目次を見たときに誰が書いたのか分かりやすくてより興味を持ちやすかったかもしれません。本を売る本が出来上がったので、オフラインイベント当日に本を売りまくります。それに向けてもいくつか準備をします。売値を決める当日販売する本の値段を決めます。1,000円刻みで設定しておくと、当日現金で支払われる方にも対応しやすくなります。事前にお釣り用の現金を準備しておく必要があります。当日のための準備をするメルカリ技術書典部は株式会社メルカリのスポンサーブースで本を販売しました。あくまでスポンサーブースなので、会社の広報チームと連携し、本を売るだけでなくノベルティを配るなど採用広報活動にも参加する必要があります。広報チームと事前に相談することで、会社の備品を使わせてもらうことができ、一気に売れそうなブースになりました。厳密には編集長の仕事ではないですが、積極的に関わって作った本を1冊でも届くようにしましょう。当日株式会社メルカリではスポンサー担当、編集長、Talent Acquisition team のメンバー、そして執筆者のうち当日参加できた方で参加しました。販促グッズの準備当日本を売るための販促グッズを用意します。オフラインではとにかく会場にいる方たちの目にとまるように販促グッズを用意しました。 mhidaka さんのアドバイスで、A3 サイズの表紙、販売中をアピールできるグッズを準備しました。 A3 サイズの表紙はたまたまオフィスにラミネート加工できる機械があったので、補強して持ち運びやすくしました。他にもアピールグッズとして推し活に使われる蛍光色で大きめのうちわを買ってきて会社のシールなどを貼ると遠くからでも目立って良かったです。販促については同人誌を売るテクニックとして色んなところで紹介されていると思うので、1冊でも多く手に取ってもらうために、事前に調べて試してみる価値はありそうです。当日オフラインイベント当日はサークル参加の集合時間に遅れないように会場にいきます。依頼した物理本の印刷がされて、会場の自分たちのブースに納品されているはずなので、発注した冊数があってるか、いくつかピックアップして乱丁や落丁がないか調べます。 2〜3冊は見本誌として、立ち読みしてもらうために目印を付けておきましょう。本がちゃんとそろっていて、乱丁や落丁もなければ後は皆さんに届けるのみです。恥ずかしがらずに勇気を出して、来場者に声をかけて見本誌を読んでもらいながらこの本がいかにすばらしいかを売り込みましょう。後処理技術書典14最終日の6/4でのクロージングイベントにも出演しました。このイベントでは最後に少しでも興味を持ってもらえるように、オフラインイベントで興味を持ってもらえた記事や、執筆に興味を持たれた方の背中を押す方法、株式会社メルカリでの働き方などいろいろお話させていただきました。後から印刷を行う予定ならここから入稿作業が必要ですが、今回僕らはやらなかったので、僕は作業しませんでした。この作業はイベントが終わった開放感から忘れそうなので、最後まで気を抜かずに対応しましょう。次回参加にむけて今回は初めて編集長として技術書典に参加しました。次回に向けて書籍作成をするときに確認するべきことはこんなことです。今日からイベント当日までの全体の締め切りの理解入稿する締め切り執筆完了の締め切り最初のバージョンを書き上げる締め切り製本に必要な要素の理解執筆者の募集表紙の依頼入稿データの作成当日の確認当日の宣伝この他にも YouTube 技術書典チャンネルでも様々な情報を公開しているので、事前に過去の放送分を確認してみると良さそうです。今回はなんとか人も集まって色々な締め切りにも間に合い素敵な本を出すことができましたが、反省点も多かったので、次に活かせればと思います。

株式会社メルカリ

2023/06/09

社内用GitHub Actionsのセキュリティガイドラインを公開します

この記事は、 Merpay Tech Openness Month 2023 の4日目の記事です。こんにちは。メルコインのバックエンドエンジニアの @goro です。はじめにこのGitHub Actionsのセキュリティガイドラインは、社内でGithub Actionsの利用に先駆け、社内有志によって検討されました。「GitHub Actionsを使うにあたりどういった点に留意すれば最低限の安全性を確保できるか学習してもらいたい」「定期的に本ドキュメントを見返してもらい自分たちのリポジトリーが安全な状態になっているか点検する際に役立ててもらいたい」という思いに基づいて作成されています。今回はそんなガイドラインの一部を、社外の方々にも役立つと思い公開することにしました。ガイドラインにおける目標このガイドラインは事前に2段階の目標を設定して作成されています。まず第1に「常に達成したいこと」として「外部の攻撃者からの攻撃を防ぐ」こと。そして、第2に「可能であれば考慮したいこと」として「内部と同等の権限を持つ攻撃者からの攻撃を防ぐ」ことを目標としています。ガイドラインの構成このガイドラインは3部で構成されています。まず1部でGitHub Actionsにおいて起こりうる脅威を紹介しています。2部ではその脅威に対する対策を記載しています。そして最後の3部ではより実践的な対策を講じられるようにセルフチェックリストを用意しました。それでは実際のガイドラインをお楽しみください。 GitHub Actions Guideline 脅威を知る権限設定の不備を突く攻撃 Pull Requestを契機に起動するトリガートリガーの基本的な仕組みについては参考情報の「ワークフローのトリガー」のセクションに記載した。 PRを契機に起動するトリガーは攻撃者がなにかを仕掛ける余地が大きい。不注意にワークフローを構築するとシークレットを外部に送信されて攻撃を受ける可能性がある。シークレットなどを外部に送信される可能性ビルドスクリプトに細工をする依存関係にあるライブラリを悪意のあるものに差し替えられる自動実行の仕組みに相乗りされる(npmのpreinstall, postinstallなど）過去、人気のライブラリでローカルファイルをスキャンする事例があった https://ezoeryou.github.io/blog/article/2018-07-13-npm-malware.html 本ドキュメントにおけるシークレットという用語は、GitHub Organization、リポジトリ、またはリポジトリ環境で作成する暗号化された環境変数を意味する。詳しくは GitHubの「Encrypted secrets」を参照。上記の攻撃の結果、次のような被害が発生する可能性がある。攻撃者に、悪意のあるアクションまたは侵害されたアクションによってGitHub Actionsの計算リソースを不正に利用される可能性がある侵害された、または悪意のあるアクションによって、リポジトリの自動ワークフローが中断される可能性がある Deployment Keyやアクセストークンなどのシークレットへの読み取りアクセスは、攻撃者が他のリソースを侵害するために利用される可能性があるインジェクションによる攻撃一見安全に見えるワークフローにおいてもコードやコマンドインジェクションを引き起こす可能性がある。インジェクションによる攻撃例1 例えば、以下のようなコードにはインジェクションの脆弱性がある。 uses: foo/bar@2.0.1 with: comment: | Comment created by {{ event.comment.user.login }} {{ event.comment.body }} コメントに {{ 1 + 1 }} のような二重中括弧が含まれていた場合、Actionは内部で{{ }}の値を補間するためにlodashを使っているため、node.jsコードが実行され出力が2になる。ワークフローのインラインスクリプトに直接インジェクションを配置するシナリオもある。また、ブランチ名やメールアドレスへのコマンドインジェクションもできる。インジェクションによる攻撃例2 次のようなコードを例にする。 - name: Check PR title run: | title="${{ github.event.pull_request.title }}" if [[ $title =~ ^octocat ]]; then echo "PR title starts with 'octocat'" exit 0 else echo "PR title did not start with 'octocat'" exit 1 fi 内部の式 ${{ }} が評価され、結果の値に置き換えられるため、コマンドインジェクションに対して脆弱になる可能性がある。攻撃者は a"; ls $GITHUB_WORKSPACE" といったタイトルのPRを作成する可能性がある出典： Security hardening for GitHub Action この例では " を使用して title="${{ github.event.pull_request.title }}" ステートメントを中断し、ランナーでコマンドを実行できるようにする。lsコマンドの出力を確認できる。 > Run title="a"; ls $GITHUB_WORKSPACE"" README.md code.yml example.js インジェクションによる攻撃の影響インジェクションをされると攻撃者は任意のコマンドを実行できるため、単純に攻撃者が管理する外部のサーバーにシークレットを送信するHTTPリクエストを行うことが可能になる。リポジトリへのアクセストークンを取得してもワークフローが完了すると失効するので攻撃は簡単ではない。しかし、攻撃者が自動化し、管理するサーバーにトークンを呼び出して、コンマ数秒で攻撃を実行することは可能となる。その場合GitHub APIを利用してリリースを含むリポジトリのコンテンツを変更することが可能になる。攻撃者は悪意のあるコンテンツを GitHub Context 経由で追加できる潜在的に信頼できない入力として扱う必要があるこれらのコンテキストは以下の文字列をinjectすることができる body, default_branch, email, head_ref, label, message, name, page_name,ref, title Ex: github.event.issue.title , github.event.pull_request.body たとえば zzz";echo${IFS}"hello";# は有効なブランチ名であり、ターゲットリポジトリの攻撃となる可能性がある。対策を考える最小権限の原則に従う最小権限の原則( Wikipedia: 最小権限の原則 )は、ソフトウェアがタスクを達成するために必要な最小限の権限セットで実行されるべきであるというものになる。これは、ワークフローで利用可能なシークレットの権限と、ワークフロートリガーの種類に基づいて自動的に提供される一時的なリポジトリトークンの両方に当てはまる。自動的に提供されるリポジトリトークンGITHUB_TOKENの権限は、フォークからのpull_requestイベントの場合には制限されている。 GitHub の推奨するセキュリティ対策としては、ワークフローでは必要としないGITHUB_TOKEN の権限をすべて削減することとなっている。したがって組織やリポジトリのデフォルト設定を「読み取りと書き込み」権限から「読み取り専用」に変更すべきである。設定はGitHubの対象リポジトリの Settings > Actions > General から変更できる。出典： GitHub 必要であれば、特定のワークフローに対して個別に追加権限を付与することができる。権限はワークフロー単位でも設定できるが、Job単位で設定を行うことで権限を最小化できるケースが大半である。参考情報のGITHUB_TOKENの権限に権限の一覧と、Job単位での設定方法へのリンクを記載した。 jobs: job_name: ... permissions: issues: write クロスリポジトリアクセスを考慮した、ワークフローが利用するべき推奨されるアプローチを優先度の高い順に説明する。 GITHUB_TOKEN 可能な限りGITHUB_TOKENを利用する Repository deploy key Managing deploy keys – GitHub Docs GitHub App tokens GitHub Appは、選択したリポジトリにインストールでき、リポジトリ内のリソースに対するきめ細かい権限がある Personal access tokens 使わないことやむを得ず利用しなくてはならない場合、 Fine-grained personal access token を利用すること SSH keys on a personal account 絶対に使わないことシークレットの利用についてシークレットを利用する場合は以下を考慮すること。シークレットの利用を避けられるのであれば、利用しない。 Long-Lived tokenを利用しない Workload identity federationを用いたSecret Managerの利用を検討する Workload identity federation | IAM Documentation | Google Cloud Workload Identity – Developer Documentation 構造化データ(JSON, XML, YAMLなど)をシークレットにしない GitHub Actionsは全文をマスクデータとして扱ってくれるが部分文字列はマスクされないため構造化データ(JSON, XML, YAMLなど)のblobを使用してシークレットを登録しないひとつずつ個別にシークレットにするワークフロー内で使用されるすべてのシークレットをマスクするよう登録するシークレットを使用してワークフロー内で別の機密値を生成する場合、その生成された値もシークレットとして登録するシークレットの登録方法は以下を参照 Encrypted secrets – GitHub Docs たとえば、秘密鍵を使用して署名付きJWTを生成してWeb APIにアクセスする場合は、必ずそのJWTもシークレットとして登録するシークレットに保存されたアクセストークンの利用状況を監査するスコープが最小限のクレデンシャルを使用する登録されたシークレットを監査およびローテーションするシークレットへのアクセスについてレビューを要求することを検討イベントトリガー PRの処理には pull_request イベントを使えるなら使うリポジトリへのwriteはできないよう制限されている Dependabotなどもシークレットにアクセスできない(社のorganizationの別リポジトリにアクセスできない)ためビルドできない可能性があるただしDependabotシークレットに登録されていればアクセスできる Configuring access to private registries for Dependabot – GitHub Docs すこし制限を緩めたものとしてpull_request_targetがある GitHub Actionsのワークフロー自体は pull_request_target だと default branch のものが使われるワークフローのyamlに直接記載する場合は攻撃者によって上書きされないチェックアウトしたコードに含まれるComposite Actionを使う場合注意が必要となる Composite Actionについては参考情報に詳しく記載した pull_request_target – Events that trigger workflows – GitHub Docs に記載されている以下の内容に注意すること警告: pull_request_target イベントによってトリガーされるワークフローでは、permissions キーが指定され、ワークフローがフォークからトリガーされてもシークレットにアクセスできる場合を除き、読み取り/書き込みリポジトリのアクセス許可が GITHUB_TOKEN に付与されます。ワークフローはPull Requestのベースのコンテキストで実行されますが、このイベントでPull Requestから信頼できないコードをチェックアウトしたり、ビルドしたり、実行したりしないようにしなければなりません。さらに、キャッシュではベースブランチと同じスコープを共有します。キャッシュポイズニングを防ぐために、キャッシュの内容が変更された可能性がある場合は、キャッシュを保存しないでください。詳細については、GitHub Security Lab の Web サイトの GitHub Actions およびワークフローのセキュリティ保護の維持: pwn 要求の阻止に関するページを参照してください。信用できないPRが作成されることを想定する場合は pull_request を使うべきただし信用できないPRが作成される時点で、大きな問題となるため、これを防ぐべきである Job / Stepの単位シークレットの内容を露出する単位は可能な限り狭くする Job単位より Step単位のほうがよりよい Step間のファイルによるデータやりとりは全ステップから可視であると考える Jobは処理の単位によって分けるテスト & ビルド & デプロイはそれぞれJobを分けたほうがよい必要なGitHub Actions上のPermissionやクラウドプロバイダーの権限を細かく制御するためたとえばテストの時にデプロイできる権限は必要ない上記の場合、id-token: write は不要なはずである id-token: writeについては参考情報に詳しく記載 Dependabot / Renovateを利用したGitHub Actionsの更新 Actionsはバグ修正や新機能によって頻繁に更新される。Dependabot、RenovateでGitHub Actionsの依存関係を最新の状態に保つことができるため、設定を行うこと。 Dependabot: Keeping your actions up to date with Dependabot – GitHub Docs Renovate: Automated Dependency Updates for Github Actions – Renovate Docs | Renovate Docs サードパーティのActionを利用する場合の対応サードパーティのActionを利用する場合、基本的にFull Changeset Hashに固定する。以下のようにFull Changeset Hashとバージョンコメントを記載することで、どのバージョンを使っているのかわかりやすくなる。 Dependabot Update version comments for SHA-pinned GitHub Actions by jproberts · Pull Request #5951 · dependabot/dependabot-core Dependabot now updates comments in GitHub Actions workflows referencing action versions | GitHub Changelog Renovate Automated Dependency Updates for Github Actions – Renovate Docs | Renovate Docs それぞれの指定の違いは以下の通り。 Full Changeset Hash uses: owner/action-name@26968a09c0ea4f3e233fdddbafd1166051a095f6 # v1.0.0 衝突の成功例はあるが困難 Short Changeset Hash uses: owner/action-name@26968a0 衝突に対して脆弱 Tag / Release uses: owner/action-name@v1 タグを後で変更され、意図しない変更が混入してしまう可能性がある Branch Name uses: owner/action-name@main 将来壊れる可能性がある意図しない変更が混入してしまう可能性がある Actionのソースコードを監査するサードパーティのホストにシークレットを送信するなどの疑わしいことがないか確認する Managing GitHub Actions settings for a repository を参考に、ワークフロー内で利用している3rd Party ActionsのAction permissionsをセキュリティ観点で見直す。可能であれば、Allow enterprise, and select non-enterprise, actions and and reusable workflowsを設定する。出典： GitHub 不要なワークフローやJobは削除する設定はしてあるが必要なくなったものは削除して依存を減らすインジェクションを防ぐ信頼されない式の入力値を中間環境変数(intermediate environment variable)に設定する。これによって${{ github.event.issue.title }}式の値はスクリプトの生成に影響するのではなく、メモリに保存されて変数として使用される - name: print title env: TITLE: ${{ github.event.issue.title }} run: echo "$TITLE" シェル変数をダブルクォートして単語の分割を避ける（シェルスクリプトを書く際の一般的な推奨事項） GitHub Security Labの開発する CodeQL queries を利用する script_injections.qlは、記事で紹介されている式注入をカバーしており、精度が高い。しかしワークフローのステップ間のデータフローを追跡することはできない pull_request_target.qlの結果は、pull requestからのコードが実際に安全でない方法で処理されているかどうかを特定するために、より多くの手動レビューが必要。 GitHub のカスタムアクションやワークフローを書くときは、信頼できない入力に対して書き込み権限でコードを実行することがよくあることを考慮する actionlintによるインジェクションの検知外部Actionとなるが、actionlintを利用することでインジェクション対策ができるので、導入を検討する。 https://github.com/rhysd/actionlint また、 reviewdog/action-actionlint を利用するとGitHub Actionsでactionlintを実行することも可能。 name: Actionlint on: - pull_request_target jobs: actionlint: runs-on: ubuntu-latest permissions: checks: "write" contents: "read" pull-requests: "write" steps: - uses: actions/checkout@v3.1.0 with: ref: ${{ github.event.pull_request.head.sha || github.sha }} - uses: reviewdog/action-actionlint@1fa528d6a483f3df85059e206eadea033044edd7 with: fail_on_error: true filter_mode: nofilter level: error reporter: github-pr-review その他完全に攻撃を防ぐことは不可能と考え、問題が発生したときに受ける影響を最小限に抑える Ex. Production環境に影響を及ぼす(サービスを停止させる、不正なImageを送り込む etc)ことがが最悪のケースとなる GitHub ActionがPRを作成またはオーナーとして承認しないようにする OpenSSF Scorecardsを使用したワークフローの保護(ただし利用するにはGitHubのPersonal Access Tokenが必要になる) ossf/scorecard – Security health metrics for Open Source OSSF Scorecard action – GitHub Marketplace actions/starter-workflows: Accelerating new GitHub Actions workflows セルフチェックリスト本章の内容を定期的にチェックすることでGitHub Actionsの安全な利用につなげる。ガイドラインで学習した内容が本チェックリストでカバーされることを目指す。 CODEOWNERSの設定を見直す CODEOWNERS ファイルで .github ディレクトリ以下に対して適切にCode Ownerが設定されていることを確認する Protected Branch でDefault BranchへのPull Requestのマージには、Code Ownerによる承認が必須になっていることを確認する GITHUB_TOKENのPermissionsを見直す GITHUB_TOKEN に付与される権限を見直す。デフォルトで付与されるGITHUB_TOKENの権限がReadのみになっているか確認する「Read and write permissions」になっている場合は「Read repository contents permission」に変更する \ 出典： GitHub Managing GitHub Actions settings for a repository 可能であれば「Allow GitHub Actions to create and approve pull requests」を無効にする設定方法などは以下を参照 Disabling or limiting GitHub Actions for your organization permissions をJob単位で設定する permissionsはWorkflow全体かあるいはJob単位で設定できるが最小権限にするためにJob単位で設定する Workflow syntax for GitHub Actions – permissions permissions の見直し以下のリストを元に権限が最小になっているかを確認する Automatic token authentication – permissions-for-the-github_token ビルドやテストなどのジョブを分けることで、強い権限で実行されるステップが少なくなるのであれば分割を検討する GitHub Actions Secretsを見直す GitHub Actions用に設定されているシークレットを見直す。使っていないシークレットはGitHub上から削除するシークレットの発行元でも無効化しておく構造化データ(JSON, XML, YAMLなど)をシークレットに設定していないか確認する個別登録するなどして設定し直すワークフロー内で使用されるすべてのシークレットやログ出力すべきではない値をマスクするよう登録するシークレットを使用してワークフロー内で別の機密値を生成する場合、その生成された値もシークレットとして登録する定期的(1年に1回など)にシークレットをローテーションする新しいシークレットに置換し、それを終えたら古いシークレットは無効化するシークレットにTTL(Time To Live)を設定できる場合は適切な長さのTTLを設定するローテーションと併せてシークレットに設定されている権限が最小限になっているのか確認する必要以上に強い権限が付与されている場合は不要な権限を落とすワークフロートリガーを見直すコードプッシュをトリガとする場合、pull_request か、それが難しければ pull_request_target を使う on: pushをPR用に使っていたら見直すサードパーティのActionsを見直す不要なWorkflowやJobは削除する設定はしてあるが必要なくなったものは削除して依存を減らすバージョン指定を確認する基本的にFull changeset hashに固定し、Full Changeset Hashとバージョンコメントを記載する Dependabot - uses: actions/checkout@01aecc # v2.1.0 Dependabot now updates comments in GitHub Actions workflows referencing action versions | GitHub Changelog Renovate - uses: actions/checkout@af513c7a016048ae468971c52ed77d9562c7c819 # renovate: tag=v1.0.0 Automated Dependency Updates for Github Actions – Renovate Docs | Renovate Docs Managing GitHub Actions settings for a repository を参考に、ワークフロー内で利用している3rd Party ActionsのAction permissionsをセキュリティ観点で見直す。インジェクション対策を見直す actionlintが導入済みであれば、actionlintで問題がないことを確認する actionlintを導入できない場合、最低限の対応として信頼されない式の入力値を中間環境変数(intermediate environment variable)に設定するおわりに今回は社内の有志メンバーによって作成された社内用GitHub Actionsのセキュリティガイドラインの一部を紹介しました。 GitHub Actionsは、開発者がよりスムーズで効率的な開発を行うための強力なツールであると言えますが、使用する際にはガイドラインに記載したようなさまざまな観点でセキュリティに十分注意する必要があります。常にセキュリティを考慮し、最適なプラクティスを意識して実践することの重要性をガイドラインを作成する中で強く感じました。GitHub Actionsにおけるセキュリティのベストプラクティスは今後も変化していくと思います。本ガイドラインはこれで完成ではなく、今後も適切に更新していき、よりスムーズで安全な開発をサポートできるよう努めていきたいと思います。明日の記事は sapuriさんです。引き続きお楽しみください。 Appendix 参考情報ワークフローのトリガーワークフローはイベントによってトリガーされる。イベントには、以下のものがある。ワークフローのリポジトリで発生したイベント GitHubの外部で発生し、GitHub上で repository_dispatch イベントを発生させるイベント時間指定での実行手動実行たとえば、リポジトリのデフォルトブランチにプッシュが行われたときやリリースが作成されたとき、あるいはIssueがオープンされたときなどにワークフローを実行するように設定することができる。詳しくは About workflows を参照すること。またイベントの一覧は Events that trigger workflows を参照すること。 GITHUB_TOKENの権限 GITHUB_TOKENの権限は以下にまとめている。 Permissions for the GITHUB_TOKEN Jobごとに権限を変更する方法は以下に記載されている。 Assigning permissions to jobs – GitHub Docs 権限をジョブに割り当てる – GitHub Docs Composite Action Composite ActionはカスタムActionの一つであり、使用することでワークフローの複数のステップを組み合わせて 1 つのアクションにすることができる。たとえば、複数の run コマンドを 1 つのアクションにまとめて、そのアクションを 1 つのステップとしてワークフローから呼び出して実行することが可能。作成方法に関しては以下に記載されている Creating a composite action – GitHub Docs シークレットのマスクログ中での値のマスク – GitHub Actions のワークフローコマンド Workflow commands for GitHub Actions 以下のような記述を行うことで値をマスキングすることが可能。マスキングされた単語は「*」に置き換えられ、ログに出力されなくなる。マスク可能な値は環境変数または文字列である。 ::add-mask::{value} 例：Stringをマスクする以下のような設定を行った上でログに「Mona The Octocat」を出力すると「***」が表示される。 echo "::add-mask::Mona The Octocat" 例：環境変数をマスクする以下のような設定を行った上でログに環境変数 MY_NAMEと”Mona The Octocat"を出力すると *** が表示される。 jobs: bash-example: runs-on: ubuntu-latest env: MY_NAME: "Masking on GitHub Action" steps: - name: bash-version run: echo "::add-mask::$MY_NAME" - run: run: | echo "Mona The Octocat" echo "::add-mask::Mona The Octocat" echo "Mona The Octocat" echo "$TITLE" echo "::add-mask::$TITLE" echo "$TITLE" 以下のように表示される。 Mona The Octocat *** Masking on GitHub Action *** actions/toolkitを利用する場合 actions/toolkit はGithub Actionsの作成を容易にする一連のパッケージを提供している。 toolkitの@actions/coreパッケージを利用することで、以下のような記述でシークレットのマスクを設定することも可能。 core.setSecret('Mona The Octocat') Setting a secret – toolkit/packages/core ログ中での値のマスク – GitHub Actions のワークフローコマンド / Workflow commands for GitHub Actions id-token:writeで実現できること id-token: write はGitHubによる署名が行われたOpenID ConnectのID Tokenが取得できるようになる権限。これを使うとどういうことができるかは公式ドキュメントを参照する。例えばGCPのWorkload identity federationの機能を通じて、GitHub ActionsのID Tokenがあれば設定されたService AccountのAccess Tokenを手に入れることができる。つまり、id-token: write をGitHub Actions中で利用するということは短時間(デフォルトでは1時間)ながら、GCPプロジェクトへのアクセス権限を渡すのと同義となる。secretsに固定のcredentialをもたせるのに比べれば圧倒的にセキュリティが高いが、それでもID Tokenにアクセス可能な範囲を適切にコントロールすることは重要となる。 References GitHub Keeping your GitHub Actions and workflows secure Part 1: Preventing pwn requests Keeping your GitHub Actions and workflows secure Part 2: Untrusted input Keeping your GitHub Actions and workflows secure Part 3: How to trust your building blocks Security hardening for GitHub Actions About code owners – GitHub Docs About protected branches – GitHub Docs Automatic token authentication – GitHub Docs Contexts – GitHub Docs Managing GitHub Actions settings for a repository – GitHub Docs Setting the permissions of the GITHUB_TOKEN for your repository – Managing GitHub Actions settings for a repository Automatic token authentication – GitHub Docs Modifying the permissions for the GITHUB_TOKEN – Automatic token authentication – GitHub Docs Managing deploy keys – GitHub Docs Encrypted secrets – GitHub Docs Creating encrypted secrets for a repository – Encrypted secrets – GitHub Docs Configuring code scanning – GitHub Docs Preventing GitHub Actions from creating or approving pull requests – Disabling or limiting GitHub Actions for your organization Verified Creator – GitHub Marketplace · Actions to improve your workflow Others rhysd/actionlint: Static checker for GitHub Actions workflow files

株式会社メルカリ

2023/06/08

ページネーションのバグを解消した話

この記事は、 Merpay Tech Openness Month 2023 の3日目の記事です。こんにちは。メルペイBackendエンジニアの@yushi0010です。私が所属するPartner Platformチームでは社内向け管理ツールを開発しています。この記事では、そのツール内でのページネーションで起きたバグを解消した話を紹介します。概要今回のページネーションを利用していた管理ツールの検索ページでは、あるテーブルが持つカラムに対して条件を指定し、その条件に合うレコードを取得して一覧表示する機能がありました。しかし、ある特定の条件下でどれだけ次ページに遷移するボタンをクリックしてもページ遷移が行われないというバグが発生しました。バグが起きた状況どのようにしてページ遷移が行われなくなったのかを説明するために、その時の状況を共有します。まず、検索の対象とするテーブルは以下のようなスキーマです。 table ( id INT64 NOT NULL, month DATE NOT NULL, status1 INT64 NOT NULL, status2 INT64 NOT NULL, (中略) created_at TIMESTAMP NOT NULL, updated_at TIMESTAMP NOT NULL, ) それぞれのカラムに入る値について、 month はDate型で表現されていますが年月だけの情報を保持しており、何日なのかという情報は必要がないため全て1日で固定されています。また、 status1 や status2 はカテゴリカルな値が入り、とりうる値の範囲はせいぜい0から9までの一桁に収まるくらいです。このスキーマに対して条件を指定して一覧表示をさせていました。実際の条件は以下のような内容です。 month が2023年5月より以前になっている status1 が (0, 1, 3) のどれかである status2 が (1, 2, 4, 5) のどれかであるページネーションを実現するアルゴリズムとしては、典型的なものとしてOFFSET句を利用するパターンと、前のページの最終行の情報をカーソルとして保持し次のページでそのカーソル以降のレコードを表示させるパターンが主に考えられます。今回のコードでは後者を使用していました。また、カーソルとして使用したカラムは month 、 status1 、 status2 、 created_at の4つです。その4つのカラムでOrdey Byさせた後、ページで表示させる件数+1つのレコードを取得してその+1つめのレコードの値をカーソルとし、ページ遷移するときにはそのカーソルを含むそれ以降のレコードを取得するという実装になっていました。例えば一つのページに50件を表示させたいとき、 1ページ目を取得する場合は、 SELECT * FROM table ORDER BY month, status1, status2, created_at LIMIT 51; で51件取得し、50件をページに表示させ、51件目をカーソルの値に使用していました。次に2ページ目を取得する場合は、先ほどの51件目のカーソル以降（51件目を含む）となるレコードを取得すれば良いので、 SELECT * FROM table WHERE (month > @cursor_month) OR (month = @cursor_month AND status1 > @cursor_status1) OR (month = @cursor_month AND status1 = @cursor_status1 AND status2 > @cursor_status2) OR (month = @cursor_month AND status1 = @cursor_status1 AND status2 = @cursor_status2 AND created_at >= @cursor_created_at) ORDER BY month, status1, status2, created_at LIMIT 51; で取得をします。バグが起きた原因以上のようなコードによってページネーションロジックが実装されていましたが、どのようなことが原因で前述のバグが発生していたでしょうか？自分で考えてみたい人はスクロールをここで一旦ストップしてください。ここまでに共有した情報の中にそのバグを発生させていた原因が含まれています。以下でその原因を示します。予想はつきましたでしょうか？今回のバグの原因となっていたのは、カーソルとして使用していたカラムの組み合わせがユニークではないことでした。実装当初の想定では、 created_at を含む4つのカラムを組み合わせてカーソルを作成することで、カーソルは各レコードにわたってユニークになるだろうと考えていました。しかし、実際にはデータマイグレーションの際に一括Insertをしたことで created_at を含む4つのカラムが全て同じになっているレコードがページの表示件数以上に存在していました。ではユニークでないレコードが大量に存在することで、どのようにページ遷移が出来なくなるのでしょうか。例えばページの表示件数が50件で、カーソル (month, status1, status2, created_at) が (2023年5月, 4, 2, 2023年4月10日) となるユニークでないレコードが51件より多く存在する場合を考えてみます。ページ遷移を行っていたところ51件目がユニークでないレコードとなり、カーソルが (2023年5月, 4, 2, 2023年4月10日) となってしまいました。このとき、次ページに遷移するときに取得するレコードは (2023年5月, 4, 2, 2023年4月10日) が含まれるので、先ほど取得したはずのユニークでないレコードが再度取得され、このユニークでないレコードは51件以上存在するのでカーソルも再度 (2023年5月, 4, 2, 2023年4月10日) に設定されます。これ以降はどれだけページを次に遷移をさせても同じ情報が取得され続けます。このようにしてページネーションロジックはエラーなく動作しているもののページが遷移できないバグに陥りました。このバグを発生させないためにはカーソルの値が常にユニークでなければならないので、今回このバグの解決策としてとった対応は、カーソル (month, status1, status2, created_at) にレコードごとにユニークな値である id カラムを created_at の代わりに含めて (month, status1, status2, id) とすることで、カーソルが重複してしまうレコードが存在しないようにしました。バグからの学び今回の実装でよくなかったところは、ページネーションで利用されるカーソルにユニークなカラムが含まれていなかったことはもちろんなのですが、 created_at にレコード作成日より大きな意味を持たせてしまったことにあると考えています。ページネーションロジック実装時には created_at に対してカーソルで利用するユニークなカラムという役割を持たせましたが、データマイグレーションを行う人は created_at にそのような役割があるということが認識することができず、 created_at が同じ値となるようにレコードの一括挿入を行いました。一括挿入時以外においては created_at が重複することはないと仮定したとして（実際には重複することが十分考えられます）カーソルとして利用はできそうです。しかし、一般的に作成日として認識されているカラムに対してそれ以上の意味を持たせることで、そのカラムの使い方に齟齬が生じ、それが原因となって今回のようにバグが発生することが考えられます。カラムの使い方に限らず、一般的な利用方法について共通の認識があるものに対してどうしても特別な意味を持たせたいときには、ドキュメントやコメントによってその意図を伝える方法が考えられます。しかし、利用者がそのドキュメントを確認して実装者が想定する意図を汲み取ってくれるとは限りませんし、そもそもそれを認識しなければならないという利用者への不要な負担を強いる状況を発生させています。よって特別な意味を持たせることは避けるべきであり、意味を持たせる用の項目を別で新たに定義するべきだと学びました。まとめこの記事では、メルペイの管理ツールのページネーションに発生したバグの概要、原因、そこからの学びを紹介しました。明日の記事はBackendエンジニアの@komatsuさんです。引き続きお楽しみください。

株式会社メルカリ

2023/06/07

Rust製TypeScriptコンパイラstcの現状と今後

この記事は、 Merpay Tech Openness Month 2023 の2日目の記事です。メルペイFrontendエンジニアの @togami2864 です。普段はPartner Platformというチームで加盟店申込みフォームや審査・管理を行うためのMerchant Supportツールの開発・運用を担当しています。本記事ではRust製TypeScriptコンパイラであるstcについて筆者の観測範囲での概要、開発状況、課題等を紹介します。なお、内容は全て2023年5月時点のものです。また、本記事の一部は Node学園 41時限目書籍についてで発表したものと重複していることをご了承ください。概要 stcは2022年10月にオープンソース化されたRust製のTypeScriptコンパイラです。 https://github.com/dudykr/stc 製作者はRust製のトランスパイラ swc の作者である kdy1氏で、Rustとparallelな解析によってTypeScriptのビルドとイテレーションを短縮して DX を改善することを目的としています。 1 また、tscの動作に準拠したコンパイラ(drop in replacement)を目指すという立場をとっており、tscの挙動を仕様として追従していく予定です。一時はRustの採用を諦め、Goで開発していた時期もあったようですが、最終的にはRustで作ることを決定しました。 2022/01/26 元々Rustで作っていたが、tscが多くの共有可変性やGCに依存していることを理由にRustの採用を見送り。ZigとGoで実験した結果Goを採用 2 2022/10/10 tscを実直にGoで行ごとに移植していたものの、量が膨大すぎるためTypeScriptコンパイラのコードを行ごとにGoに変換し、コンパイラを生成するコンパイラを考案 3 2022/10/27 Goを使っているとはいえ、コンパイラを通して生成したGoのコードには非効率なものが多く含まれること、不要な部分の移植も必要なため結局Rustに戻すことを決定 4 移植難易度の高さ言うまでもなく、tscの他言語への移植は非常に困難で挑戦的なプロジェクトです。その主な理由の一つは、他のプログラミング言語と異なり、TypeScriptには明確な仕様書が存在しない点です。 5 そのため、stcはtscの挙動を仕様とみなしています。また、開発に際しては以下の3つのリソースを参考にしています。 1. 機能が追加された時のPRを見る TypeScriptには、基本的な型に加えて、conditional types、mapped types、template literal typesといった独自の型が存在します。これらの機能に関する詳細な説明やエッジケースはPRに書いてあります。ちなみに大きな機能追加のほとんどはTypeScriptの共同創案者である Anders Hejlsberg氏のものです。彼のPRは詳細な説明を書いている上に、テストケースも豊富に書いているため非常に重要です。例: conditional types unknown type variadic tuple 2. テストケースを参考にする TypeScriptのリポジトリには、 tests/casesディレクトリに多数のテストケースがあります。これらのテストケースの入力・出力とコメントを参考にして開発が進められます。また、stcではcompilerとconformanceディレクトリ内のテストケースを流用してテストが実施されています。 3. tscのソースコードとコメントを読み解くこれが最も確実な方法でありながら、非常に高難易度です。TypeScriptのコンパイラのコードベースは10年以上にわたる開発が続けられているため巨大かつ複雑です。 https://twitter.com/kdy1dev/status/1652531146138464259 結構有名な話ですが型検査のコードがあるchecker.tsのみでファイルサイズは約2.7MBあり、GitHub上で表示できません。 GitHub上のchecker.ts 引用： microsoft/TypeScript 仕組み次のようなシンプルなTypeScriptコードに対し、型チェックを行うとしましょう。 const foo: number = 1 + 1 定数fooを宣言し、型注釈としてnumber型を指定しています。値として1 + 1を代入しています。型チェックを行うためにまずソースコードを字句解析、構文解析を通してASTにする必要があります。stcではTypeScriptのコードをASTにするためのlexerとparserは swc を使っています。あくまでstcが担当するのは型チェックのみです。そこで生成されたswcのASTを使って型検査を行ないます。簡略化したASTは次のようになります。 stcでは Visitor pattern を実装しています。 Visitorとして Analyzerという構造体が用意されており、各ASTのタイプに対応するvisitメソッドが実装されています。ASTをたどりながらAnalyzerに実装されている操作を呼び出し、そのタイプごとに独自の処理を行います。このサンプルコードでは、単純に型注釈に対して右の式の結果の型が代入可能であるか（つまり部分型であるかどうか）をチェックします。明示的な型注釈により、変数の型がnumberと判断されます。次に式1 + 1ですが、BinaryExpressionに到達したときに演算子が+であることがわかります。その後、leftとrightの式の型が分かれば、結果がどのようになるかチェックできます。もし+演算が適用できない型同士であれば、ここでエラーが出されます。今回は両方ともnumber型の値なので、式の結果もnumber型になることがわかります。 number型に対してnumber型は代入可能ですから無事に型チェック完了です。現在の開発状況 stcは現在TypeScript5.0のブランチのconformance testをもとに開発されています。基本的な型、構文、演算子、builtin typesのサポート基本的な型に加え、Generics、オーバーロード、mapped types、conditional typesといった高度な型もサポートしており、2023年4月現在TypeScript4.9のsatisfies operatorまでサポートしています。また、ES2022までのbuiltin typesの解析が可能です。 tscとの互換性 stcはTypeScriptとの互換性を重視して開発されています。そのため、TypeScriptとの動作の違いを把握することが重要です。そこで、stcのリポジトリには tsc-stats.rust-debug というファイルが用意されています。 Stats { required_error: 3538, matched_error: 6497, extra_error: 771, panic: 74, } このファイルでは、本家tscが出力した結果とstcが出力した結果を比較して、エラーの一致数やパニックの発生数などを集計しています。tscのリポジトリからコピーした/conformanceディレクトリ内のテストケースを使って集計されています（stcにはconformanceテスト以外にもテストケースがありますが、このファイルの数値には含まれていません）。 required_error (false-negative) これは、tscがエラーを出しているのに対して、stcがエラーを出していないケースの数を示しています。現在、3538箇所存在しています。この値はできるだけ減らしたいものです。 matched_error (true-positive) これは、tscとstcの両方が正しくエラーを表示できている箇所の数を示しています。現在、6497箇所存在しています。この値はできるだけ増やしたいものです。 extra_error (false-positive) これは、tscではエラーを出していないのに、stcだけが誤ってエラーを表示している箇所の数を示しています。この値は最優先で減らすべきです。現在、771箇所存在しています。理想的には0になってほしい値ではありますが、現状では多くのエッジケースが含まれており、どこまでサポートするかは今後の課題となります。 panic この項目は、panicによってプログラムが終了するケースの数を示しています。これらのケースは主にparser (swc) の問題や、解析中のオーバーフローが原因となっています。これらの数値は、４月まで https://stc.dudy.dev/ で週に1回進捗が共有されていました。しかし、最近の大きなタスクや容易に修正できる部分がほぼ解決されたため、更新頻度が月1回に変更されています。 @typesパッケージの解析 @types/node や @types/react といった有名なツールの型定義ファイルは、普段の開発でほぼ必須となります。stcも実用段階に達するためには、これらのパッケージを解析できることが必須でしょう。ただし、namespaceを使用している部分が並列解析できなかったり（特に@types/nodeはnamespaceを多用している）、単純なプロパティの多さからくるデバッグの難しさなどの理由で、まだ十分な進捗がありません。未対応のケース現状では、基本的な型の多くは解析できますが、対応できていないケースも存在しています。例): https://github.com/dudykr/stc/blob/7c76ed2314a82040efba2f82db951eee6c2c88bb/crates/stc_ts_type_checker/tests/conformance/controlFlow/controlFlowAliasing.ts#L6-L14 // @strict: true // @declaration: true // Narrowing by aliased conditional expressions function f10(x: string | number) { const isString = typeof x === "string"; if (isString) { let t: string = x; // 本当はエラーにならないのにTS2322が表示 } else { let t: number = x; //　TS2322 } } 変数xがif句、else句内でそれぞれnarrowingされることが期待されますが、現在のstcではif-else句内でもxを(string | number)と判断しています。そのため、 TS2322: Type '(string | number)' is not assignable to type 'number'. というエラーが誤って表示されます。おそらく、式typeof x === "string"の結果の型を判定する際に、その式がifステートメントの条件として使用されていない場合、変数xをnarrowingする処理が行われていないものと思われます。このようなfalse-positiveケースが多数存在しており、特にclass構文周りではfalse-positiveが多いようです（メンバーやメソッドなどの解析の順番を決めるのが難しいため）。 false-positiveをどこまで妥協するか false-positiveは極力減らすべきです。しかしながら、false-positiveの中には現実的なユースケースとして本当に現れるのかというケースも大量にあります。例えば次のコードは現在のfalse-positiveのケースの一つです。 https://github.com/dudykr/stc/blob/main/crates/stc_ts_type_checker/tests/conformance/classes/members/privateNames/privateNameComputedPropertyName3.ts // @target: esnext, es2022, es2015 class Foo { #name; constructor(name) { this.#name = name; } getValue(x) { const obj = this; class Bar { #y = 100; [obj.#name]() { // <----------- Umimplemented return x + this.#y; } } return new Bar()[obj.#name](); } } console.log(new Foo("NAME").getValue(100)); TypeScriptのコードとしては不正ではないものの、重箱の隅をつついてくるようなfalse-positiveのテストケースが大量に存在しておりそれらをどう扱うかははっきりしていません。今後の動きまだまだ開発途中であり、決まっていることは少ないですが、アルファ版へのロードマップは https://stc.dudy.dev/docs/roadmap で公開されています。 assign ruleの改善 tscの挙動を仕様とし、互換性や@typesパッケージの解析のために改善が続けられるでしょう。またGenerics推論の改善や解析順序の改善が予定されています。 VSCode拡張 2023年4月に開発が始まったようです。現在は開発者向けのVSCode拡張機能の開発が進行しています。開発中のVSCode拡張機能引用： This week in stc, 23 独自の構文拡張はあり得るか（筆者の意見ですが）非常に可能性は低いと考えられます。なぜなら、作者のkdy1氏は標準遵守の意識が強く、 swcでもその姿勢を維持しているからです。また、 bun がJSXの独自構文を導入した際にもかなり難色を示していました。 https://twitter.com/kdy1dev/status/1609013152590725120?ref_src=twsrc%5Etfw%7Ctwcamp%5Etweetembed%7Ctwterm%5E1609013152590725120%7Ctwgr%5Ed9b51ff7ef2db59201ba768191816a2788474fff%7Ctwcon%5Es1_&ref_url=https%3A%2F%2Fkdy1.github.io%2Fpost%2F2023%2F2%2Fstc-ethics%2F 独自の破壊的変更によるコミュニティの混乱を避けるため、stcがTypeScriptに独自の拡張を導入する可能性は非常に低いと考えられます。 6 まとめ stcの概要について紹介しました。高速なtscと聞くと非常に魅力的に聞こえますが、まだ鋭意開発中であり、うまくいくかどうかはtscの複雑さも相まって全くもって未知数です。また、実際に高速に動作するのか正確なベンチマークが用意されていないため、その点も確認できません。 7 しかし、swcのASTを中心としたエコシステムの一員として、個人的には非常に期待しています。脚注 [1] Rewriting TypeScript in Rust? You’d have to be… https://www.totaltypescript.com/rewriting-typescript-in-rust [2] I’m porting tsc to Go https://kdy1.dev/posts/2022/1/tsc-go [3] Status update of my tsc port https://kdy1.dev/posts/2022/10/tsc-port-status [4] Open-sourcing the new TypeScript type checker https://kdy1.dev/posts/2022/10/open-sourcing-stc [5] 正確にいうと、TypeScript v1.8までの仕様書は存在しています。しかしながら、それ以降の更新はなくこのissue を見る限りほぼ放置されていると思って良いでしょう。 [6] stc의 윤리적 문제 https://kdy1.github.io/post/2023/2/stc-ethics [7] csstypesの解析がtscの57倍高速であったという報告や、@types/reactの解析にわずか0.174秒しかかからなかったという報告があります。これらから期待はできますが、実行環境や条件が明確でないため、参考程度に留めておくのが良いでしょう。

株式会社メルカリ

2023/06/06

GoによるSQLクエリテストの取り組み

この記事は、 Merpay Tech Openness Month 2023 の1日目の記事です。背景メルペイのバックエンドエンジニアのa-r-g-vとsminamotです。私達はメルペイ加盟店の管理システムを開発しているチームに所属しています。私達のチームには、複雑な条件を持つBigQueryのSQLクエリがいくつか存在しています。例えば、加盟店管理に関する費用計算などの計算クエリのように、外部環境の変化によって要件が定期的に変更され、マイクロサービス化などのシステム化が難しいクエリがあります。このようなクエリは複雑であるだけでなく、テスタビリティにも問題がありました。そのため、開発者がテストを実施することが困難になっており、クエリの変更を安心して行うことができない状態にありました。クエリの複雑性抽出条件の複雑さと複数のマイクロサービスへの依存により、クエリが複雑になっていました。抽出条件の複雑さ契約条項に基づく複雑なビジネス要件が、クエリの複雑さを増す要因となっていました。例えば加盟店管理費用を計算するビジネス要件においては、正しく費用を計算するために審査通過日、加盟店獲得後の決済情報、決済用QRコードの要否のような情報を組み合わせてクエリを行う必要があります。このような条件がクエリを複雑にしているのです。複数のデータベースへの依存クエリが複数のマイクロサービスのデータベースを横断して参照することが、複雑さを増していました。メルペイではマイクロサービスアーキテクチャを採用しており、業務ドメイン単位でサービスが分割されています。例えば加盟店の申込み、審査、事業者の情報、決済、QRコード配送などは、それぞれ別のマイクロサービスとして分割されています。一方で前述した管理費用を計算するためには、これらのデータベースやテーブルを横断的に参照する必要があります。また、依存しているマイクロサービスの中には、別のチームが管理しているものもあります。このような、依存するテーブル数の多さがクエリを複雑にさせていました。課題クエリに対する開発者テストの煩雑さ開発者テストを煩雑にしていたのは主に以下2つの点でした。一つ目はテストデータの投入が煩雑であったことです。複数のマイクロサービスのテーブルに依存しているために、投入する対象のテーブルの数や投入データ行数が多くなってしまっていました。また、クエリの抽出条件が複雑であるため、必要なテストパターン数が多く、そのためデータとして投入しないといけない量も多くなっている課題がありました。二つ目の課題は、手作業が多いことです。実際のテスト環境のテーブルに対して、マイクロサービスが生成していないデータを投入することは問題です。そのため、クエリをテストするために新しくテーブルを作り、そこにテストデータを投入した後に、そのテーブルを使用するようにクエリを書き換え、クエリ実行と結果検証・クリーンアップという手順を行う必要があります。これを毎回のクエリ改修や、テストパターン毎に行うのが大変であるという課題がありました。クエリに対する自動テストの不存在クエリに対する自動テストの欠如も課題でした。デグレード（機能低下）を検知できる自動テストスイートが存在しませんでした。そのため、クエリの変更を安心して行うことができない状況でした。解決策この問題を解決するために、Go言語を用いてクエリに対するユニットテストを実装する仕組みを作りました。主に、以下の2点を実施しました。 Goのテストコードの中でテストデータを投入し、BigQuery上でのSQL実行を簡単に行えるように、専用のヘルパー関数を作成したテストデータ作成を支援するために、クエリからGo構造体を自動生成するツールを作成したこれらにより、クエリの実行結果が意図通りなっていることをGo言語のtesting packageを使って可読性・メンテナンス性が高い形でテストできるようになりました。動作イメージ全体の動作イメージを説明します。クエリのテストはGoのテストとしてテストケースを実装するようにしました。テストケースごとに、以下を実行します。テスト対象のクエリが利用しているテーブルを抽出し、テスト用データセット配下にテーブルを1件ずつ作成します。テストケースで指定されているテストデータを、テスト用テーブルに挿入します。テスト対象のクエリのFROM句に書かれているテーブル名を、上記で作成したテスト用テーブルを利用するように書き換えます。書き換えたクエリを実行し、期待している結果と同じか確かめます。テストケースのクリーンアップ動作で、作成したテスト用テーブルをすべて削除します。また、テストケースからのデータ投入を支援するために、クエリが利用しているテーブルを Goの構造体として自動生成する仕組み https://github.com/ginokent/bqschema-gen-go をベースに作成しました。具体的には、同一リポジトリに存在する全てのSQLファイルを読み、コード生成を行うコマンドを作りました。コマンドは2つの構造体を生成します。クエリが利用しているテーブル一覧を表すGo構造体クエリが利用しているテーブルを全列挙し、対応関係をGoの構造体として生成します。利用テーブルの列挙は正規表現を利用し、FROM句をパーズして行います。クエリが利用しているテーブル定義に対応するGo構造体クエリが利用しているテーブルのスキーマ定義を実際のステージング環境のBigQueryテーブル定義を参照し生成します。例えば、以下のようなクエリがあったとします。 SELECT SUM(Charge.Amount) As TotalAmount FROM `querytest-demo.user_service.Users` Users INNER JOIN `querytest-demo.payment_service.Charge` Charge ON Users.UserID = Charge.UserID WHERE Users.ReferralType = "ORGANIC" ここから、コード生成コマンドを実行すると、以下のような2つの構造体が生成されます。 // Code generated by bigqueryschema; DO NOT EDIT. package bigqueryschema import "cloud.google.com/go/bigquery" // Charge is BigQuery Table `querytest-demo:payment_service.Charge` schema struct. type Charge struct { ChargeID bigquery.NullString `bigquery:"ChargeID"` UserID bigquery.NullString `bigquery:"UserID"` Amount bigquery.NullInt64 `bigquery:"Amount"` Status bigquery.NullString `bigquery:"Status"` CreatedAt bigquery.NullTimestamp `bigquery:"CreatedAt"` UpdatedAt bigquery.NullTimestamp `bigquery:"UpdatedAt"` } // Users is BigQuery Table `querytest-demo:user_service.Users` schema struct. type Users struct { UserID bigquery.NullString `bigquery:"UserID"` Name bigquery.NullString `bigquery:"Name"` ReferralType bigquery.NullString `bigquery:"ReferralType"` CreatedAt bigquery.NullTimestamp `bigquery:"CreatedAt"` UpdatedAt bigquery.NullTimestamp `bigquery:"UpdatedAt"` } // Code generated by gentestqueries; DO NOT EDIT. package testqueries import ( "context" "testing" "github.com/stretchr/testify/require" "github.com/a-r-g-v/querytest-demo/src/bigquery" "github.com/a-r-g-v/querytest-demo/src/bigqueryschema" "github.com/a-r-g-v/querytest-demo/src/querytest" ) var QueryQueriesTotalUserAmount = querytest.NewQuery("queries/total_user_amount.sql") type QueriesTotalUserAmountParams struct { Charge []bigqueryschema.Charge Users []bigqueryschema.Users } func (i *QueriesTotalUserAmountParams) ToMap() map[string]interface{} { return map[string]interface{}{ "querytest-demo.payment_service.Charge": i.Charge, "querytest-demo.user_service.Users": i.Users, } } func QueriesTotalUserAmount(t *testing.T, bq *bigquery.Client, i *QueriesTotalUserAmountParams, options ...querytest.Option) *querytest.QueryTest { t.Helper() qt, err := querytest.NewQueryTest(t, context.Background(), bq, QueryQueriesTotalUserAmount, i.ToMap(), options...) require.NoError(t, err) return qt } この 2つのファイルを利用して、コーダーは以下のようなテストコードを書くことができます。 package test import ( "context" "fmt" "testing" "cloud.google.com/go/bigquery" "github.com/a-r-g-v/querytest-demo/src/bigqueryschema" "github.com/a-r-g-v/querytest-demo/test/testqueries" "github.com/google/uuid" "github.com/stretchr/testify/assert" "github.com/stretchr/testify/require" ) func TestAmount(t *testing.T) { userID := uuid.NewString() qt := testqueries.QueriesTotalUserAmount(t, bigQueryClient, &testqueries.QueriesTotalUserAmountParams{ Charge: []bigqueryschema.Charge{ { ChargeID: bigquery.NullString{}, UserID: ValidString(userID), Amount: ValidInt64(1000), Status: bigquery.NullString{}, CreatedAt: bigquery.NullTimestamp{}, UpdatedAt: bigquery.NullTimestamp{}, }, }, Users: []bigqueryschema.Users{ { UserID: ValidString(userID), Name: bigquery.NullString{}, ReferralType: ValidString("ORGANIC"), CreatedAt: bigquery.NullTimestamp{}, UpdatedAt: bigquery.NullTimestamp{}, }, }, }) result, err := bigQueryClient.RunQuery(context.Background(), qt.Query()) require.NoError(t, err) assert.Equal(t, 1000, result[0]["TotalAmount"]) } クエリテストの動作デモ効果この仕組みを導入したことにより、以下の効果がありました。開発エンジニアによるテストへの効果開発者テストの実施が容易になり安心してクエリを変更できるようになったテストデータのコーディングに型の支援を得られるようになった列名やデータ種別の誤指定の防止 IDEによるコード補完の恩恵テストデータの共通化やテーブルテストの活用が可能になり差分テストケースの追加が簡単になった境界値のテストケースのような 1つの値だけを変更してテストを行うというようなケースの追加が簡単になった共通化によりクエリに対するテストを網羅的に実施するコストが低下した開発者テストケースの蓄積によりデグレート検知できるようになった自動化されたテストケースが蓄積されたことによりクエリ変更に際するデグレートの検出が簡単に行えるようになったより安心感を持ってクエリ変更を行うことが可能になった QA エンジニアによるテストへの効果テストデータの作成が効率化された関係するマイクロサービスが多いこともあり、テストデータを作成するためにかなりコストがかかっていました。例えばテストしたいパターンが100通りある場合、手動でテストデータを100通り作成する必要があったのですが、この仕組みによりQA エンジニアはテストデータのパターンを考え、テストデータの投入をお願いするという形になりテストデータ作成にかかっていた工数はかなり削減されました。 ※今後はQAエンジニアでテストデータ投入まで行えるようになる予定です。より精度の高いテストが行えるようになった今まではテストデータの作成が困難で諦めていたテストパターンについてもテストが行えるようになりました。例えば時間の条件として2023年4月1日 0:00:00という条件があった場合、2023年3月31日 23:59:59と2023年4月1日 0:00:00のテストデータを作成する必要があります。ただ、こういったテストデータを手動で作成することは不可能に近く、厳密な境界値でのテストは諦めていました。この仕組みを活用することでこのようなテストデータの作成も容易になり、今まで諦めていたテストパターンについてもテストが行えるようになったため、より精度の高いテストが行えるようになりました。導入後の課題上記のクエリテストの仕組みを導入することで複雑なクエリに対してもテストを行うことができ、クエリの修正時も安心感を持って修正作業を行うことができるようになりました。一方でテストコードが拡充していく中で次のような問題に直面しましたテストケースが増えることによるテスト実行時間の増加テスト実行時間を抑えるためにテストの並列化を行ったことでBigQueryの最大同時実行クエリ数を超える割り当てエラーの発生エミュレータの導入上記の課題を解決するために、BigQueryのエミュレータを導入することにしました。エミュレータを利用することで、テストケースやテスト内で実行するクエリ数が増えても、BigQuery自体にリクエストが行われないため、安定したパフォーマンスが期待できます。 BigQueryでは公式のエミュレータが提供されていません。そこでメルペイ Architect の@goccy により作成されOSSとして公開されている bigquery-emulator を利用しました。 bigquery-emulator はGoで実装されたBigQueryのエミュレータサーバです。betaプロジェクトではありますが、すでに多くの機能が実装されています。テストと同一のプロセスでエミュレータを起動することができるため、テストの前処理としてエミュレータサーバを起動し、BigQueryクライアントのリクエスト先に起動したエミュレータサーバを指定するように変更しました。 package test import ( "context" "testing" "cloud.google.com/go/bigquery" "github.com/goccy/bigquery-emulator/server" "github.com/goccy/bigquery-emulator/types" "google.golang.org/api/option" ) func NewClient(t *testing.T, useBQEmulator bool, projectID, datasetID string) (*bigquery.Client, error) { t.Helper() var opts []option.ClientOption if useBQEmulator { bqServer, err := server.New(server.TempStorage) if err != nil { return nil, err } if err := bqServer.Load( server.StructSource( types.NewProject( projectID, types.NewDataset( datasetID, ), ), ), ); err != nil { return nil, err } ts := bqServer.TestServer() t.Cleanup(ts.Close) opts = append(opts, option.WithEndpoint(ts.URL), option.WithoutAuthentication()) } ctx := context.Background() return bigquery.NewClient(ctx, projectID, opts...) } エミュレータの導入により、BigQueryの最大同時実行クエリ数を超える割り当てエラーを起こすことなくテストを実行できるようになり、テストの実行速度も改善され導入前後で約55%のテスト実行時間の削減が実現できました。今後の展望今後、さらに追加したい機能や応用の方法については以下の3つを考えています。 QAテストケースの置き換えの検討クエリテストをQAフローにも導入することによりQAテストにおけるテストデータ投入の効率化ができましたが、現状はQAチームが作ったテストケースをもとにエンジニアがデータ投入用のテストロジックを作成・実行し、再度QAチーム側でそのデータを利用した確認を行っています。 QAテストにおいてもテストケースに応じて柔軟かつより容易なテストデータ投入からQAテストの実施、テストケースのメンテナンスをQAチーム側で完結できる仕組みを作成したいと考えています。クエリテストのケース網羅性可視化クエリのテストケースの網羅性を可視化するためのメトリクスを導入したいとチームメンバーで議論しています。 Goの通常のテストでは、コードカバレッジ等のテストケース網羅性を計算・可視化するためのメトリクスを簡単に利用できます。 SQLクエリに対してMC/DCカバレッジを使用する研究があり、類似の仕組みを本手法にも導入していきたいです。投入テストデータの正しさの検討投入テストデータとマイクロサービスが実際に生成するデータに不一致がある場合、テストの意味がなくなってしまいます。現状はクエリテストに利用するテストデータを作成する際、依存マイクロサービスの振る舞いを理解してデータを作成しています。この不一致のリスクを最小限にするために、データインターフェースの明文化を検討したいと考えています。

株式会社メルカリ

2023/05/31

「Merpay Tech Openness Month 2023」開催のお知らせ

こんにちは。メルペイ Engineering Engagement チームの mikichin です。メルペイは単なる決済サービスではなく、新しい「信用」を基盤として、それに基づく循環型社会、なめらかな社会を創ることを目指しています。そのためには、お客さま・企業・金融機関など、さまざまなステークホルダーに対して「OPENNESS」な姿勢で向き合うことで、あらゆる世の中のお金の流れを、もっと身近なものに変えていきたいと考えています。「Merpay Tech Openness Month」は、技術も「OPENNESS」にしていこうという考えのもと、2019年にスタートした企画です。メルペイのエンジニア組織がテクノロジーでお客さまの課題解決を実現することを大切にし、その挑戦の中で得た知見を6月6日から約1ヶ月間に渡り毎日公開していきます！技術、開発設計や思想、組織ストラクチャー、Tips、その他最近の取り組みなど、幅広くお伝えします。 2019年はこちら 2020年はこちら 2021年はこちら 2022年はこちら ▼公開予定表（こちらは、後日、各記事へのリンク集になります） Theme / Title Author Go言語によるSQLクエリテストの取り組み @a-r-g-v, @gen(sminamot) Rust製TypeScriptコンパイラstcの現状と今後 @togami2864 ページネーションのバグを解消した話 @yushi0010 社内用GitHub Actionsのセキュリティガイドラインを公開します @goro 新人編集長の技術書典14参戦記 @knsh14 メルペイ決済基盤における Source Payment による決済手段の抽象化 @komatsu メルコイン決済基盤における分散トランザクション管理 @sapuri Terraformモジュールを使ったCloud Spannerの設定標準化の取り組み @t-nakata なめらかなナレッジシェアリング文化を創る @tanaka0325 Resilient Retry and Recovery Mechanism: Enhancing Fault Tolerance and System Reliability @Amit.Kumar 非エンジニアのためのデータ集計環境について @katsukit メルペイ Tech PR が実際にまわしている PDCA サイクル @mikichin お手軽なグラフデータベース活用 @orfeon 与信モデル更新マニュアルを作成した話 @fukuchan テストコードの改革を進めている話 @r_yamaoka Cloud Tasksで外部APIへの流量制御をするときに考えたこと @panorama Designing iOS Screen Navigation for Best UX @kris Cloud ComposerとSecret ManagerでAirflowをセキュアにSlack連携する @champon Goでテスト用のフィクスチャを生成する @youxkei , @fivestar New Member として見たMerpay Tech Asset First Impression @nu2 TBD @kimuras どんな知見が得られるのか、毎日が楽しみです。 Merpay Tech Openness Month 2023 の1日目は、BackendEngineer @a-r-g-v と @gen(sminamot) が執筆予定です。ひとつでも気になる記事がある方は、この記事をブックマークしておくか、エンジニア向け公式Twitter をフォロー＆チェックしてくださいね！

株式会社メルカリ

2023/05/26

メルカリの2023年技術研修DevDojoの資料と動画を公開します！

こんにちは！メルカリ Engineering Office チームの@aisakaです。メルカリのエンジニア組織は、メンバーが相互に学び合い、メンバー自身が自走し、成長できる組織を目指し、「互いに学び合い、成長し合う文化」の醸成を行っています。こうしたメルカリの「互いに学び合い、成長し合う文化」を体現する仕組みの一つが、社内技術研修「DevDojo」シリーズです。昨年から、一部のDevDojoシリーズを外部公開( 参考 )していますが、今回さらに新しいコンテンツを公開することになりました！今日のブログでは公開するセッションとその内容をご紹介します！ Learning materials Website 技術研修DevDojoとは DevDojoは、技術開発を学ぶ場として「Development」と「Dojo(道場)」をかけ合わせて名付けられた完全In-houseの社内研修シリーズです。シリーズを構成するコンテンツは多岐にわたり、メルカリ、メルペイのエンジニアの知見やアイディアが詰め込まれたものとなっております。(研修の全体像や概要はこちらのブログで紹介しています。) 毎年4月と10月に実施しており、今年も4月に新卒社員が多く入社したタイミングで研修を行いました！また、研修は社内のメンバーであれば誰でも受講できるようにオープンにしており、今回も様々な組織に所属するメンバー50名ほどが参加しました。公開コンテンツはこちら！メルカリのエンジニア組織は、半数以上が海外籍社員です。こうした背景からDevDojoの講義は、半分は英語、半分は日本語で行われるように調整しています。すべての研修に同時通訳チーム(GOT)が入り語学のサポートをしています。それでは、新たに公開したメルカリ、メルペイの8コンテンツをご紹介します！ Introduction to Machine Learning (メルカリのMachine Learning入門) メルカリのユニークな機能の一つである写真検索機能は、膨大なデータをAIに機械学習させることで実現しています。このコンテンツでは、一般的な機械学習の考え方や、AI・MLの基礎知識について解説しています。また、メルカリでは実際にMLをどう実装しているのか、実際のプロジェクトについても紹介しています。 Slide英語 Design System for Mobile (メルカリのDesign System Mobile) 持続的に一貫したサービス体験をお客さまに提供できるよう、メルカリではDesign Systemにとても力を入れています。このコンテンツでは、モバイルにおけるDesign Systemの基礎知識から、メルカリで実際に行っているデザインの作り方、運用方法について解説します。 Slide英語 Introduction to Mobile Development (メルカリのモバイル開発入門) より使いやすいサービスを迅速に提供していくため、メルカリのモバイル開発はリリースサイクルや運用プロセスのルール化を行っています。このコンテンツでは、メルカリのモバイルアプリ開発において実際に運用している開発サイクルとプロセスについて解説しています。 Slide英語 Successful Scrum Team at Mercari (成功するスクラムチームとは) メルカリのプロダクト開発に取り入れられているスクラム開発 (Scrum) とはアジャイル手法のひとつで、少人数のチームに分かれ短期間の開発サイクルをくり返し行うフレームワークです。このコンテンツでは、基本的なスクラムの考え方と、メルカリにおける開発プロセス、そしてその目的を解説しています。 Slide日本語 / Slide英語 Introduction to Design Doc (メルカリのDesign Doc入門) プロダクト開発に必要なDesign Docの基礎知識を解説し、メルカリが今実際に使っているテンプレートを紹介します。また、良いDesign Docの書き方やメルカリでDesign Docをどのように使っているかについても説明しています。 Slide英語 Introduction to Authentification Platform (メルペイの認証基盤入門) 決済プラットフォームであるメルペイは、安全に外部通信を行うために認証と認可が必要です。このコンテンツでは、アカウントと認証、AuthN/AuthZに関する基本的な知識を解説し、メルカリグループの認証基盤について紹介しています。 Slide英語 KYC in Action (メルペイにおけるKYCの活用) メルペイは決済サービスを提供しているため、メルペイを利用して取引を行うお客さまには本人確認を実施しています。このコンテンツでは、KYCの基本的な知識やKYCの種類、メルペイでの活用について解説しています。 Slide英語 Quality Assuarance Policy (メルペイ品質保証ポリシー) 安心安全に早い開発サイクルでサービスを持続的に提供していくためには、Quality Assuaranceは非常に大切です。このコンテンツでは、どのようなQAのプロセス、ツール、テクニックで問題を迅速に特定し、解決しているのかを解説しています。 Slide日本語 / Slide英語最後に研修資料を社内だけでなくコミュニティに還元し、日本、海外のエンジニア業界全体の活性化に貢献できるよう、引き続きDevDojoシリーズのアップデートを行っていきます。今回は講義の箇所をメインに公開しましたが、将来的にはHands-onのRepositoryなど実際に研修でHands-on練習用につかっているコードなども公開していきたいと思っております。最後になりますが、社内で研修を実施し、そしてコンテンツを一般公開するには、公開箇所の選定、編集、ブランディング、レビュー等、様々な方々の協力が不可欠です。今回のコンテンツ公開にも、多くのエンジニアの方々、チームメンバー、セキュリティチーム、知財チーム、そしてデザインチームの協力があって実現できました。また、メルカリグループでは、積極的にエンジニアを採用しています。ご興味ある方、ぜひご連絡お待ちしております！ Open position – Engineering at Mercari

株式会社メルカリ

2023/05/16

メルカリの新卒エンジニアはどう過ごす？2023年新卒研修の全貌を公開！

こんにちは！メルカリ Engineering Office チームの@aisakaと、HR Learning and Development チームの@anzuです。メルカリでは、新入社員の方が入社後から立ち上がるまでの期間を短縮するためのオンボーディングサポートをとても重要視しています。よりよいオンボーディング体験を提供していくため、私たちは戦略や仕組みづくりに携わっています。日本では一般的に、春は新卒の方が入社する季節ですが、メルカリでも今年もたくさんの新卒メンバーが国内外から入社してくれました。様々なバックグラウンドをもつ新卒メンバーがチームに配属してすぐに活躍できるよう、HRとエンジニアリング組織が協働して、新卒向けオンボーディング研修を1からデザインして実施しています。今日は、2023年の新卒メンバー向けに実施した新卒オンボーディングをご紹介します！ 2023年新卒オンボーディングを一挙ご紹介！新卒オンボーディングは、大きく分けて、共通研修と技術研修DevDojoの２つに分かれています。メルカリのエンジニアリング組織のYouTubeチャンネルであるGears channel にて、密着取材をしていただいたので、ぜひこちらの動画をご覧ください！ Gears YouTube – 新卒オンボーディング特に力をいれて実施したビジネスマナー研修と技術研修DevDojoをピックアップしてご紹介します！ビジネスマナー研修についてメルカリでは「オンボーディングを大切にしよう。新卒をみんなで育てよう。」というカルチャーが醸成されており、新卒採用も入社オンボーディングにもとても力をいれています。新卒の場合は初めて社会人として働くため、中途に比べてオンボーディングを少し手厚くする必要があると考えており、共通研修として様々な研修や入社オリエンテーションを実施しています。その中でも、新卒ならではの研修として力を入れて実施したのはビジネスマナー研修です。メルカリの社内はとてもフラットでカジュアルな社風が浸透しているのであまりビジネスマナーを意識するシーンが少ないですが、一歩会社の外へ出ると、一般的な日本のマナーが期待されたり、求められることがあります。そのため、社会人として最低限知っておいたほうが良いマナーの型を知識として学ぶ機会を設けています。メルカリを代表する社員として、プロとして働く上で必要なスキルやマインドセットの醸成が目的です。技術研修DevDojoについて技術研修DevDojoでは、専門領域を超え、幅広い知識を学ぶことを目的とし、下記3点を達成できるように構成しています。メルカリ、メルペイで使われている Tech stack を理解することチーム開発やプロダクト開発のフローを理解することメルカリのValue、そして Engineering Ladder を理解し、体現できるようにすること ※Engineering Ladderはエンジニアに期待されるスキルや行動を明文化した指標です。上記の目的を達成するために、メルカリのアプリやWebの開発を支えるClient側からBackendだけでなく、サービスの信頼性を支えるプラットフォーム、データ、インフラのエリア、またプロダクト開発のフローまで幅広くをカバーした構成になっています。これは自分の専門領域だけではなく、広い視野を持って活躍してほしいという期待を持って研修を作っているためです。また、研修は講義形式のものと実際にcodingをするHands-on形式のものを組み合わせて提供しています。講義で習ったものを実際に触ってみることで、理解度をより深められるよう工夫しています。またこちらの技術研修DevDojoのコンテンツは、実際に利用したスライドやビデオの録画をMercari Engineering Websiteで一部を一般公開しています。 Learning materials Website 今年4月に実施したコンテンツは来週公開予定です！お楽しみに！終わりに約1ヶ月かけて新卒研修を実施しました。オンラインとオフラインのハイブリッドで実施したため、出社の際には皆でチームビルディング行うなど、新卒同期ならではのワイワイ感があったこともとても印象的でした。海外ではあまり新卒採用が一般的ではないのですが、日本では新卒採用のカルチャーが根強く残っています。私たちも含めて多くの方が、新卒で入社した会社の同期を長く付き合う特別な存在として大事にされてる方が多いと思います。メルカリの新卒メンバーたちにも、研修やチームビルディングを通して、新卒同士の絆を深め、かけがえのない関係性を構築できる手助けとなれば、作り手としてこんなに嬉しいことはありません。最後になりますが、メルカリグループでは新卒採用やインターンシップに力をいれており、通年で採用活動を行っています。ご興味のある方はぜひご連絡ください。お待ちしております！ Open position – Engineering at Mercari

株式会社メルカリ

コンテンツ

トップイベントマガジンブロググループに関するお問い合わせ

株式会社メルカリ の技術ブログ

コンテンツ

株式会社メルカリの技術ブログ