TECH PLAY

株式会社LIFULL

株式会社LIFULL の技術ブログ

656

プロダクトエンジニアリング部の柴田です。 普段は LIFULL HOME'S の賃貸領域でフロントエンドの開発・設計を担当しております。 今回は LIFULL HOME'S での Web フロントエンドおけるレガシーブラウザ対応の負債解消への取り組みについてご紹介いたします。 背景 現在の LIFULL HOME'S の大枠は 2011 年ころに作られたものであり、当時の CSS3 サポート状況に差異のあるブラウザで表示を担保するには装飾的なパーツはほぼ画像で実装する必要がありました。 例えば、次に示すような枠の装飾はガイド線の外側を 8 つにスライスし、それぞれを background-image として割り当てるような実装を行います。 カードUIのスライス例 < div class = "ui-frame" > < div class = "content" > ... </ div > <!-- 左上〜右下の各フレームのスプライト設置用の空要素 --> < div class = "ui-frame__top-left" ></ div > < div class = "ui-frame__top" ></ div > < div class = "ui-frame__top-right" ></ div > < div class = "ui-frame__left" ></ div > < div class = "ui-frame__right" ></ div > < div class = "ui-frame__bottom-left" ></ div > < div class = "ui-frame__bottom" ></ div > < div class = "ui-frame__bottom-right" ></ div > </ div > 現在では css のみで実現できるデザインであっても当時はこのように手間がかかる実装だったわけですね。 LIFULL HOME'S での課題と対応 リフロー・リペイントの発生 情報をよりリッチに表現するため LIFULL HOME'S でもこの手法を広くサービス内の UI で適用してきました。 具体的には JavaScript で特定のセレクタを持つ要素に対し、各スプライトの背景を設定した空の DOM を挿入する処理を行うことで、実装時にクロスブラウザを意識することなく少ない工数でリッチな UI を実現できるようにしていたのです。 しかし、これには リフロー・リペイントを発生させ、対象要素の数が増えるごとに比例的にレンダリングコストを増やしてしまう という大きな問題がありました。 この問題は特に物件一覧ページ上が顕著で、それぞれの紹介物件ごとにこの実装を利用したパーツが使われていたため Lighthouse 上でも大きくパフォーマンススコアを下げる要因となっていました。 物件一覧ページの例。赤太枠で示した箇所でリフローを起こしており、このページ全体では約 30 箇所利用されていた。 対応 当時各ブラウザ間の CSS3 の実装足並みが揃っていなかった名残が現在の技術的負債となっていたため、これを JavaScript を利用せず、完全に CSS に置き換える対応をとりました。 私は主に賃貸領域のフロントエンド開発を担当しているのですが、このパーツは全マーケットで広く利用されていることもあり、特に以下に注意を払い対応をすすめました。 追加したプロパティ起因でレイアウト崩れが起きないこと 全マーケットを通してのデザイナー・企画職との合意 結果 この改修をリリースしたことで、ページの表示速度を大きく向上することができました。 Lighthouse で計測した具体的な効果としては Performance スコアを 5.8 ポイント向上 Speed Index において 2.6 秒 の改善 となっており、実際に体感できるレベルでの速度改善となりました。PC から LIFULL HOME'S を利用する際の快適さの向上にも貢献できたかと思います。 利用箇所が多すぎて刷新後のチェックを網羅しきれない課題がありましたが、こちらは全社的にエンジニア・デザイナーにご協力いただいたこともあってデザイン崩れなどが発生することもなくリリースすることができました。 まとめ 聖域をつくらないことが大事 今回実施した改修は技術的な観点ではさして難しくない改善であるといえます。 しかし、長年の運用によって肥大化した View の「どこで壊れるかわからない」という不安から表面的に見える課題であっても聖域化してしまう場合があることを学びました。 特に汎用的に利用される UI であればあるほど解決が難しくなってくると思います。 これについてはエンジニア・デザイナーが簡単にアクセスできるスタイルガイドの運用を開始し、解決と防止に取り組んでいます。 LIFULL HOME'Sのフロントエンド環境にSassが導入されたので色々やった話 技術負債 ≒ 改善の種 この 10 年でフロントエンド は大きく進歩しましたが、取り残されたレガシーコードが LIFULL HOME'S にはまだまだ存在します。 それらを辛さと捉えるのではなく、潰せば DX または UX を向上させられる鉱脈と捉えて着実に改善していけたらと思います。
プロダクトエンジニアリング部の中島です。 今回はフロントエンドのテンプレート部分についての負債やレガシーな機構に対する改善の取り組みについて紹介させていただきます。 背景 LIFULL社のメインサービスであるLIFULL HOME'SのメインリポジトリのサーバサイドはSymfony + Twig(※テンプレートエンジン)の構成を採用しています。 このリポジトリの歴史は古く、2011年頃から開発は行われており、今となってはレガシーな機構であったり、開発体験を損ねる負債的な記述も多くあります。 テンプレート部分で多くみられる問題のうちいくつかをピックアップすると弊社ではこのようなものが悩みのタネになっています 変数などを用いた動的な部分テンプレートの呼び出しによるgrepしやすさの低下 部分テンプレートをロードするときにスコープ制御(Twigだと only属性 )をつけ忘れてテンプレート間依存関係を不透明にしてしまう テンプレートの深すぎる継承関係 負債化してしまったTwig拡張関数の呼び出しが各所にちらばって残っている などなど 新規実装部分にだけに着目しても、レビューによるチェックでこれらを抑える努力はすれど負債コードを誤って参考にした開発は度々あり、レビューの漏れやレビュアー/実装者の経験不足等で徐々にこういった負債は増えていきます。 こういった現状を長年みていると、次第にこれらを「commit-hook等で自動検出する仕組みがほしいな」と感じるようなり、その検知のためにテンプレート(twigファイル)をパースしてTraverseしたいという思いが芽生えてきました。 もしestoolsのようにプログラムを抽象構文木(AST)に変換するParserと、それを探索するTraverser、そのASTからコードを生成するCodegenの 三種の神器 があれば、強引な正規表現に頼ることなく問題コードを検出したり、レガシーな機構をモダンな機構に変換したりすることも可能になります。 github.com こういった思いからLIFULL HOME'SでもTwigのParser/Traverser/Codegenを作成することにしました。 Parserを作成するためのステップ 私の知る限り、界隈では一般?的にこのようなステップをたどる感じになると思います。 字句解析を行う(Lexer) 字句をToken単位にまとめる(Tokenizer) TokenをNode単位にまとめる(Parser) 実コードレベルでそれぞれのステップを見てみるとこんな感じになります 元コード < div class = "sample" > {% spaceless %} < div > {{ a|some_filter(b) }} </ div > {% endspaceless %} </ div > Twigでは {% ~ %} で構文を、 {{ xxx }} で値のプリンティングを表現します。 LexicalAnalyze (字句解析してTokenごとに分解) TokenStream { tokens: [ Token { type: 0, value: '<div class="sample">\n ' }, Token { type: 1, value: '' }, Token { type: 5, value: 'spaceless' }, Token { type: 3, value: '' }, Token { type: 0, value: ' <div>\n ' }, Token { type: 2, value: '' }, Token { type: 5, value: 'a' }, Token { type: 9, value: '|' }, Token { type: 5, value: 'some_filter' }, Token { type: 9, value: '(' }, Token { type: 5, value: 'b' }, Token { type: 9, value: ')' }, Token { type: 4, value: '' }, Token { type: 0, value: '\n </div>\n ' }, Token { type: 1, value: '' }, Token { type: 5, value: 'endspaceless' }, Token { type: 3, value: '' }, Token { type: 0, value: '</div>\n' }, Token { type: -1, value: '' } ], current: 0, filename: '/path/to/twig-tools/sample/twig/017.html.twig' } Parse (TokenStreamからNodeTreeへ) Node { nodes: [ TextNode { value: '<div class="sample">\n ' }, SpacelessNode { body: Node { nodes: [ TextNode { value: ' <div>\n ' }, PrintNode { expr: FilterExpression { node: NameExpression { name: 'a' }, filter: ConstantExpression { value: 'some_filter' }, args: Node { nodes: [ NameExpression { name: 'b' } ] } } }, TextNode { value: '\n </div>\n ' } ] } }, TextNode { value: '</div>\n' } ] } ToAST (NodeTreeをASTとしてJSONフォーマットに変換する) { type: 'Node' , nodes: [ { type: 'TextNode' , value: '<div class="sample"> \n ' } , { type: 'SpacelessNode' , body: { type: 'Node' , nodes: [ { type: 'TextNode' , value: ' <div> \n ' } , { type: 'PrintNode' , expr: { type: 'FilterExpression' , node: { type: 'NameExpression' , name: 'a' } , filter: { type: 'ConstantExpression' , value: 'some_filter' } , args: { type: 'Node' , nodes: [ { type: 'NameExpression' , name: 'b' } ] } } } , { type: 'TextNode' , value: ' \n </div> \n ' } ] } } , { type: 'TextNode' , value: '</div> \n ' } ] } 実装について 上述のサンプルデータでなんとなくそれぞれの役割的なものが見えてきたかと思います。 全てのフェーズをゴリゴリと自前で実装するのは仕様把握などの面で非常に大変ですが、そもそもTwig自体の中にLexer/Tokenizer/Parserの現行実装があるわけで、それを参考にしながら書いて、それに加えて、最終的なNodeをASTとしてJSONフォーマットで吐き出させる機構・そのASTを再帰的に探索するコード、ASTからのコード生成部分だけを作ればいいだけなので実はそこまでチャレンジングな取り組みというわけでもないのです。 TwigのLexerをみてみましょう。 Lexer.php while ($this- > cursor < $this-> end) { ... switch ($this- > state) { case self::STATE_DATA: $this- > lexData(); break; case self::STATE_BLOCK: $this- > lexBlock(); break; case self::STATE_VAR: $this- > lexVar(); break; case self::STATE_STRING: $this- > lexString(); break; ... } } テンプレート文字列を先頭から順次スキャンしていって 構文部分のキーワード の出現をみながらモードを切り替え、それぞれをTokenとして分割していきます。 そうしてできたTokenの集まりをToken Streamというオブジェクト表現にして Parser でNode単位を作っていくわけです。 このNodeのSyntaxはNodeの種類によって変わるので、すべてのNodeのParserを作りきらないといけないわけなのでやや骨がおれますが、これも参考コードとしてTwigの既存のパーサがあるので明けない夜はないという感じで進められるわけです Node一覧(github/twig) また、Twig拡張でNodeを自前で増やしてる方々はそこのParserもかくことになります。 弊社の場合はSymfonyがTwigの拡張をいくつか(3~4個 )作っていたのと、自前で拡張を1~2個かいてたのでその分も書くことにしました。 かかった工数はTraverser{traverse|replace}/Codegen/Spec含めてだいたい半月程度です。 NodeとSyntaxバリエーションの一部 コード自体はまだ公開してはいないのですがこんな感じで動きます。 (TwigのバージョンによってLexer部分が変わるので公開してもあまりoss的に意味ないかなというのが本音です) const { parser, codegen, traverser } = require( '@lifull/twig-tools' ); let template = ` <div class = "sample" > { % spaceless % } <div> { % include '/path/to/partial.html.twig' % }{ # onlyをつけ忘れている # } </div> { % endspaceless % } </div> `; let ast = parser.parse(template); traverser.traverse(ast, { enter(node, parent ) { if (node.type === 'IncludeNode' && !node.only) { console.warn( 'onlyをつけ忘れのinclude nodeがありました。規約違反です!' ); console.warn( '>' , codegen.generate(node)); } } } ) 実行 % node sample.js onlyをつけ忘れのinclude nodeがありました。規約違反です! > { % include " /path/to/partial.html.twig " % } 出力を見るとうまく検知できていることがわかります。 Traverser等のインタフェースはestoolsをとくに参考にして書きました。 おわりに 上述のコードからもテンプレートをAST化してTraverseできるようにすることにより、問題コードの検知や変換等の処理をたった数行でかけるようになったことがわかります。 現在はこの三種の神器(Parser/Traverser/Codegen)を用いて問題コードの検知や、古い機構の一括変換を遂行してレガシーなテンプレートと戦略的に向き合う努力を進めています。 人力で修正する前提では何年たっても実現できないような大規模なリファクタリングであっても、仕組みを整えることで実現に近づけることもあると思います。 これからも、緩やかではありますが、着実な改善を続けていきたいです。
プロダクトエンジニアリング部のえびさわです。 この一年でLIFULL HOME’Sのメイン開発サーバーのフロントエンド環境が大きく刷新されました。 以前は使えなかったSassも導入され、モリモリとDXが向上しております😭 今回はマークアップにフォーカスし、刷新前に感じていた課題とSass導入後に行なった改善策をご紹介します。 課題 カラーコードのtypo, 種類が多い LIFULL HOME’S にはデザインガイドラインが存在し、使う色はある程度パターン化されています。 代表的なもので言うと弊社のコーポレートカラーでもある #ed6103 です。 LIFULLのコーポレートカラー #ed6103 CSSしか使えない場合、カラーコードは手打ちないしコピペするしかありません。 しかし、以下のような微妙な違いの場合はデザイナー・フロントエンドエンジニアともにレビューで見落とす可能性があります。 違いがわからない デザイン的にあえてずらしているのかtypoなのか、あとから開発している人間にはわかりません。 「すでに実装されているものだから正だな!コピペ実装したろ!」 とかやっちゃうともう地獄です。秩序が崩壊します。 また、似たようなカラーコードも多いです。 例えば以下の図はすべて同じページで使われているグレーです。 グレー激戦区 特に #fafafa ~ #f5f5f5 は激戦区かつモニタ輝度によっては真っ白にしか見えないので誤実装が発生したり、 雰囲気で色を当ててレビューまで持っていってしまうことがあります(大抵デザイナーさんにしょっぴかれます) 同じスタイルのcssが大量にある、コピペが大変 LIFULL HOME’Sはモジュールという単位で各コンポーネントを管理しており、 それぞれ HTML + CSS (+ JS) が1セットになっています。 LIFULL HOME'S 賃貸の物件ページで使われているモジュール こちらの図は実際に使われているモジュールです。 少しわかりにくいですが、 「物件の費用目安を見る」「お気に入りに追加」「シェア(LINE/メール)」 の3モジュールに分割されています。 これらはボタンの見た目は同じですがHTML/CSSは完全に別となっており、いずれかのCSSを変更してもスタイルが同期することはありません。 そのため影響範囲を最小限に止めることができ、大規模開発においては大きなメリットとなっています。 一方で似たようなデザインでコンポーネントを作成する際はCSSも丸ごとコピペする必要があります。 その際に微妙な差異を生み出してレビューを通過してしまったり、UIリニューアルの際に大量のファイルを更新しないといけないなどのデメリットもありました。 「ここで実装されているやつと同じで」がしづらい 前述の通りLIFULL HOME'Sでは殆どの場合再利用性のあるコンポーネントは作られず、独立したモジュールになっています。 似ているけれど微妙に見た目が違うモジュールが存在していたり、インタラクションが異なったりしています。 歴史の長さ・開発者の多さ故にすべてを制御しきれておれず、どれが正なのかがわかりません。 そのため、「ここで実装されているやつと同じで」と言われても他のモジュールの方が正しいのでは…?と疑心暗鬼になりがちです。 改善策 共通変数・mixinの導入 まず「カラーコードのtypo, 種類が多い」に対して共通変数を用意しました。 変数を使うことによってtypo防止・色のリスト化が行えるため、野良色の発生を抑止できます。 命名は ${$prefixColor}-{$uniqueName} としています。 カラーサークル prefixは上記のカラーサークルに近いものを選び、uniqueNameはHexColorを参考につけています。 たとえば #d8d8d8 であれば $mono-gainsboro といった具合です。 名前がユニークすぎて色が想像できない、というのがデメリットですが $red-default , $red-lighter などの命名は中間色が来た場合が辛いですし 将来的にどんな色が追加されるかもわからないので、命名被りが起こらないことを重視しています。 また、UIでよく出るElements( background , border , box-shadow )は専用のcolor aliasを用意し、実装時にブレが出ないようにしています。 map-gettersの利用も検討しましたがタイピング量が増える割には恩恵が少なかったので、 $bg-xxx など専用prefixをつける形で落ち着きました。 また、「同じスタイルのcssがたくさんある、コピペが多い」についてはmixinを作成しました。 LIFULL HOME'S 賃貸の物件ページで使われているモジュール この図のボタンについては以下のmixinで解決できます。 // mixin @mixin white { border: 1px solid #d8d8d8; border-radius: 4px; box-shadow: 0 1px 1px rgba(0, 0, 0, 0.3); font-weight: bold; } // 使用時 @use 'path/mixins/buttons' as buttons; .mod-meyasu { &__button { @include buttons.white; text-align: center; padding: 12px; } } 余白はあえて設定していません。 というのもボタン内のレイアウトパターンは無数のようにあり、強い制約も設けられていません。 使う場面によって全く異なるルールのため、mixinではスタイリングのみ提供するという形をとっています。 (引数で設定も検討しましたが、指定し始めるとキリがないのでやめました) 当初はごく一部の変数とmixinのみ提供していましたが、数ヶ月に一度のペースでアップデートを行い対応範囲を広げています。 スタイルガイドの導入 共通変数・mixinの可視化 スタイルガイド(変数一覧) スタイルガイド(mixin一覧) 共通変数・mixinを導入しても、使ったらどんな見た目になるかは自分で当ててみないとわかりません。 そこで、開発サーバー上にスタイルガイドを作成して共通変数・mixinをビジュアライズしました。 Usageに従ってコピペすればすぐに使えるため、実装時のブレも抑制することが可能です。 スタイルガイドに載せているものは実際に運用されているコンポーネントがベースになっていますので、どのスタイルが正なのかという指針にもなります。 そのため、「ここで実装されているやつと同じで」がやりやすくなります。 アクセシビリティに関する実装ガイドライン スタイルガイド(フォームアクセシビリティについて) スタイルガイド(aria-*について) また、Sass導入の文脈とは異なるのですが実装時の諸注意としてアクセシビリティに関する内容も記載しました。 LIFULL HOME'Sではアクセシビリティに関するコーディングガイドラインが存在せず、雰囲気で実装しているところがありました。 長年可動しているが故に最新の対応が出来ているところも少なく、以前の実装をそのまま流用してアクセシビリティが壊滅的……なんてこともあります。 そこで今回スタイルガイドにガイドラインを表記し、実装例を併せることで正しいアクセシビリティ対応をできるようにしました。 導入してみて 実装が爆速になった 全世界で500億回は言われていることだと思いますが、本当に実装が速くなりました。 今まで手作業で数行〜数十行書いていたものが1,2行で書けるようになったため、 ちょっとしたモジュールであれば一瞬で組めるようになりました。 変数・mixinが頭に叩き込まれているか否かで実装速度は前後しますが、 スタイルガイドの存在によって差は埋めやすくなっているとは思います。 レビューも楽になった これも5000億回は言われていると思いますが、 レビュー時にスタイリングが正しいか否かに心血を注ぐ必要がなくなり、 他の事項に集中できるようになりました。 デザイナーさんとの意思疎通がしやすくなった LIFULL HOME'Sは施策の規模によってはデザイナーさん無しで開発を進め、 フロントエンドエンジニアが組んだものをデザイナーさんにレビューしてもらいリリースする、ということがあります。 そういった場合に「この色とこのパーツで」とざっくり相談ができるので、意思疎通が楽になりました。 おわりに Sass導入前に苦しんでいた問題が緩和され、大変快適なマークアップライフを送れるようになりました☺️ 10年以上運用されている大規模サイトのためどこまでSassで対応していくかが大きな悩みでしたが、 周りのデザイナーさんやエンジニアさんに助けられ対応範囲を広げていくことができました。 この場を借りてお礼申し上げます🙇‍♂️🙇‍♂️ありがとうございました 引き続きアップデートを行い、より良いマークアップ体験を提供できるよう努めて参りたいと思います!
 こんにちは、LIFULLでData Analystとして働いている竹澤です。社外では、Mediumの Towards Data Science でContributorとして寄稿したりしています。  2020年私は主にデジタルマーケティング領域で効果検証の自働化や異常検知ロジックの開発、DXプロジェクトの立ち上げに携わってきました。  今回はデータアナリティクス/データサイエンス・プロジェクトにおけるマネジメント論の整理を試みます。あくまで私見の塊(いわゆるオレオレ)ですが。 想定読者としては、Data Analyst、Data Scientist、DXプロジェクトのPMなどデータサイエンス及び分析プロジェクトに関わる全ての人を考えています。 はじめに  突然ですが、あなたは「ビジネスにおけるデータサイエンスの本質的価値とは何か?」という問いに対してどう回答するでしょうか。  私は個人的に、以下の言葉でその価値を定義しています。 ”データサイエンスの価値は「プログラムに対する意思決定の権限委譲」である”  なぜ、意思決定を権限委譲できることをビジネスの価値と定義できるか。 その理由は、「ビジネスは、Decision Making(意思決定)とExecution(実行または製作)の2つで支配されている」という論拠がまず根底にあります。  そして抽象度を極限まで上げた場合、頭を動かして「考える」時間と手を動かして「実行」したり「作る」時間に分けられるということです。  その上で、人間にとって難易度が高いあるいは時間を要する意思決定が存在したとして、それらをアウトソースできることは十分価値があると考えています。 具体例として、製造業の検品においてディープラーニングを用いた異常検知(画像認識)はまさに人間の目視による判断をより高精度でリプレイスするケースなど。  あるいは似た言葉として、 トヨタ生産方式(TPS) で提唱されている「自働化(ニンベンのついた自動化)」のニュアンスに近い概念だと考えたりします。  以上が情報技術の専門家ではない私が、純粋に問題解決の1ソリューションとしてデータサイエンスという大きな仮説に賭けてきた背景です。 なぜ書くか  前述した通り、私はデータサイエンスの問題解決能力を信じていますが一方で現実世界では、それを否定するようなファクトが目に付きます。  つまり、現状の課題として自社を含めた日本のビジネス現場におけるデータサイエンスを用いた問題解決が思うように進んでいないと考察しています。  今回はその原因の1つしてデータサイエンスプロジェクトにおける「マネジメント手法の未整備」にあると仮定し、その解決策を検討します。  その上でまずは、データ分析プロジェクトという大きな括りの中におけるデータサイエンスプロジェクトの位置付け、各プロジェクトの進み方を確認し、プロジェクトがクローズするような潜在的リスクを検討していきます。  その他、ITプロジェクトにおけるPM論は既にある程度体系化されていますが、データサイエンスプロジェクトはそうではない現状に対する問題意識があります。  また最近は特に、データサイエンスプロジェクトの遂行過程に潜む不確実性を対処するには、モデリングの能力以外のリソースの必要性を実感しています。  以上から、過去の業務経験を抽象化することで未来のプロジェクトに応用可能な、汎用的フレームワークへと昇華することを検討してきました。  まだ全く完成系ではないですが、未来への足跡として今回は現時点での限界(一次結論)を残します。 分析プロジェクトの種類と目的の違いについて  ここでは、プロジェクト・マネージャー(以下PM)の視点から個人的な分析プロジェクトの分類の提案とマネジメント・スコープの明確化に取り組みます。  まずは「分析プロジェクトの分類」について見ていきます。  結論から言うと、私は「データアナリティクスプロジェクト」と「データサイエンスプロジェクト」の2つにデータ分析による問題解決を区別しています。 そもそもなぜ分類が必要かというと、問題解決の種類によってプロジェクトの全体像や体制、必要なリソースが大きく変わるという結論に経験上至ったからです。  以降では、両者の違いをより鮮明にしていきます。 データアナリティクスプロジェクトとは  前述した通り、私はデータサイエンスの価値を、「プログラムに対する意思決定の権限委譲」と定義しています。  よって、シンプルに上の定義域に収まると認識している問題解決はデータサイエンスプロジェクト。それ以外をデータアナリティクスプロジェクトとしています。  データアナリティクスプロジェクトの特徴は、データ分析を使ったアドホック的(一時的)な問題解決であることです。  具体例としては、統計的仮説検定によるABテストの効果検証やKPIダッシュボードの作成などが該当します。ここでは「意思決定の支援」までが責務となります。  詳細は こちらの記事 に譲りますが、「意思決定の支援」においては組織の意思決定に求められる品質には「正確性・速さ・納得感」の3つがあります。  なので、その3つのうちどれかを引き上げることが目的(価値)となります。 データサイエンスプロジェクトとは  データサイエンスプロジェクトの特徴は、継続的かつ定期的に訪れる意思決定をプログラムが肩代わりするような問題解決であることです。  具体例としては、コンテンツのレコメンドシステム開発やサーバーメトリクスに対する異常検知、画像認識技術によるモノの判別自動化などが該当します。  つまり、「誰にどのコンテンツをどの順番で見せるか?」というレコメンドTaskのように、定型的な意思決定の機会が何度もイテレートするTaskがサービスのバリューチェーン上に存在するとき、それらを代行するシステムの開発が目的です。  そして、データサイエンスプロジェクトの責務が「意思決定の代行」であることはプロジェクトの難易度の高さに直結します。  まずは、品質(Quality)の問題。「同じ時間で人間(既存機能)よりも高い精度」あるいは、「より短い時間で人間(既存機能)と同水準の精度」のどちらかを満たすタスク遂行能力がアウトプットの品質としてほぼ常に要求されます。  また、機械学習ライフサイクルのスケール化を目的とする MLOps の領域は、業界全体でベストプラクティスを探っている途中にあります。  以降ではデータアナリティクス/サイエンスプロジェクトそれぞれのプロジェクト・マネジメントにおけるMethodologyを整理していきます。 データアナリティクスプロジェクトにおけるPM論  まずは、私のようなData Analystといった職種の主な責務であろう、データアナリティクスプロジェクトにおけるマネジメントについて見ていきます。  私はLIFULLに入社してから約1年半、CausalImapctを使ったTVCMの効果測定やABテストに対する有意差検定、事業KPIをモニタリングするためのDashboard作成など多様なアナリティクスプロジェクトに伴走してきました。  本質的にはその役割を、「今回のTVCMはうまくいったのか?」や「このUIの変更はサイトKPIにポジティブだったか?」などの問いに定量的(統計的)なアングルから新たな知識を創造する、「意思決定の支援」業務と捉えています。  そのため、上記は全てアドホック的(一時的)に発生する問いに対しての問題解決なることが多く、消費期限(使用期間)が長くても半年ほどです。  以降では、データアナリティクスプロジェクトを以下3つの観点から整理します。 プロジェクトのプロセス(進み方) プロジェクト遂行に必要なリソース(スキル)と主な担当職種 プロジェクトがクローズ・振り出しに戻るリスク  なお、後述するデータサイエンスプロジェクトでも同じ整理をします。 プロジェクトのプロセス(進み方) ヒアリング : ステークホルダーにInterviewを行い、要求や解決すべき真の問題と制約条件(非機能要件)を見極めるために情報収集をする 要件定義 : 今回の問題解決の全体像を整理するため、背景・目的・課題・原因・解決策などをドキュメント化。ステークホルダーや納期もここに記載 データ抽出 : 検証や分析に必要となるデータを、DBやDWHからSQLを使って抽出。検証内容によっては、社外のデータを使用する 分析集計 : LIFULLでは、分析イシューを現状調査・課題発見・効果検証・予測判別の4つに分類し、適切な解決策(統計手法)を選定 結果説明 : TableauなどのBIによる結果の可視化と、その解釈を記載。ビジネスサイドに伝わる言葉でのStory Tellingが求められる プロジェクト遂行に必要なリソースと主な担当職種 プロジェクト管理機能 : Project Manager(Data Analyst) データ分析機能 : Data Analyst(Data Scientist) 分析レビュー機能 : Data Analyst(Data Scientist)  ただし、A/Bテストの効果検証などの比較的小規模な案件の場合、データ分析者が要件定義などの上流設計から分析まで一気通貫で行うことを想定しています。  実際にLIFULLでも、上記のアナリティクスプロジェクトと分類される案件のうち8割は、1人の人間がレビュー以外の全プロセスに実行責任を負っています。 プロジェクトがクローズ・振り出しに戻るリスク 問題設計のリスク : ステークホルダーが真に行いたい意思決定が曖昧なまま分析を進めると、付加価値のない分析に人件費をかけることになる 説明可能性のリスク : 分析結果をステークホルダーが咀嚼しきれない問題を解消するために、解釈性に優れた解決策(統計手法)の選定が求められる 役割分担のリスク : 分析の品質(正確性)を担保するために適切なレビュワーの配置や、検証内容が複数ある場合の最適な役割分担を設計する必要がある 計画進捗のリスク : 書くまでもないが納期を守るために、同時並行で進む他のプロジェクトも管理する必要がある。自分の力量にあった納期の設定が大切  上記では、あえてジェネラルな 問題解決 における落とし穴を列挙しました。  その意図は、個人的に汎用的な問題解決能力こそが分析のValueを最大化すると考えているからです。(もちろん統計などのある程度の理解は当然だとして)  また、予算が大きいTVCMの効果検証などの事業上重要かつ手持ちの統計手法で解決可能な問題を見極めるスキル、つまり イシューから始める 力も重要です。  以上で、データアナリティクスプロジェクトの進み方や、潜在的なリスクへの対処に必要となるスキルについての考察を終わります。 余談:統計的因果推論の価値について  LIFULLのData Analystたちは、特に近年注目度の高い(統計的)因果推論の領域にフォーカスし、様々なチャレンジをしてきました。  その背景には、「派手な予測モデルより、因果関係の実証の方がビジネスの現場で必要とされる頻度が高いだろう」という仮説(スタンス)があったからです。  例えばA/Bテストにおいて、p値を用いる必要がある頻度主義の仮説検定ではなく、ベイズ主義に基づく仮説検定を導入しました。  また、前後比較に対する回帰分析を用いた差分の差分法(DID)。時系列データに対するグレンジャー因果検定や CausalImpact による効果測定を行いました。  このように、Webサービス開発や事業運営で遭遇する効果検証に対して、多様な統計手法を適応することで組織への価値提供に努めてきました。 データサイエンスプロジェクトにおけるPM論  次に、Data ScientistやML Engineerといった職種の主な責務であろう、データサイエンスプロジェクトにおけるマネジメントについて見ていきます。  ここではいわゆる「機械学習プロジェクト」を想定して、整理していきます。  ただ繰り返しになりますが、私の中のデータサイエンスプロジェクトの本質は「プログラムに対する意思決定の権限委譲」にあると考えています。  なのでアルゴリズムの中身がML/DLかは必要条件であり、人間の意思決定のリプレイス(単なる「作業」の自動化ではない)に価値があることを強調します。  また筆者である私は、現時点で機械学習プロジェクトを完遂した経験(プロダクション環境におけるデプロイ・運用保守)はまだありません。  なので今回は、自社における未来のデータサイエンスプロジェクトに備えることを目的としてPMが把握すべきリスクをまとめます。  特に私が実務経験のない効果検証以降のプロセスは、 「仕事ではじめる機械学習」 の著者である有賀さんの MLOps の歩き方 などを参考にさせて頂きました。 スコープ:書かないこと  今回はあくまで、プロジェクト・マネージャー(PM)視点でのプロセスの抽象化やリスクの列挙になります。  なのでData Scientist視点でのモデリング過程の詳細や、Software Engineer視点でのエンジニアリングにまつわる技術的な諸問題は取り扱いません。  また、自社でWebサービス(アプリケーション)を持つ事業会社における、インハウス開発を想定しています。なので、QCDにおけるCDへの配慮等は手薄です。 プロジェクトのプロセス(進み方) 要件定義 : まず機械学習をしない方法も検討した上で、 Problem/Solution Fit (PSF)の理論的な妥当性を確認。またプロダクション環境での非機能要件とステークホルダーの体制の明確化、利用するローデータの確認も忘れない 概念実証(PoC) : 学習データに対するEDAの結果をもとに、前処理や特徴量選択を行い、アルゴリズム候補を選定。RMSEなどの精度指標を用いたオフライン検証によって、最終的なモデルを(複数)選択 効果検証 : プロトタイプ化した機械学習モデルを本番環境へデプロイ。本番トラフィックの一部を利用してA/Bテストなどを行い、ビジネスKPIを基準に既存手段との比較・評価を繰り返して本番適応の意思決定をする 本番開発 : リファクタリングやワークフローのパイプライン整理、またシステムデザインや各クラウドコンポーネントを最終決定。単体テストと統合テストだけでなく、入力データの分布等に変化がないかも確認が必要 保守運用 : 機械学習モデルの精度やビジネスKPIだけでなく、レスポンスタイム等のシステムメトリクスなどの指標も監視する。また、CI/CDのみならず 継続的トレーニング(CT) が実行できる環境を整備する プロジェクト遂行に必要なリソースと主な担当職種  前述の通り、以下では事業会社における機械学習プロジェクトでの理想的なプロジェクト体制について検討していきます。 プロジェクト承認機能 : Project Owner(Business Manager) プロジェクト管理機能 : Project Manager アルゴリズム開発機能 : Data Scientist(Machine Learning Engineer) 本番開発機能 : Machine Learning Engineer(Data Scientist) 保守運用機能 : Software Engineer(Machine Learning Engineer)  補足としてアルゴリズム開発以降の後半3機能は、 こちらの記事 におけるDevelop・Deploy・Driveの3プロセスの責務に対応するイメージです。  そして、とても重要だが十分にその必要性が検討されていない機能(体制)は、1番目と5番目の役割です。  「プロジェクト承認機能」とは具体的に、デプロイ先のプロダクトが生み出すビジネス成果(コンバージョンなどのKPI)に責任を持つBizDevの人です。  また「保守運用機能」とは、機械学習システムをデプロイ対象となるプロダクション環境のドメイン知識を持った開発者を指しています。  これらの人々は社内のMLチームの”外”にいる場合が多いですが、彼らの積極的合意がなければ、不確実性の高いMLモデルの本番適応は難しいです。  なので彼らをいかにプロジェクトの適切な段階で巻き込むことできるかが、小さな(大きな)失敗を許容してもらう上では非常に大切です。  その他にも、仮にビジネスKPIを改善できたとして、MLのデプロイはシステムに対してほぼ確実にさらなる技術的負債や不確実性を積むことになります。  そうなるとプロダクション側の開発者に旨味がなく、また運用保守の精度を保証する術も無いため、最終的な受け入れ拒否に繋がりかねません。  こうした問題への対処や交渉のために、2番目の「プロジェクト管理機能」の存在が重要になります(こちらも軽視されがちですが)。  総じて、スクラム的な顧客一体型の開発体制やPMの配置が、プロジェクト後半の受け入れ拒否のリスクを最小限に抑えたる上で重要かと思います。 プロジェクトがクローズ・振り出しに戻るリスク 役割分担のリスク : モデル開発やETL処理のパイプライン化、インフラの選定、本番環境への結合とそのテストなどやることと求められる知見幅が非常に広い。しかし、PoCを乗り越えることすら不確実なため、プロジェクトの立ち上げ期からそのリソース確保や体制を確立することが難しいのが実情 推定精度のリスク : いわゆるPoC死や効果検証フェーズでの敗北。新しいモデルの精度不足または既存手段を上回れないことの方が多い 非機能要件のリスク : MLチームにとっては暗黙知的な本番環境で要求されるシステムの制約や、レイテンシーやクラウドの費用、セキュリティ要件を満たせるかなどの一般的な非機能要件も早く正確に認知する必要がある データ依存のリスク : CACEの原則 。機械学習モデルの振る舞いは、入力データに依存して決まり、データ自体(分布)も時間の経過に従い変化しうる CI/CD/CTのリスク : ローンチ後にKPIや推定精度が下がった際に、どう解釈(説明)するか。常に最新のデータに適応した、最良のモデルであることを担保するための環境の整備が難しい  上記以外にも、システムデザインの選定や決定的テストの難しさなどの私の知見不足でまとめられなかった難関は他にも多数存在します。  これらに関しての解決策は、 MLOpsの歩き方 やGoogle社による こちらの記事 内でいくつか提案されています。 MLOps: 効率的な開発を阻害する要因  プロジェクトがクローズとまではいかないものの、機械学習プロジェクトに「遅延」をもたらすお馴染みの課題は上記以外に存在しています。 テスト環境と本番環境の違い : Jupyter Notebookに書いた前処理や推定のプログラムをパイプラインにまとめたり、クラス化し直す必要がある バージョン管理が必要な対象の広さ : 学習に使用したデータ・アルゴリズム・ハイパーパラメータ・評価指標をセットで管理する必要がある パイプラインのジャングル化 :MLパイプラインの乱立により、システムを占めるグルーコードの比率が肥大化し、メンテナンスが困難になる  これらを解消するために、機械学習ライフサイクルのスケーラブルな運用を可能にするMLOpsツールが日進月歩で開発されています。  ツールは大きくハイパーパラメータ管理、実験管理、パイプライン(ワークフロー)管理の3つのカテゴリーに大別でき、カテゴリーと具体的なOSSの対応については こちらの記事 が非常に参考になります。  一方で、ツールの比較・検討をプロジェクト中に行うような余裕は基本ないため、自社におけるMLOpsツールの選定をいつ行うかは工夫する必要があります。  ツール以外にもデータサイエンスプロジェクトとアジャイル開発がどう溶け合うかなど開発スタイルに関する議論も個人的には面白いトピックだと感じています。 さいごに  今回はプロジェクト管理の視点から、LIFULL発の「データサイエンスの社会実装」の成功確度を高めるアプローチを模索してきました。  改めて執筆すると、技術的な理解の甘さを痛感しました。やはりテストやCI/CDは実際に手を動かしてみないと解像度が上げられないと思いました。  LIFULLでは、キャリフルという社内副業制度があるので、エンジニアリングの職種に応募してDevOpsやマイクロサービスなどを手を動かして体感する機会をぜひ作りたいと考えています。  今後もData ScientistやML Engineerたちにとって、伴走しがいのあるパートナー(PM)になっていけるよう毎日の業務で成長していきます。  LIFULLのアナリティクスチームは、上記のデータアナリティクス/サイエンスプロジェクト両方の問題解決に貢献できるよう、これからも越境し続けます。  ご拝読、ありがとうございました。 参照: 企業におけるデータ分析プロジェクトと求められるスキル 機械学習を「社会実装」するということ ゆるふわMLOps入門 MLOps: 機械学習における継続的デリバリーと自動化のパイプライン 機械学習システムの設計パターンを公開します。 機械学習アプリケーションにおけるテストについて 機械学習:技術的負債の高金利クレジットカード マイクロサービスアプリケーションとしての機械学習 Data Science Project Flow for Startups 機械学習アプリケーションにおけるテストについて
Hi, I'm Jye Ruey . A SET(Software Engineer in Test) from LIFULL. We published an End-to-End testing framework "Bucky" at last time. www.lifull.blog In this time, an image difference detection tool "Gazo-san", which is for visual testing, is also published. github.com This article will introduce visual testing and the features of Gazo-san. What Is Visual Testing Why Visual Testing is needed Three keys in Visual Testing Capture 📷 Difference detection 🔍 Reporting 📑 Difference with End-to-End Testing E2E for funcional, Visual Testing for visual Visual Testing has no maintenance cost Visual Testing in LIFULL Capture Difference detect Report Features of Gazo-san The key point in Gazo-san Detect on parts At Last Reference What Is Visual Testing Visual testing is a word that is often heard. But it seems that visual testing doesn't have a formal definition in most testing associations. We found the definition of visual testing in an introduction article. ( https://dzone.com/articles/what-is-visual-testing-a-definitive-answer-and-app ) It says: "Visual testing is how you ensure that your app appears to the user as you intended." In other words, visual testing is a test that checks what is showing . Why Visual Testing is needed When developing in the front-end, HTML, CSS and JavaScript make the site change often. The factors which are possible to change the layout are just too many. The unexpected changes after developing, like garbling or skewing, sometimes will happen even if we don't notice that. To make sure the page looks correctly for the user, the test checking the page exactly showing in the browser, may be a proper way for testing. Three keys in Visual Testing But checking every page by our eyes is a tough test isn’t it? 😇 It needs to take the capture before and after the change on the website. Full size capture of the site may be too long to check. It also needs to check the website in mobile size. It's hard to realize the delicate difference. Tens of hundreds of cases to check will make your eyes tired. It seems checking every case by human eyes is impossible. A good tool will help you to check it easily. Summary the difficulty above. A tool with these three features will be helpful. Capture Difference detection Reporting Capture 📷 Without the capture, we have nothing to check in visual testing. In regression testing, capture before and after implementation is very important. To make sure the capture is the same as the user seen, a size designate and mobile view capture is also required. Difference detection 🔍 The function that recognizes the difference between the two images. The tool will markup the part needed to check, so we just need to check the markup rather than the whole capture. The picture below is an example of Gazo-san difference markup. The red part is the difference part. The part, which is not red, is the part without any change. We can just check the red part. Reporting 📑 Checking tens of hundreds of cases is hard work. A good report format will make the check more efficient. The management and traceability of the test cases is also the key point to a good test tool. If the tool can manage test cases on a dashboard, it will be easier for analysis and checking. Difference with End-to-End Testing Visual testing usually checks the capture before and after implementation. So it is also included in regression testing. Compared with E2E (End-to-End) testing, which is also famous in regression testing, visual testing assures a different objective with E2E. By controlling the UI, E2E testing assures the function in application to work expectedly on the page. E2E for funcional, Visual Testing for visual E2E testing always specifies the UI element by class or id, then manipulates them. Sometimes, the element may change the place on the page, this will lead the E2E testing not working well and the case may just fail. In other words, E2E testing can't really recognize the element place changing. To assure the element display in a correct place , a regression test that combines E2E testing and visual testing will be more effective. Visual Testing has no maintenance cost E2E testing will need to fix the test script when the element has been changed. Visual testing only compares the two captures, it doesn't need to maintain any test script. However, there will be cases such as dealing with application data deficient and redefining the test target. It may still cost some other effort. Visual Testing in LIFULL SET team in LIFULL uses visual testing for two reasons. To assure the visual change. To reach a broader coverage by combining visual testing with E2E testing. E2E costs the effort of implementing a test script, but visual testing can start with only the captures that want to compare. The strategy to make broader coverage is moving the implementation and checking effort into visual testing. Actually, we don't use the packaging visual testing tools, we deal with the three keys in visual testing respectively as follows. Capture We take the capture of the target page in full size by headless chrome. Difference detect We use "Gazo-san", which is an image difference tool we publish at this time. It will be introduced later in this article. Report We prepare a HTML template for the difference report in each test case. The upper form will be created before the new release. We can check the difference in red parts from each case. If the UI changes expectedly in this release it means the test is passed. Otherwise we will report the bug to developers. SET team has created the visual testing for the integration environment in system testing level, to make sure there are no side effects between each feature. Maybe the visual testing system still gets somewhere to improve, it just works pretty well. We can check 150 test cases in 10 minutes with this system. Features of Gazo-san Before introducing Gazo-san, let's talk about the type of image difference detection. There are two types of image difference detection. ・Perfect match: Compare with every pixel. Also known as Pixel perfect testing. ・Similar match: Calculate the similarity by the algorithm. (There are many kinds of algorithm) Perfect matches usually show the difference by coloring the parts on the picture. Although, similar matches only show the similar rate in percentage. Perfect match Similar match Pros Detect detail difference. 1. Works fine on pictures with different sizes. 2. Easy to recognize even though there are many differences. Cons 1. Not working well on pictures with different sizes. 2. Hard to recognize the differences when too many differences are showing. Can't show the delicate difference. The key point in Gazo-san Although Gazo-san is a kind of perfect match. It has a special structure dealing with recognizing many differences. The structure is splitting each capture in few parts and showing the difference only on the matched parts. We’ll show the key point by demo pictures. Detect on parts 1. Input two pictures for compare Before Implementation After Implementation 2. Splitting the capture into parts Before Implementation After Implementation 3. Match by parts Parts matched with no difference Parts matched with difference exist Parts unmatched 4. Create output In Output_diff, matched parts are surrounded with a red line, the difference will be colored in red. Output_diff In Output_delete, showing the disappearing parts by surrounding the green line on the after implementation capture. Output_delete In Output_add, showing the increased parts by surrounding with green line on the before implementation capture. Output_add With this structure, it becomes easier to recognize the difference even though two captures have different sizes. At Last SET team executes the visual testing before release to assure the visual view which is expected to show to the user. We had detected the degradation by visual testing many times. We feel relieved that we execute visual testing before the release. Using Gazo-san can make visual testing easier. Please give it a try. Also, there are many tools for visual testing. You can just choose the suitable tool for your team. At last, there are still some parts that can be improved, we are looking forward to getting your issue or Pull Request. Enjoy the happy visual testing time! Reference 5分でわかるVISUAL TESTING FOR HTML5 What is Visual Testing?
ソリューションアーキテクトの鈴木( @szk3 )です。 事業ドメイン知識 + クラウドサービスの知識で、自社サービス開発をサポートする設計相談サービスとして「社内ソリューションアーキテクト」サービスという取り組みをスタートし、 2017年から現在に至るまで3年以上にわたり運用してきました。 本エントリでは、この取り組みについて振り返り、まとめました。 サービスの成り立ちや考え方、どのように運用してきたのか?どんな変化があったのか?なぜクローズするのか?などなど。 自社でソリューションアーキテクトのような職種や役割を作っていこうと考えている方の参考になれば幸いです。 はじまり コトのはじまりは、 3年以上前、2017年4月 に遡ります。 当時、主幹事業のAWS移行が概ね完了し、各部署の裁量で個別にAWSアカウントを運用し始めたタイミングでした。 自分たちでインフラリソースを自由にできるようになった反面、 慣れないAWS上での設計に対する不安の声 も同時に耳にするようになりました。 当時からAWSの情報量は膨大であり、選択肢の多さや制限事項の見落としなど、従来のサービス開発とは別のコストが発生するようなシーンも顕在化しつつありました。 もちろん、能動的にキャッチアップしマネージできる部署も存在しましたが、少ない人的リソースや挑戦的なサービス開発目標などで余裕が少なく、キャッチアップに少なからず時間がかかる部署もありました。 そこで、事業ドメイン知識とクラウド上での設計知識を効率よく伝達しつつ、設計や問題の切り分けをサポートすることで調査コストや設計の差し戻しコストを減らし、サービス開発効率に間接的に貢献しようと始めたサービスが、 「社内ソリューションアーキテクト」 サービスでした。 実際どうだったの? どうやって相談するの? JIRA(課題管理ツール)にチケットを切ってもらい、相談内容を書いてもらいます。 その後、30分から1時間程度のミーティングを設け、相談内容についてディスカッションした後に、議事ログや議事フォトをチケットで共有する。 たったこれだけです。 あれこれ仕組みを整えるより、やってみてから考えるという感じでスタートしましたが、 シンプルなやり方ゆえに、特に大きな変更が必要になることもなく、当初からのスタイルを今でも継続しています。 チケット自体は1回づつクローズしますが、ひきつづき相談したい場合は何度でも相談できるようにしています。 どれくらいの件数の相談を受けたの? 3年半くらいの間で、100件を超える相談に乗ってきました。 最も多い時でも1週間に2-3本のペースだったので、比較的緩いペースだったと思います。 どれくらいの工数掛けてるの? 相談は、あくまでも発生ベースのため、一概に月に何時間とかは出しにくいのですが、平均すると業務時間の10%程度が感覚値として近いと思っています。 何人でやってるの? アーキテクトの体制は、自分一人で始めました。 もっと多様な視点で相談に乗れる体制にしたかったのと、特定のバイアスを避けるため、 設計に関心のある同僚を誘い、途中から約1年ほど2名体制で相談に乗っていました。 アーキテクト数名によるモブプロのような設計相談は、発散しきって収集できないように思われるかも知れませんが、 最終的には「やっぱりここだよね」という落ち着くべきところに落ち着くことが多かった 気がします。 しかし、残念ながら、現在はまた一人体制になってしまいました。 相談範囲とか内容は? 当初は、AWSを主軸に相談に乗ってきましたが途中からGCP周りの相談も乗るようになり、現在はクラウドアーキテクトとして幅広い相談を受けています。 相談内容は重い相談から軽い相談まで様々で、相談者の目的や課題に対する優先度もバラバラです。 カテゴリとしてまとめるとすると、バッチの設計・実装相談、CI/CDの構築相談、クラウドでのストレージ選定、システムリプレイスの相談、新機能のフィジビリ相談、その他 のような感じになります。 また、クラウド周りのトラブルシューティングにも駆り出されることが多々あります。 どんなことに気をつけてきた? 意識してきたことはたくさんありますが、ひとつ選ぶとしたら 「相談者の立ち位置を忘れない」 ということです。 相談相手によって、ドメイン知識やクラウドの知識に差があることが当然なので、全員に対して同じスタンスではなく、相談者の目線で課題解決を一緒に考えるように心がけていました。 アーキテクトとしての理想系の回答は持ちつつも、一番重要なポイント(納期、リソース利用料、運用コスト、拡張性など)をすり合わせて、トレードオフとセットで押し付けない提案をするようにしていました。 あくまでも相談者の意見を深堀りし、選択肢を広げ、相談者の選択をサポートすることを提供価値として意識的に持つようにしています。 サービス設計と同じで、顧客(相談者)の目線に立つのが大事 ですね。 なにか変わった? 個人的な変化としては、社内での認知が進み、クラウドというワードで想起してもらえるようになりました。 そのため、ありがたいことに、いろんなところからチャットで小さい雑相が飛んでくるようになったり、 海外カンファレンスなどにも参加させていただくような、 新しい機会に恵まれるようになりました。 組織的な変化としては、残念ながら、目に見える大きな変化を生み出すことはできていないと思っています。 これは当初、個別相談対応を経てソリューションカタログを作成し、共有することでの効率化を提供価値として考えていましたが、 実際にはカスタムされた相談は転用が難しいケースが多々あり、汎化しづらい問題がありました。 仮に相談時点のプラクティスをカタログ化したとしても、そのソリューションが賞味期限切れになる可能性を考慮すると、カタログのメンテナンスコストより「相談のタイミングでベストのものを一緒に考える」ことを重視していました。 しかし、この当時の判断は、完全に間違った判断だったと思います。なぜなら、カタログを実際に作ってないからです。 やってみた上でドキュメンテーションのコストがかかるなら判断のしようがありますが、机上の算盤で判断してしまったのが反省点です。 カタログの更新に責任を持ち、カタログを育てていったほうが組織に対する価値を提供できた可能性を考えると、「とにかくやってみる」をしなかったのは、今思うと反省すべき点になります。 相談内容にも変化がありました。 以前に比べ、クラウドの知識はコモディティ化してきており、一般的なユースケースはほぼ情報が出揃っています。 そのため、相談者が自身でベストプラクティスにたどり着きやすい世の中になり、特に相談に乗らなくても自身で解決できるケースが増えているように感じます。 また、 時代はクラウドからコンテナの時代へと、アーキテクトの関心も変化していっています。 その流れに迎合し、アプリケーションの実行環境はコンテナ化を推奨し、社内のKubertnetesへの載せ替えをセットで提案するようになりました。 他にも、CI/CDなどに代表される便利な外部サービスが充実してきたこともあり、クラウド上で作るパターンと、外部サービスを使うパターンの比較の相談も増加しました。 生産性向上のために外部サービスを積極的に使っていくことの敷居が下がり、それらサービスの知識や肌感も幅広く求められるようになりました。 まとめ 「社内ソリューションアーキテクト」サービスという取り組みを紹介しました。 いまさらですが、約3年前(2017年8月)にLT発表させていただいた社内ソリューションアーキテクトについての資料を公開しておきます。 【Web系ベンチャーが語るAWS利用事例】社内ソリューションアーキテクトのすすめ from LIFULL Co., Ltd. www.slideshare.net ここに書いてあるとおり、 最終目標は「サービス提供先」への貢献 にあると今でも思っており、その方向性は一貫してきました。 反省すべき点は多々ありますが、利用者からのアンケート結果では、自分でも驚くような高評価を頂くことができました。 じゃあ、なんで閉じるの?って話ですが。 現在、社内ではアーキテクトに特化した部署が出来たこともあり、 組織単位で「アーキテクト活動」として相談に乗るような取り組みが始まりました。 「アーキテクト活動」は情報のストックにも重点を置いているため、これらが活性化することで 自分が構想しつつ着手できてなかった知見のストックも促進されるのは大変喜ばしいこと だと思っています。 また、アフリカのことわざで「早く行きたければ一人で進め、遠くまで行きたければ皆で進め」とあるように、スペシャリティと多様性が組織にとても重要だと考えています。ですが、今と同じやり方や延長線上には遠くに行くための道筋が描けなかったというのが、大きな理由になります。 そこで、 もっと良い形を模索する中で、いままでの経験を生かし新しい価値提供体験を作るために、一度立ち止まることにしました。 約3年半続いた「社内ソリューションアーキテクト」サービスは、今月末でサービスとしての役割を終了させますが、自身のロールとしては引き続きクラウドアーキテクト、ソリューションアーキテクトとして活動していきます。 今後は、社内の技術的な相談に対して、また少し形を変えて取り組んで行くことになりそうなので、そちらの活動はまた別のエントリで紹介したいと思います。 自社でソリューションアーキテクトのような職種や役割を作っていこうと考えている方の参考になれば幸いです。
AI戦略室の椎橋です。LIFULLで取り組んでいる広告費配分のポートフォリオ最適化を紹介します。 LIFULLは広告宣伝費に年間100億近く使っており、決算説明会の質疑応答でも頻出なテーマで削減することが求めらています。広告にはTVCMや電車のつり革広告、リスティング広告や、リターゲティング広告など広告配信する場所やターゲットユーザー層もさまざまな種類があります。これらの広告媒体にそれぞれいくらの金額を投資すべきかというポートフォリオ最適化を計算するのが本記事のメインになります。 社内システムMAM 広告運用を自動化するためにMAMという社内システムがあります。広告を運用するマーケターが操作するためのフロントエンド、広告実績を蓄積するDB、取得・集計する定期バッチ処理などの機能をすべてまとめてMAMと呼んでいます。ポートフォリオ最適化におけるデータの流れを簡易的に図示すると以下のようになります。 ポートフォリオ最適化のためのデータの流れ簡易図 広告実績データをBigQueryに保存し、そこからデータ抽出、機械学習計算、計算結果のポートフォリオで広告入稿、その結果がBigqueryに保存される、というサイクルになっています。 アトリビューションモデル ポートフォリオ計算の前に広告を価値を定量化してサイエンスの問題に落とし込みやすくします。ユーザーはコンバージョンまでに多くの媒体に接触しており、接触した媒体はそれぞれどれくらい貢献しているかというのを計算するモデルになります。下図の接触例で、代表的なアトリビューションモデルで評価したときの広告評価値を表にまとめると以下のようになります。 コンバージョンまでの媒体接触例 さまざまなアトリビューションモデルとそのときの広告価値見積もり 弊社では独自のアトリビューションモデルを開発していて、そのモデルで各広告の売上換算価値を見積もることができます。 計算方法は今回は省略します。この価値を使ってポートフォリオ計算を行います。 ポートフォリオ最適化アルゴリズム ポートフォリオを計算するために最適化問題を解くのですが、必要なパーツをサブセクションに分けて説明します。  広告効果モデル 各広告に対していくらの金額を使うといくらの売上価値が見込めるかという回帰モデルを作ります。扱いやすいように凸の性質を持つような関数で回帰します。一般的に広告予算を増やせば増やすほどコンバージョン率の低い層にも広告配信していくようになるため、以下の図に示すように減衰効果をモデルに組み込むことには妥当性があります。 広告効果モデル(横軸はコスト、縦軸は売上) 入口出口問題 これは社内独自の問題で私はそう呼んでいます。LIFULL HOME'Sは賃貸、新築マンション、中古戸建などのセクターごとに管理する部署が異なり、予算も目標売上も各セクターごとに割り当てられています。一方で賃貸と売買のどちらにするか悩むユーザーは多くおり、賃貸想定の広告のつもりが最終的に中古マンションを購入するということは珍しくありません。なので発生したセクターごとの売上の割合で各部署で予算を出し合って広告出稿したとみなすようにしています。リスティング広告の例がわかりやすく、以下のように"東京 ほーむず マンション"という検索広告は賃貸ユーザー向きか売買ユーザー向きかはっきりしません。この広告に100万円使って売上価値が賃貸200万、新築マンションが600万、中古戸建が200万の売上になったら、それぞれの予算を20万、60万、20万使ったことにするということです。 この配分ルールによって、賃貸の予算を使おうとしても売買の予算も使ってしまうことになり、トレードオフがある中でポートフォリオを計算する必要があります。 "東京 ほーむず マンション"の検索広告 定式化 問題を簡単にするために本記事ではセクターを賃貸と売買の2セクターとし、広告効果モデルは の形式で書けるものとします。 定式化は以下のようになります。 最適化問題 ここで は大きな定数、添え字 は広告IDを表し、 は広告効果モデルのパラメータです。式7式8ではダミー変数を用いていますが、これは実運用では残り予算がマイナスになるときがあり、そのときでも実行可能解を出力するための式変形です。BUDGET_CHINTAI=100, BUDGET_BAIBAI=200は賃貸部署、売買部署の予算です。 サンプルコードを用意しました。 import cvxpy import numpy BUDGET_CHINTAI = 100 BUDGET_BAIBAI = 200 AD_MODELS = [ { "id" : 1 , "a" : 20 , "chintai_rate" : 0.2 , "baibai_rate" : 0.8 }, { "id" : 2 , "a" : 10 , "chintai_rate" : 0.3 , "baibai_rate" : 0.7 }, { "id" : 3 , "a" : 5 , "chintai_rate" : 0.5 , "baibai_rate" : 0.5 }, { "id" : 4 , "a" : 30 , "chintai_rate" : 0.9 , "baibai_rate" : 0.1 }, ] def _predict_sale_and_cost (cost, ad_model): sale = ad_model[ "a" ] * cvxpy.log(cost + 1 ) sale_chintai = sale * ad_model[ "chintai_rate" ] sale_baibai = sale * ad_model[ "baibai_rate" ] cost_chintai = cost * ad_model[ "chintai_rate" ] cost_baibai = cost * ad_model[ "baibai_rate" ] return sale_chintai, sale_baibai, cost_chintai, cost_baibai def objective_function (costs, dummys): M = 1000 sum_sale_chintai = 0 sum_sale_baibai = 0 for cost, ad_model in zip (costs, AD_MODELS): sale_chintai, sale_baibai, _, _ = _predict_sale_and_cost(cost, ad_model) sum_sale_chintai += sale_chintai sum_sale_baibai += sale_baibai return sum_sale_chintai + sum_sale_baibai - M * (dummys[ 0 ] + dummys[ 1 ]) def constraint_function (costs, dummys): const_list = [] sum_cost_chintai = 0 sum_cost_baibai = 0 for cost, ad_model in zip (costs, AD_MODELS): _, _, cost_chintai, cost_baibai = _predict_sale_and_cost(cost, ad_model) sum_cost_chintai += cost_chintai sum_cost_baibai += cost_baibai const_list.append(sum_cost_chintai <= BUDGET_CHINTAI + dummys[ 0 ]) const_list.append(sum_cost_baibai <= BUDGET_BAIBAI + dummys[ 1 ]) for cost in costs: const_list.append(cost >= 0 ) for dummy in dummys: const_list.append(dummy >= 0 ) return const_list def calc_sum_cost (costs): cost_chintai = numpy.array([c * m[ "chintai_rate" ] for c, m in zip (costs.value, AD_MODELS)]).sum() cost_baibai = numpy.array([c * m[ "baibai_rate" ] for c, m in zip (costs.value, AD_MODELS)]).sum() print ( "賃貸コスト " , cost_chintai) print ( "売買コスト " , cost_baibai) costs = cvxpy.Variable( len (AD_MODELS)) dummys = cvxpy.Variable( 2 ) prob = cvxpy.Problem(cvxpy.Maximize(objective_function(costs, dummys)), constraint_function(costs, dummys)) prob.solve(verbose= False , solver= "ECOS_BB" , mi_max_iters= 50000 ) assert prob.status == "optimal" costs.value calc_sum_cost(costs) 実行すると以下の解を得ます。広告1,2,3,4にそれぞれ155,51,14,51の予算を割り当てるという結果で、このとき賃貸部署が負担する予算は100、売買部署が負担する予算は172です。これは定式化の性質的には大域的最適解に収束しているはずなのでこれ以上多く売上を出せる解は存在しないはずです。 最適化計算結果 事業の成長に合わせて目的関数を変更できる サンプルコードでの売上最大化は一見腑に落ちる式に見えますが、売買部署の立場から見ると予算が200あるのに172しか使っていないという点で最適ではないかもしれません。利益の最大化を目的としたポートフォリオはまた別の解が出てきます。このように立場や事業の成長期によって目的が変わるという意味ではある意味多目的最適化の側面を持っており、例えば想定されるシチュエーションごとに対策を考えておくとこうなります。 目的関数のバリエーション  説明責任 このアルゴリズムの強みは細かい運用における制約を記述できることですが、説明責任を果たせることも大きなメリットです。最近の金融工学の研究ではニューラルネットワークや強化学習を用いたポートフォリオ最適化もあるのですが、ブラックボックス性の強さが安定運用の妨げになりかねません。出力値に対して説明ができず、ポートフォリオを採用してくれる社内のマーケターに安心感を与えられません。機械学習は広告効果の予測のみに使うように切り分けることで、広告効果モデルの予測が正しいと仮定すればそのあとの計算については納得してもらえます(もちろん数理最適化の説明は平易な言葉に置き換えます)。 まとめ 広告宣伝費最適化に向けた数理最適化の活用事例を紹介しました。最適化問題は非常に強力とは言えないのですが、かゆいところに手が届く技術で、業務上必要になる細かいロジックを洗練させたいときに役立ちます。 AI戦略室の事例をコンスタントに発信できるようにがんばります。ありがとうございました。
AWS利用の最適化に従事してます、鈴木( @szk3 )です。 最適化といってもいろいろありますが、ここ最近はAWSにおけるコスト削減についていろいろと行ってきました。 LIFULLのアカウント数は100を超えます。それらのアカウントに対し、約240以上のコスト削減案を立案し180件以上の施策を完了させてきました。 今回は、この新型コロナの影響で先行きが不透明な中、AWS利用費用を見直したいという方のために、 実体験に基づいたAWSコスト最適化の流れと考え方をシェアしたい と思います。 コスト削減の流れ いろいろとやってきましたが、 コストを削減する流れはどれも同じ です。 現状を知る ソリューションを選ぶ 実行する めちゃくちゃシンプル ですね。 ひとつづつ見ていきましょう。 現状を知る コストを削減するにあたり、最も重要なのはどこにコストが掛かっているかを知ることです。 「無い袖は振れない」ので、 CostExplorer を使い、どこにコストがかかっているのかを特定するのが最初の作業 です。 CostExplorerについてはこちらの資料が参考になります。 20200129 AWS Black Belt Online Seminar AWS Cost Explorer from Amazon Web Services Japan www.slideshare.net まずは、コスト高のサービスを軸にピックアップします。 この時、画面右側フィルターの「料金タイプ」から、自分たちでどうにもできないものと、コスト削減対象になりえない項目を除外しておきましょう。 具体的な項目としては、「サポート料金」、「税金」、RIやSavingsPlansなどの「前払い料金」などです。 次に、サービスごとに絞り込んで行きます。 ひとつのサービスでフィルターし使用タイプでグループ化して、サービスのどこにコストが掛かっているのかを明らかにします。 この時のポイントは、使われ方でコストが変動するサービスは最適化に時間がかかるケースが多いので、 リソースのプロビジョニング次第でコントロールできそうな使用タイプで絞り込みあたりをつけていきます。 例えば、「EC2 その他」サービスでフィルタし、「使用タイプ」でグループ化した場合、 DataTransfer-Regional-Bytesより、EBS:VolumeUsage.gp2 や EBS:SnapshotUsage のほうが、手っ取り早くコスト削減できる可能性が高いです。 また、調査内容は、どこかにチケット化(タスク化)しておくことをおすすめします。 いますぐ対応できなくても、後日対応できる可能性もあるので、ネタとしてストックしておきます。 この作業により、コスト削減候補のリストが出来あがります。 このリストは、のちのち考慮する最適化のしやすさや削減コスト想定額などを軸にして、優先順位を決定するのに役立ちます。 ソリューションを選ぶ さて、コスト削減候補のリストができあがりましたので、今度はどのように対応するかを検討していきます。 コスト削減の原理原則もシンプル です。 不要なリソースは、停止・削除する 必要なリソースは、適切に使う 適切なリソースは、コスト最適化オプションでコスト削減する これだけです。 不要なリソースは、停止・削除する 運用あるあるですが、昔から運用しているAWSアカウントには、削除漏れ・賞味期限切れのリソースが残ってしまうパターンがあります。 例えば、数年前に取得したスナップショットやEBSなど、現在利用しても要件を満たさないリソースが存在しているケースが多々あります。 また、RDSの手動バックアップと自動バックアップが重複していたりと、役割がかぶっているものなどは運用ルールを見直すことで重複リソースを削除することが可能です。 S3などは、大量のログがあるものの、特に利用されることも無いのに、標準のストレージクラスで保存していないかなどを確認しましょう。 ライフタイムを設定することで、古いオブジェクトを削除したりGlacierなどのストレージクラスに変更することでコストを抑えることが出来ます。 これらは、組織変更や担当者が変わることで、リソース管理の責務がルーズボールになっているパターンがあるので見落としがちです。 また、開発環境も意外と見落としがちです。 試行錯誤の残骸が削除されず、不要なリソースとして残っているケースがあります。 また開発環境であればリソースを24h/365dで使わないこともあります。 EC2やRDS は Instance Scheduler を使うと簡単に起動・停止設定をすることができます。 CloudFormationを使って簡単にプロビジョニングでき、インスタンスの起動や停止をタグで管理します。 仕組みもシンプルですし、 夜間・土日に停止しておくだけで、かなりのコストを削減することが可能 です。 aws.amazon.com これらのリソースの調査で、削除・停止できそうなものが見つかったら、コスト削減案としてストックしていきます。 これらの”不要そう”なリソースは、「持ち主」や「背景」を紐解くのに時間がかかる反面、不要となれば削除するだけなので 最も簡単にコストを削減 できます。 (先走って勝手に削除するのはNGですのでご注意を。) 必要なリソースは、適切に使う 使っているリソースが、「適切に使えているか?」を確認しましょう。 具体的には、リソースごとにCloudWatch メトリクスなどで、適切に利用できているかを見ていきます。 EC2であれば、適切なサイジングは AWS Compute Optimizer を利用するのがおすすめです。 過去のメトリクスを分析し、過剰にプロビジョニングされたEC2を、変更リスクとともに新しいインスタンスタイプを提案してくれます。 こちらのYoutubeで、 Compute Optimizer のイメージを確認できます。 youtu.be また、必要に応じて、カスタムメトリクスなどで、メモリやディスクも見ておきましょう。 確認した結果、改善の余地があればインスタンスタイプの変更やダウンサイジングを計画します。 EC2の場合、最新世代のインスタンスタイプに変更するが望ましいのですが、古いインスタンスの場合、ディストリビューションによっては Nitro世代に変更できないこともありえます。 さくっとNitro世代に変更できそうな場合は、このタイミングで変更してしまうのがいいでしょう。 また、AutoScalingグループを確認し、インスタンスを過剰にスケールさせてないかも合わせて確認しましょう。 これらの対応は、 地味ですがコスト最適化オプション購入の前処理として重要な作業 になります。 適切なリソースは、コスト最適化オプションでコスト削減する リソースの最適化が一通り完了したら、いよいよコスト最適化オプションでコスト削減を行います。 ただ、コスト最適化オプションと言っても様々なものがあります。 たとえば、EC2に対しては Reserved Instance(RI) や SavingsPlans など 年間利用を約束し割引する購入オプションがあります。 24h/365dで利用が固定されているEC2は、こういったオプションで最適化し、Auto Scaling などで一時的に利用するEC2には、スポットインスタンスが最適です。 いまは、1 つの Auto Scaling グループ内で、オンデマンドインスタンスとスポットインスタンスのフリートを簡単に混ぜることが出来るので、RI/SavingsPlans + Spot Instance の構成でまんべんなくコスト削減することが可能です。 docs.aws.amazon.com ちなみに、EC2のコスト最適化オプションといえば、以前はRIが主流でしたが最近のトレンドは SavingsPlans を利用することです。 SavingsPlansはRIと比較して、アーキテクチャ変更に対する柔軟性が高いのが特徴です。 20191212 新割引オプション "Savings Plans" によるコスト最適化のご提案 from Amazon Web Services Japan www.slideshare.net SavingsPlansのコミット金額は、若干取っつきづらいかもしれませんが、Cost Explorerからコミット推奨金額が参照できます。 また、RIといえば、EC2, RDS はすぐに想起できますが、ElasticSearch Service にも対応しています。他にも、ElastiCacheのリザーブドキャッシュノードや、DynamoDBのリザーブドキャパシティなど、サービスによって呼び名は違えど、年間利用を約束することでコストを削減できるオプションがありますので、忘れずに検討しましょう。 実行する 最後は、ただ実行するだけです。 ただし、自分で対応できる場合はよいのですが、自分で手を出せないアカウントに対してはアカウントの管理者にお願いして作業してもらう必要があります。 なので、お願いする側としては、費用対効果の金額試算、稟議の文章テンプレ化、進捗のヒアリング、ステークホルダーの洗い出しなど、さまざまなアプローチで作業をサポートできると良いと思います。 「こうあるべき」と正論を振りかざすのではなく、相手の立場になり同じ方向に向けて一緒に最適化していくような丁寧なコミュニケーションを心がけています。 また、残念ながら費用対効果やさまざまな制約により、現時点では最適化できないという判断になったとしても「できなかった」という判断と理由が資産になります。 全てのコスト最適化がスムーズに実行されるわけではありませんが、「あえてしなかった」という判断もひっくるめて、 ひとつづつ完了させていくことに、大きな意味がある と思います。 まとめ 以上、実体験に基づくコスト最適化の流れと考え方を紹介しました。 ただ、コスト最適化はこれが全てではありません。上記以外にも、コスト削減できる方法はいろいろ存在します。 例えば、レスポンスタイムなどを許容できるような場合であれば、利用料金が安いUS Eastリージョン利用の検討したり、 アーキテクチャの変更なども、コスト削減の可能性を大いに秘めています。 ただ、変更の振り幅とそれにかかる人的コストは比例しやすいのも事実ですので、バランスを見て判断するのが良いでしょう。 AWS Well-Architected フレームワークの 5 本の柱のひとつに「コスト最適化」があります。 こちらを参考に、自分たちにとってコスト効率のよい形を目指して行きたいですね。 wa.aws.amazon.com 今回はあえて流れや考え方にフォーカスしました。 サービスごとの具体的な手法についてはまた別の機会にシェアできればと思います。 繰り返しになりますが、コスト削減の原理原則はシンプルです。 不要なリソースは、停止・削除する 必要なリソースは、適切に使う 適切なリソースは、コスト最適化オプションでコスト削減する いまできることから着手し、費用対効果の高い順に対応していく。 当たり前だけど、 これが一番確実で素早くコスト削減に寄与する と信じています。 ご自身の環境に照らし合わせ、お役に立てば幸いです。
こんにちは、LIFULL HOME'Sの売買領域でエンジニアチームのマネジメントを担当しています、長崎です。 ここ数年、LIFULL HOME'Sでは積極的に技術的負債解消に取り組んでおり、今回は私がマネジメントするチーム内でどのような取り組みをしているかをご紹介します。 技術的負債の解消はあらゆるサービスにおいて大きな問題となっており、すでに多くの事例が紹介されていますが、同じように我々の取り組みがどなたかの参考になれば幸いです。 LIFULL HOME'Sにおける技術的負債 これまでに下記エントリでも言及している通り、LIFULL HOME'Sの現行プロダクトは9年を超えて開発されています。 www.lifull.blog 上記エントリではフロントエンドに焦点を当てていますが、これだけ長く開発・保守されているプロダクトですので、技術的負債はアプリケーションレイヤー(PHP / Ruby)、インフラレイヤーと多岐・多層に渡って存在しています。 新機能の開発や既存機能の改修を行う際に、調査・テストの工数が膨らんでおり、サービス成長の大きな阻害要因、まさに負債となってしまっています。 事業開発部門における取り組み LIFULL HOME'Sの開発部門は大きく分けて2つに分かれています。 ビジネスサイドと密接にコミュニケーションしながら、エンドユーザーが触れるプロダクトを日々開発する事業開発部門と、 LIFULL HOME'Sに限らず、プロダクト・サービス全体の基盤システムを保守・改善する技術基盤部門です。 肥大化する調査・テスト工数を削減し、開発効率の向上を図るために、私の所属する事業開発部門では 工数の10%をリファクタリングに充てる というルールを作成し、組織全体として負債解消に取り組んでいます。 私のチームはアプリケーションレイヤーの開発を担当することが多く、下記のようなコードレベルでの負債に日々悩まされています。 使われているかわからないコード 依存関係が適切に分割されていないコード(デグレしやすいコード) 複雑度が高く、テストコードがないコード 私のチームでの取り組み 私のチームでは、上記コードレベルの負債をリファクタリングにより解消するべく、3つの取り組みを行っています。 コードの静的解析に基づいたリファクタリング 日々の改修における課題を基にした大規模リファクタリング リファクタリングを行うべき領域の可視化・優先度付け それぞれどんなことをしているのか、よいところと課題はなにか、をご紹介します。 コードの静的解析に基づいたリファクタリング LIFULL HOME'Sでは、 codeclimate というサービスを導入し、コードの静的解析を行っています。 この解析結果に基づいて、複雑度の高いメソッドや、重複したブロックを発見し、リファクタリングを実施します。 よいところ コードに対し、定量的な指標を持てる 一定のフィードバックを機械的に行える 課題 メンテナンス性のために分割されたクラス・メソッドであっても重複判定されてしまう コードの利用頻度や、改修頻度に紐づかない分析のため、改善効果による優先度がつけられない 静的解析の結果がすべて!としない運用が求められますが、lintツールなどと同様に定常的に活用することで、コードのベースレベルの向上や複雑度に対する意識づけが行える点が良いと思います。 日々の改修における課題を基にした大規模リファクタリング 新規実装当初にその時点でのユースケースから作ったクラスが、長年多数のメンバによって、そして多くの場合デリバリーを優先したプロジェクトにおいて、適切に拡張されずに if 文まみれになってしまうことはよくあることかと思います。 このような状態のコードを放置していると、改修の際に想定外のページ・サービスにおいてバグが発生し、以降デグレチェックに悩まされ続けます。 これを改善するため、現在のユースケースに合わせた大規模なリファクタリングを行っています。 よいところ 普段目を背けているところに向き合う機会になる 改めて見直すことで、現時点では不要になったコードを消すことができる ビジネス要求や想定される改修の質・量が想定できる状況で設計し直せる 課題 アーキテクチャレベルや、フレームワークの負債からは逃れられない リリース手順やタイミングなど、実行計画が難しい ステークホルダーが多くなりがちで、精神的に疲弊する 進めていると往々にして、「もはや作り直したほうが早いだろコレ」という気持ちに苛まれますが、サービスの保守をしながらできることをしていかねばと思い直す日々です。 リファクタリングを行うべき領域の可視化・優先度付け なんとか技術的負債を定量的に表現したいと思い、コードの変更行数とテストケース数(テストコードの行数)の計測を行っています。 現時点での1サンプルですが、変更行数が数行にもかかわらず、デグレチェック目的で数十URLをテストすることになる場合があれば、変更行数が数十行でもテストケースは数ケース程度で済む場合もあります。 前者のような機能は早急にリファクタリングしなければ、毎回大きなテスト工数がかかったり、誰にも意図がわからないデグレチェックが口伝で残り続けてしまいます。 よいところ リファクタリングの期待効果を見定めることができる 非エンジニアに改修の難易度を定量的に伝えることができ、リファクタリングの重要性を理解してもらいやすい 課題 変更行数は計測しやすい反面、プログラミング言語やフレームワーク、設計思想に左右されやすい テストケース数やテストコードの行数は、作成者によりばらつく 現在取り組んでいる指標で目的を果たせるのか、そしてベストなのかどうかはわかりませんが、なんとかリファクタリングの重要性を定量的に表現するべくチャレンジしていきます。 最後に サービス上の不要な機能を削除したり、「今」問題がないコード・システムを直すためにはステークホルダーの理解・協力が欠かせません。 一方で、「リファクタリング」や「技術的負債の解消」という非エンジニアからしたらよくわからないけどすごく大事そうな言葉を盾に、エンジニアが手段を目的化してビジネスに貢献できないことは絶対に避けなければいけません。 今回3つの取り組みを紹介させて頂きましたが、リファクタリングが「よくわからないけどすごく大事そうな言葉」じゃなくするために、ステークホルダーにしっかりと伝え続けることが一番大事な取り組みだと思います。
釣り気味タイトルで大変申し訳ございません。 プロダクトエンジニアリング部の島村です。 総会どうしていますか? みなさまが所属する会社・組織では総会は実施されておりますでしょうか? 部署やチームの結束を高め、メンバーが同じ方向を向くためには貴重な機会となる総会。 エンジニアリングマネージャーであれば、運営を行なったことがある方も少なくないと思います。 総会って難しい そんな総会ですが、下記のような問題が生じやすいと思います。 組織の階層ごとに総会があり、総会過多な状況になる どの総会でも似たような構成になりやすい 会を重ねるごとにネタが尽きてくる 私の所属する組織でも総会の実施を考えたのですが、上記のような問題が懸念され、頭を悩ませました。 総会の目的を考える そもそも何が何でも総会を実施する必要があるわけではありません。 総会を実施する上では、目的や総会を実施することで目指したい組織の姿を定義することが大切です。 今回の我々の組織のケースでは、所属する各グループ内での交流は盛んだが、グループ感での交流の機会には乏しく、そもそもお互いのことをよく知らない等、組織全体としての結束力には課題がありました。 そのため、総会を行うことで目指す姿を下記のように定義しました。 個々人の強みや詳しい領域がわかり、それをそれぞれの組織に還元できる状態 まずは総会を行うことで上記を目指し、ゆくゆくは、 グループの垣根を超えて助け合い、相乗効果を生み出せている状態 例えば何かサービスをつくるときにお互いの力を合わせ、よりよいものを作り出せる状態 のような状態に辿りつきたいと考えました。 OSTに着想を得る 上記を目指すための総会のコンテンツを考えはじめたのですが、そんな時にコンテンツ案として着想を得たのが、OST(Open Space Technology)というディスカッションの方法論です。 www.humanvalue.co.jp OSTは会議の参加者が議題を提案し、その議題に興味のある人が参加して議論を行う会議の方法です。 議題や議論の場の作り方が参加者に委ねられるため、より参加者が主体的、かつ能動的に議論を行えるのが特徴です。 どんな感じでやったか 今回我々は上記のOSTにインスパイアされつつも、初めての試みかつ、関係性が出来上がり切っていない組織での実施であったため、事前にいくつかのテーマを用意し、参加者に選んでもらう形式で行うことにしました。 (それもうOSTじゃないじゃんというツッコミはスルーします!) テーマですが、参加者にとって親みやすい、かつ個々人にとって学びがある・持って帰られるネタがあることを重視し、下記に5テーマを用意しました。 在宅勤務 レビュー 設計・見積もり 仕事を早く終える方法 チームビルディング LIFULLも現在は在宅勤務が多くなっており、総会もzoomでの開催となりました。 上記のテーマごとの部屋を用意し、参加者が入りたいテーマの部屋に入ってトークする形式で実施しました。 やってみてどうだったか やってみて良かった点、イマイチだった点・改善点は下記です。 良かった点 普段関わりのないメンバーでの交流ができた、話が参考になったという意見が参加者からも聞くことができた テーマ選定が日常業務の範疇だったため、初対面くらいの関係性でも議論がしやすかった 自分でテーマを選ぶことができたので、話が盛り上がりやすかった イマイチだった点・改善点 テーマにより人数にバラつきがあり、人数が少なすぎて解散した部屋もあった(5、6人がちょうどよさそう) 技術的な話題のところは知識差がある場合に同じ目線で議論をするのが難しかった テーマは事前発表されていた方が準備して臨めるので議論が深まりそうだった 総会実施後にはアンケートも実施しましたが、約80%がやってよかった、約95%がまたやりたいと回答しており、おおむね好評な結果が得られました。 一方で改善点も多く見えてきております。 目指す姿に近くためには継続性が重要と考えますが、継続していくには議論の質を高めていく工夫も必要と感じています。 まとめ 今回我々の組織で実施した総会について紹介させていただきました。 タイトルは釣り気味ですが、満足度が高かったのは本当なので、今後も改善を重ねながら継続していきたいと考えています。 上記のような形式でのディスカッションは総会以外のチームビルディングにも有用と思いますので、参考になれば幸いです。
こんにちは。LIFULLでエンジニアをしている中村優太です。 2020年4月に新卒で入社して、早くも4ヶ月、配属されて2ヶ月が経過致しました。 この記事では、配属までのLIFULL新卒エンジニア研修についてご紹介したいと思います。 はじめに 研修スケジュール プログラミングの基礎 個人開発演習 その他トピック 最後に はじめに LIFULLのエンジニアは2ヶ月間の新卒研修があります。 最初の2週間は全職種合同で会社のビジョンの理解や社会人の心構え、ビジネス基礎を学び、残りの1.5ヶ月間はエンジニア研修になります。 LIFULLの新卒エンジニア研修はプログラミングの基礎の基礎から始まります。 と言うのもLIFULLはとにかく経営理念『常に革進することで、より多くの人々が心からの「安心」と「喜び」を得られる社会の仕組みを創る』を大切にしています。 採用過程では技術力を評価の軸にするのではなく、経営理念に共感する価値観を持っているか?、それに伴う行動を自発的に起こしてきたか?が評価されている(のだと思います!)。 そのため新卒には、Web開発インターンをしていた人もいれば、Web開発は未経験と言う人もいます。 それどころか同期は、大学で生物を研究してた人、機械科出身、農学部出身とバックグラウンドも様々です!(ここもLIFULLらしい) 前置きが長くなりましたが、つまりは技術差があるのです! 新卒エンジニア全員がWeb開発の基礎と全体像を理解し、実装できる状態にしてから実務に入る。 そのためにエンジニア研修は1.5ヶ月に設定されています。 そして今年はみなさんご存知の通り、新型コロナウイルスの影響により入社初日から出社できないと言う状況でした。 LIFULLでは入社式もリモートで行いました。 当然エンジニア研修もフルリモートで行われました。 そんなLIFULLの新卒エンジニア研修について紹介していきます。 このブログを見ていただいた方、特に就職活動中の学生に入社後の様子やLIFULLの人となり、空気感が少しでも伝われば幸いです。 研修スケジュール 以下がざっくりとした研修期間のスケジュールです。()内には営業日を書いています。 04/10 - 05/01(15) プログラミングの基礎 Linux HTML, CSS, JavaScript PHP PHPフレームワーク(Laravel) 05/07 & 05/08(2) ソフトウェアテスト & セキュリティ研修 05/11 - 05/19(7) 個人開発演習 5/20 成果発表会 スケジュールを改めて振り返ってみると、ゴールデンウィークなどもあって営業日だけで言うと1ヶ月分もなかったんですね。 内容については後述してますが、25日間でやる内容にしてはかなりボリューミーです。 さらに今年はオンラインでの研修ということもあり、何かと模索しながらの研修で大変でした。 講師の方は僕たちの数倍大変だったと思います。。。 あくまで僕の例ですが、研修前と研修後のスキルマップはこんな感じです。 Web開発はほとんど未経験でしたが、研修を通して非常に幅広い技術に触れたと思います。 研修の最後の方にはスキルマップには記載されていない技術にもチャレンジしたので、めちゃくちゃ詰め込み教育ですね。 プログラミングの基礎 「はじめに」でも記述したようにLIFULLのエンジニア研修は基礎の基礎から始まります。 Linuxの生い立ちや、HTML,CSS,JavaScriptを使ったDOM操作などWeb実装未経験者にも1からわかる授業です。 ちなみに研修のスタイルとして、講義内容についてすでに理解している人は自習しててOKです。 あくまで目的はエンジニア基礎スキルの向上です。 PHPの研修の最後には、課題アプリケーションを2つ作成します。 課題が与えられ制限時間内にアプリケーションを作成します。 実装が終わると、レビューの時間が設けられており、2人分のコードに対してレビューを行います。 また自分のコードには同期2人と講師の方からレビューをもらえます。 (ちなみに講師の方は全員分のコードをレビューしてくれました。大変だ。。。) 学生時代の研究では、コードに対するレビューは経験することがなかったのでとても新鮮であり、同時にレビューで他人のコードを理解することの難しさを学ぶことができます。 配属されて2ヶ月ですが、先輩方のレビューを見ていて、レビュー能力はエンジニアにとっていかに大切な能力なのかをひしひしと感じてます。 社内には、ソフトウェアテストとセキュリティを専門に扱うグループがぞれぞれあり、そのグループの先輩社員から1日ずつ講義を受けます。 ソフトウェアテストでは実際にある仕様に対するテストケースを自分で考えます。 テストケースを考える上で必要な観点が必要最低限身につきます。 セキュリティ研修では、座学もありますが、実際に研修用サーバに対してSQLインジェクションやXSSを仕掛けます。 研修の最後にはCTF(Capture The Flag)という情報セキュリティのスキルを競い合うセキュリティコンテストを行います。 2人一組で課題に取り組みます。 研修用のWebサイトに対して、いろんな攻撃手法を試して、隠されたキーワードを見つけ出します。 これがまた楽しい!がしかし、できないと悔しい。。。 個人開発演習 個人開発演習はサービス開発における「企画、スケジューリング、要件定義、設計、実装(サーバサイド、フロントサイド)、テスト」の全てを1人でやりきります。 テーマは「チャレンジ&リスペクト」。 制約は「Laravelを使うこと」くらいです。 LIFULL内の多くのサービスにPHPが用いられていることからこの制約が設けられています。 みんな各々自分の作りたいサービスを作ります。 そのため特に授業などがあるわけではありません。 個人開発演習期間の1日のスケジュールは、「朝会→ 個人開発 →昼食→ 個人開発 →夕会→ 個人開発 →終了」です。 本当に1日中個人開発しています。 しかし、講師の方の計らいにより、基本的にZoomを繋げたまま、カメラをオンの状態で個人開発を行いました。 そうすることで、少し実装でつまづいた時や困った時に気軽に相談できるようになりました。 そしてその問題に対して、みんなで考え、調べ解決していきます。 あくまで個人開発ですが、お互いに何を実装したいのかを理解し、知見共有していくことでみんながより良いプロダクトを作れるような環境ができていたと思います。 また、テーマにあるチャレンジの取り組み方も人それぞれで、研修内容で習った内容を最大限プロダクトに落とし込んでアウトプットすることはもちろんですが、自分なりの技術的チャレンジを行います。 CSSフレームワークを使わずにあえてCSSをフルスクラッチで開発する人 PREACT x redisで超軽量ネイティブアプリを作る クリーンアーキテクチャ AI技術を取り入れたアプリケーションを3つ作る 研修中にクリーンアーキテクチャが同期内でブームになりました。 個人開発演習では同期2人が実際に「Laravel x クリーンアーキテクチャ」にチャレンジしていて大変そうだったのが印象に残ってます。 (そんな同期が書いたQiita記事です。ぜひご覧ください! https://qiita.com/Shiruba/items/b0754a5815e0583aa8ce ) 僕は「Vue.jsとDocker使ってみたい」という、いかにもミーハーかつ浅はかな考えで以下のような技術選定を行いました。 時間も限られている中で、少し幅広く手を出しすぎたかなという気がしています。 しかし、いろんな技術に触れることは新鮮で楽しいですね! 研修の最終日には成果発表会があります。 成果報告会はエンジニア全社員にZoomが公開されており、配属後のメンターやグループ長だけでなく、非常に多くの人が見にきてくれました。 みなさん活発に質問してくださり、すごく盛り上がりました! ちなみにLIFULLでは2年目にもエンジニア研修があり、チーム開発でプロダクトを作り上げます(手厚い😂 )。 噂によるとそちらの成果報告は厳しい質問も飛んでくるとか。。。頑張ろう! その他トピック 毎日の研修には日直が決められており、研修の最後に「日直スピーチ」があります。 自分の好きなもの、経験してきたことを好きなように話すコーナーです。 コンテンツは - 3Dモデリング - Deep Learning - 好きなキーボードについて語る - おすすめのVSCode拡張機能 - 競技プログラミングの魅力 - Haskelの魅力 みたいな感じです。 他にも講師の方による、監視技術やボトルネック調査の方法などを講義していただき、研修内容には含まれない実践的な内容も聞けました。 そして中でも僕が印象強く残っているのは、同期が話してくれた「DNAを使ってデータを保持する」という話です。 長くなりそうなので、詳細は省略しますが、DNAはアデニン、グアニン、シトシン、チミンの4種類の塩基が含まれており、この配列によって遺伝子が表現されているみたいです。 1つの塩基対で2ビットのデータを表しているということ! つまりここから導き出される結末はDNAはわずか1グラムで215ペタバイトのデータを保持できるということらしい! 衝撃的すぎますよね! 多種多様な話が聞けるのもメンバーのバックグラウンドが様々だからです! また、研修終わりにみんなでオンライン懇親会を行い、研修では話せないプライベートな話をして盛り上がりました🍺 最後に 配属されて2ヶ月が経過しましたが、実務でも「チャレンジ&リスペクト」が大事だなと思います。チャレンジする環境があり、それを周りが全力で応援する。 LIFULLの社風と言っていいと思います。 僕は同期とやってきたプロジェクトが新規事業提案制度(Switch: https://lifull.com/company/bctw_japan/) で入賞し、業務時間の20%を新規事業創出に費やしています。 新卒でいきなり新規事業に関われるのは、とてもありがたい機会だなと感じています。 また、その新規事業は社長室と呼ばれる新規事業を専門とするエンジニアや、ビジネスのプロフェッショナルがアドバイスをくれたり、時にチームのメンバーとして事業を推進してくれます。 まさに「チャレンジ&リスペクト」です。 僕自身も配属された部署で最大限価値を提供し、さらには今行ってるプロジェクトをLIFULLの子会社化するという目標を持って突き進みたいと思います! 最後までお読みいただきありがとうございました。 ぜひ、少しでもLIFULLって面白そうだなと思っていただけたら幸いです。 さらにLIFULLに入社して、みなさんと一緒に働けるのを心から楽しみにしております! では!
技術開発部の相馬です。好きな UI フレームワークは Svelte です。 私が現在所属しているグループでは、弊社のメイン事業である LIFULL HOME'S における開発効率の改善などを行っています。 今回は、LIFULL HOME'S の Web フロントエンド(以降はフロントエンドと表記します)開発環境を、Node.js の資産を用いて近代化した話(以降は近代化と表記します)をご紹介したいと思います。 目次 はじめに 近代化として取り組んだ内容 Sass の導入 Rollup の導入 Babel の導入 PJ を進める上で立ちはだかる問題点 全ファイルのコンパイル前後における動作担保問題 文字コード問題 CSS ハックをパースできない問題 デプロイサーバー(テスト)で本番デプロイできちゃう問題 学び npm ci の必要性 npm modules の更新作業 おわりに はじめに LIFULL HOME'S は弊社でもっとも開発が盛んなアプリケーション(Repository)です。 Commit 数や Contributor 数は恐らく弊社でもっとも多く、また開発の歴史も非常に長い(9年超)です。 アプリケーションの基本構成は PHP(Symfony + Twig) + jQuery で、サーバーサイドでテンプレートを組み立て HTML を構築し、クライアントサイドでは jQuery を使って補助的に DOM の操作などを行うような形です。 近代化を行うにあたり、当時の課題点としては大きく 2 種類ありました。 CSS/JS の minify/bundle は 初回の HTTP リクエスト時に PHP 側からランタイムで生成される 初回リクエストのレスポンスが非常に遅くなってしまう CSS/JS の依存関係の解決(ファイルの読み込み)は Twig 上で行なっており、JS などを単体で見た場合に依存関係が分かりづらい CSS/JS は開発者が書いたコードがそのまま(minify/bundle を除く)ブラウザーへと出荷される CSS vendor prefix 手作業がつらい URL 関数などで参照する画像のバージョン管理(cache-buster の手動付与)がつらい Hex などのデザイン周りの値が毎回ハードコーディングでつらく、たまに間違っててつらい JS 変数スコープがつらい 3rd party ライブラリの取り扱いが煩わしい JS のみで静的な依存解決ができない 近代化として取り組んだ内容 前述した課題を解決するため、実際に取り組んだ内容としては以下の通りです。 Sass の導入 前述していた CSS に対する課題は、Sass を導入することでほぼ全て解決できましたが、画像などの cache-buster のみ、ライブラリだけではどうにもならなかったため、対象サーバに内包している画像については Sass のビルドの事前に MD5 を計算した結果をファイルへと出力しておき、 Sass の JavaScript API を使って CSS の URL 関数をオーバーライドし、MD5 の計算結果のあるものは Hash を付与して URL 関数を組み立てる ということを Sass の build 内で行うことで解決しました。 sass-lang.com この対応によって、既存のコードを修正することなく、また開発者のメンタルモデルも据え置きでハッピーだねという作戦です。関数名を別の名前(URL_USE_CB のような)にして、CSS 側をリネームするかという議論もあったのですが、オーバーライドするデメリットがほぼ存在しないことと、別の関数に切り出した後の周知徹底/実装忘れの懸念を考慮した結果、URL を上書きするという結論に至りました。 また、テンプレート(Twig)側から参照される画像についても、Twig 上に cache-buster 用のカスタムタグを作成し、その中で参照される img 要素には PHP から例の MD5 の計算結果ファイルを参照し、自動で付与されるように実装を加えました。 input {% cachebuster %} < img src = "/img/xxxx.png" > < img src = "https://s3..../foo.png" > {% endcachebuster %} output < img src = "/img/xxxx.png?v=xxxxxxxxxxxx" > < img src = "https://s3..../foo.png" > また、開発補助として StyleLint/Autoprefixer も合わせて導入しています。 Rollup の導入 JavaScript の bundler には Rollup を選択しました。 選択した理由としては、将来的に module/nomodule を採用した build プロセスを検討していたため、実装当時では ESM 形式の output の選択肢を取ることができる唯一の bundler だったということと、plugin の書きやすさなどが大きな要因です。 philipwalton.com 実装したい機能が満たされているかの確認として、bundler の機能比較はこのサイトを参考にするのが良いと思います。 bundlers.tooling.report また、弊社では長年 joo というライブラリを使ってクラス宣言のようなことを行い、その宣言単位でモジュールと呼んで開発を行なっていたのですが、そのモジュール間の依存関係の解決は global(window)の名前空間を頼りに行なっていました。 github.com イメージです // module/A.js def().as( 'myapp.module.A' ). it.provides( { method: function () { ~~~~~~~ } } ); // module/B.js def().as( 'myapp.module.B' ). it.inherits( window .myapp.module.A). it.provides( { method: function () { this ._super(); ~~~~~~~ } } ); しかし、これらの JS ファイルの読み込みは Twig 側から行なっていたため、そのページ(ルーティング)から読み込まれる Twig をまず特定し、そこから辿るようにして JS が読み込まれているかどうかを判定するしかファイル特定の術がありませんでした。また、Twig 上で依存関係(JS の読み込み及びそれらの読み込み順番)を解決しているため、ページによっては依存するモジュールを読み込んでおらずランタイムでエラーになってしまうということが発生してしまっていました。 <!-- ./somepage/head/javascript.twig --> {{ minify_js([ "module/A.js", "module/B.js" ]) }} <!-- ./somepage2/head/javascript.twig --> {{ minify_js([ "module/B.js" <!-- 依存する A を読み込めていない --> ]) }} この問題に対して、Twig 側で依存関係の解決をするのをやめ、ESM の import/export を使用して JS 上で静的に依存関係の解決を行えるようにしました。 Babel の導入 JavaScript のコンパイラーとして Babel を導入しました。 前述した joo などは Class シンタックスによって、this のスコープ問題で bind や this の再代入などを行なっている記述はアロー関数に書き換え可能です。Optional chaining や Nullish coalescing などが良い例ですが、コードの記述量に関してもモダンな構文を採用する方が少なくなる傾向にあり、コード全体として可読性の向上にも繋がると思います。 また、導入時には基本的にモダンシンタックスのダウングレードコンパイルの役割しか持たせませんでした。 というのも、Babel を利用する場合 @babel/preset-env を併用して browserlist などでサポートブラウザを指定し、未サポートのメソッドの利用があった場合に Babel が core-js などから polyfill コードを読み込むのが一般的なセットアップだと思われますが、この自動判定の仕組みには限界があり「該当するメソッド呼び出しがあった際に透過的に追加する」という問題が発生してしまいます。今回の一件で具体例を挙げると Array.prototype.find と jQuery の $.find を見分けることが出来ずに不要な polyfill コードが読み込まれてしまっていました。 この挙動によって、後述する自動テストに影響が出てしまうため @babel/preset-env のオプションで利用する polyfill は、エントリーとなるようなファイルで手動読み込みするような設定にしました。 @babel/preset-env · Babel Babel 自体は Rollup の plugin として通すようにビルドを組みました。 PJ を進める上で立ちはだかる問題点 これらのツールを適応/導入すること自体はそこまで難易度の高いものではありません。 しかし今回取り組んだ環境には 9 年を超える"重み"が存在し、PJ を進めるには同時にこれらを解決する必要がありました。 全ファイルのコンパイル前後における動作担保問題 前提として、これらの導入/移行計画は全ファイルを一括で行う必要がありました。 CSS で約 700 ファイル、JS で約 1500 ファイルほど存在していたのですが、それぞれコンパイル前後でファイル内容に差分が発生することが分かり、リリースするためには「コンパイル前後で生じた差分によって現状の期待値とずれてしまうことがない」ということを全ページの全機能で確認する必要がありました。 正攻法でいくには圧倒的にテスト工数が足りないことが分かっていたため、ブラウザ上での動作確認は念頭に置いておらず、「コンパイル前後で構文上に差分がないこと」を確認するという方針を取りました。 最終的には AST の一致を測る自動テストで 99.9 % 以上を担保することができました。Babel によってどうしても変えられてしまう if 文表記がいくつかあったので、そこだけは等価性を証明できなかったため、手動での確認を行いました。 無事何事もなく済んだのですが、リリースのためにはこの「何事も起きないはず」ということを証明する必要があったというのが最初の小話です。 文字コード問題 歴史のあるサイトのため、中には UTF-8 ではないファイルがそれなりにありました。 基本的にコンパイルされ作成されるファイルは UTF-8 として吐き出されてしまうため、日本語などでコメントが記述されている箇所を特定し、事前に文字コードと内容を修正する必要がありました。 CSS ハックをパースできない問題 いわゆる CSS ハックな書き方は、仕様上正式な構文ではないため、Sass の parser がエラーとして扱ってしまいます。 これらは全て以前サポートしていた IE 向けの記述ばかりだったのですが、幸いなことに現在弊社では IE については 11 のみをサポートしているため、これらの記述は本来不要であったため、事前に手動で削除する対応を行いました。 デプロイサーバー(テスト)で本番デプロイできちゃう問題 以前の弊社のデプロイ方法は、Jenkins からリリーススクリプトを手動実行し、魔法のシェルスクリプトによって本番サーバへと展開されていました。(現在は k8s にのっているため当時のこのフローは存在しません。詳しくは下記リンク先の記事をご覧ください) www.lifull.blog その魔法のシェルが動いている環境が、見出しで言及しているデプロイサーバで、これが非常に厄介ものでした。 歴史的な理由により、いわゆるテスト環境内で閉じた状態で動作確認を行える環境がありませんでした。 デプロイサーバ(本番)とデプロイサーバ(テスト)の環境的な差分はほぼ存在せず、デプロイサーバ(本番)で動いているスクリプトを コメントアウト/修正 して動作確認をする必要がありました。 デプロイの向き先をミスしてしまうと、テスト中のソースで本番サーバに展開されてしまう可能性があり、ここでの動作確認がこの PJ でもっとも精神的負荷のある局面でした。 PJ チーム一丸となり、円陣を組みながらシェルを叩いた(比喩表現)のが功を奏し、本番デプロイは免れ無事にテストは完了できました。 学び 今回の近代化を通して、いくつか学びがあったので最後にまとめさせていただきます。何かに役立てば幸いです。 npm ci の必要性 リリース当初、モジュール更新は npm i コマンドでセットアップしていたため、実行タイミングによっては package-lock.json に差分が生じてしまう構成になっていました。 開発に関しては、都度マージすればいいんじゃないくらいの温度感の話なのですが、ある日社内のステージング環境の一つが突然更新が途絶えたタイミングがあり、調査した結果「定期的に git pull をしてソースを最新化」しているような構成だったため、 package-lock.json に差分が生じたタイミング移行の git pull が失敗してしまっていました。 前述したリリーススクリプトでは「git 上で差分が無いこと(ステージングに何も存在しないこと)」を確認するステップがあり、こちらも大慌てで修正した次第です。 package-lock.json から忠実に再現したい場合に npm ci の必要性を認識させられました。 npm modules の更新作業 開発タイミングやブランチのマージタイミングによって、作業環境の node_moudles が最新の状態ではないことはそれなりに発生すると思いますが、その状態でビルドなどを実行した場合は必須モジュールが存在しないためにエラーとなってしまいます。 この際 Node.js への理解などがある場合は各自で npm ci を再実行してもらえば良いのですが、多くの開発者が出入りしている Reposiroty では全員がそうとは限らず、エラーの問い合わせも何度か発生していました。 この問題に対して、node_modules の更新作業を自動化するスクリプトを、開発コマンドの前に発火させることで対応しました。 イメージ " predev ": " node ./ check - module - install . js " " dev ": " run - p dev :*" スクリプトの内容としては、 package-lock.json の中身と node_modules 配下のモジュールのバージョン確認をするシンプルなスクリプトで、完全に一致していれば何もせず、差分があったタイミングで npm ci を別のプロセスで実行するような内容です。 これを Github Packages として公開し、社内の他のプロジェクトでも利用できるようにしました。 おわりに 今回の PJ のように歴史あるアプリケーションの改善やリファクタリングにおいては、技術的課題に対して導入/解決する技術選定の問題と、それらを取りまく開発環境などにまつわる技術的問題が重なるケースがあり、場合によっては後者が進行を鈍化させてしまうこともあると思います。 また、開発環境の改善をする際は「それらを利用する開発者」のことを第一に考え、導入チームのバイアスがかかり過ぎないよう全体として最善の選択になるように心がけています。 今回のプロジェクトは約 3 ヶ月の期間で開発 2 名 + QA 2 名という体制でしたが、障害なく完遂できました。サポートしてくれた優秀なメンバーや様々な調整/依頼を快く引き受けてくれた多部署のメンバーに恵まれたことも、今回のような部署を跨いだ大きめなプロジェクトを成功させるための大きな要因の一つだと思っています。 これからも、緩やかではありますが、着実な改善を続けていきたいです。
こんにちは。プロダクトエンジニアリング部の中島です。 本稿(連載)では LIFULL HOME'S におけるフロントエンド技術スタックの刷新やリファクタリングの取り組みについて発信していこうと思います。 歴史 LIFULL HOME'SではバックエンドをSymfony2(php) + SinatraベースのBFF(ruby)、フロントエンドをjQueryといくつかのマイクロライブラリによって構築しています。 LIFULL HOME'Sの現在稼働しているサイトの歴史はPJ規模に対して存外古く、2010年末に開発をスタートして現在に至ります。 当時、フロントエンド側のフレームワークは今に比べると随分未成熟だった(初版のbackboneがリリースされたのがこの頃)こともあり、フレームワークの利用を採択するには至りませんでした。 とはいえ、多少の秩序がないことにはLIFULL HOME'S程度の規模感のサイトでも破綻は容易に想像できたため、いくつかの小さな設計とそれを補助するライブラリを組み込みました。 class-likeなオブジェクト設計とネームスペースを提供するJavaScript OOPライブラリ( joo )の導入 今でいうclass syntaxの機構を提供するもの UIパーツごとのViewオブジェクトの生成 Backbone.Viewに当たるもの Viewオブジェクトのイベントバインディング機構のルール化 Backbone.Viewの@eventsに当たるもの Viewオブジェクト間の相互作用を疎に実現するためのメディエイターライブラリ( pubsub.js )の導入 グローバル放出したBackbone.Eventsインスタンスのようなもの 初期設計時は特にBackboneを意識したつもりはありませんでしたが、結果としてこれらはBackboneの基礎的な設計と酷似したものとなりました。 LIFULL HOME'Sというそこまでリアクティブでないサイトにおいてはこの基礎的な設計は案外はまっており、いくつかの問題となるケースは抱えながらも、致命的な局面はさほどなかったように思います。 LIFULL HOME'Sの現行バージョンは最低限の物件検索だけを提供する形で初期リリースを迎え、その後9年は旧サイトからの移行と機能拡充・コンテンツ拡充・UIチューニングを進める日々でした。 これは裏を返せば、この長い期間の中でフロントエンドにおける技術投資は初期設計のみで、途中途中ではサイト全体に影響を与えるような大きな設計の見直しはほぼ為されてこなかったということでもあります。 この間に時代は移り変わり、Bundlerによるmodule機構の提供であったり、TranspilerによるモダンなSyntaxの提供であったり、UIを揃えるための様々なアプローチであったり世間では多くの技術課題に対する解決方法が提示されてきました。 近年のLIFULL HOME'Sは開発当初より随分とFatになり、もう個人的な努力で基礎的な設計に大きな変更を加えることは難しくなり、これらの導入も先送りにされ続けてきました。 しかしながら、開発現場からは日に日にモダンな開発環境を求める声も聞こえるようになったり、大きくなりすぎた現行サイトのフロントエンドパフォーマンスに限界を感じはじめたというのもあり、とうとう2019年末ごろからフロントエンドの開発における技術投資がなされることになりました。 刷新・リファクタリング作業の流れ Sassの導入 Rollup + Babel導入によるモダンシンタックス + モジュール機構の提供 フロントエンドのワーキンググループ結成 レンダリングパフォーマンス向上のための阻害要因の検出と排除 UIの統一性を加速させるためのStyleGuideの導入 テンプレートエンジンのPrecompilerの作成 JavaScriptフレームワークの導入 module化したUIパーツの提供 単に刷新やリファクタリングといっても組織的に活動しないとリスク管理的にニッチもサッチもいかないものと、ある程度のサポートがあれば個人の努力で改善できるものがあると捉えてプロジェクトチームを結成して行うものと、もっとフランクに個人のこうしていきたいを尊重し、レビューやテスト、活動時間の摂政等のサポートをして進めていくワーキンググループを作成してそれぞれで連携を取りながらアプローチしていくことにしました。 プロジェクトチームを結成して遂行したものとしてはSassの導入や Rollup/Babelの導入、テンプレートエンジンのPrecompilerの開発などの開発基盤的なところを整えることにフォーカスし、ワーキンググループサイドではサイトパフォーマンスのチューニングや、運用効率を高める再利用性の高いUI部品の提供などを行いました(現在進行形)。 それぞれの対応の詳細については以下のカテゴリリンク(随時追加)から発信していきます www.lifull.blog
Hi there, my name is Jye Ruey . I'm a Software Engineer in Test (SET) from LIFULL. This article is a translation of 自動システムテストツール「Bucky」OSS化までの道のり - LIFULL Creators Blog , which is written in Japanese by Rikiya Hikimochi . Introduction We SET group publish a test framework "Bucky" as an Open Source Software (OSS). github.com github.com Bucky was a internal tool, which was used for the automation testing. There are a lot of difficulties on the way to OSS. This article will share these difficulties and also share the knowledge we gain on the way. Introduction Why we decide to publish Bucky as an OSS The way to OSS 1. Refactoring 2. Adopting system testing 3. Register on RubyGems.org After release Doesn't prepare the operational procedures ruby version Release the Gem automatically At Last Why we decide to publish Bucky as an OSS "Make LIFULL engineer more visible" Although our main service "LIFULL HOME'S", a real estate and housing information aggregation web service, is well-known in Japan, LIFULL's engineers who make this service are still little-known. By publishing Bucky as an OSS, we suppose that it will make us become more famous. "Hope everyone can use it" Simply, we just hope more people can give Bucky a try. We use Bucky almost everyday and we think Bucky is so convenient. So we will like to share with everyone in the world. "For more feedback from outside, and improving it become more easier to use" Although Bucky is open now, there are still a lot of part can be improved. Because we want to make Bucky better, we will take the external feedback aggressively. And we are looking forward to getting the issue and Pull Requests. The way to OSS 1. Refactoring Because the OSS will release under our company's name, the code should be clean as much as we can. We refactor the code by using static analysis tool Rubocop and CodeClimate. Here are the steps: Integrate Code Climate and Github. And analyze the code and measure the coverage of the unit test. By the integration, create the issue detected by Code Climate on Github. Assign the issue to SET member, and fix refactor the code. Double check the code by using CodeClimate Cli on the local environment By using Code Climate, it is more easier to manage the issue and becomes more efficient in refactoring. Furthermore, Code Climate shows maintainability and coverage on the dashboard. It improves our motivation to refactor the code. CodeClimate rank the code from E to A. Maintainability transition of the repository. The badges also have a good looking. codeclimate.com 2. Adopting system testing Improving the whole quality. We adopt the system testing. To ensure the Bucky command operation and the execution of Bucky test script, which the unit testing can't. By introducing the test framework "Bats", we can make the output and status in Bash, as the expectation in the system testing. github.com The structure of system testing is as follow: 1.Github push triggers CircleCI, and run container as below. ・ container for test (Nginx) ・ selenium-standalone container ・ test execution container (Bucky) 2.With Bats, we can validate the execution output and exit code are same as expected operation. The system test script implement in here . 3. Register on RubyGems.org Making Bucky as a gem package maybe more easier to use. We register on RubyGems.org at the same time that OSS release. bucky-core | RubyGems.org | your community gem host After release Doesn't prepare the operational procedures We want to release as fast as possible, so the entire document didn't prepare well. This will lead some problem as bellow. Problem User don't know how to use it after install the gem package. We only got the simple procedures in README at that time. The way of using Bucky-management doesn't clear. Bucky-core is for test implementation and execution; Bucky-management is for test report. User don't know how to use it even though they read the README. Solution 1: Prepare article for Hands-on guild Quick start With Bucky-management Qiita blog hands-on article (Written in Japanese) Solution 2: Updating README structure Adding the setup step. Procedure of installation and test script implementation is listed in Setup. Procedure of executing of execution is listed in Usage. ■ Before - Bucky-Core - Overview - Feature - Set connection infomation for database - Usage - Install - Run test - Implement test code ~omit~ ■ After - Bucky-Core - Overview - Feature - Setup - Install - Implement test code - Set connecting information for database - Usage - Run test - Rerun test ~omit~ ruby version Because forgetting specific the required_ruby_version in gemspec, the required version is showing greater than v1.0.0 at that time. We fixed that in a hurry. Release the Gem automatically We also make the RubyGems release flow to automatically. The flow will trigger by the release tag on Github. And will execute the flow as follow. Change the version in gemspec Push into master branch Packaging Gem Release to RubyGem More detail is in the bellow article. (in Japanese) RubyGemsリリースを自動化した話 - Qiita At Last Even though the user is not an engineer, test script can be written easily in YAML format. Please have a try. More detail about the procedure, please read the README or the hands-on guide. There are still many parts can be improved. We will keep developing and looking forward the issue and Pull Request.
技術開発部の相原です。 以前にブログで書きましたが、LIFULLでは主要サービスのほぼ全てがKubernetesで稼働しています。 www.lifull.blog Kubernetesをアプリケーション実行基盤として本番運用するためにはデプロイやモニタリング・ログ、セキュリティなど考えることが多くどこから手を付ければよいか困ることがあるでしょう。 そこで今回は既に数年の運用実績のあるLIFULLのアプリケーション実行基盤で利用しているKubernetesエコシステムについて紹介します。 全て書くと数が膨大になるので今回はクラスタ周りを中心に、必要とするソフトウェアの数が多いモニタリング・ログまでとします。(それでも大作になりそうですが...) kubernetes/kops projectcalico/calico coredns/coredns node-local-dns kubernetes-sigs/aws-iam-authenticator kubernetes/autoscaler kubernetes-sigs/descheduler istio/istio prometheus/prometheus prometheus/alertmanager knative thanos-io/thanos grafana/grafana tricksterproxy/trickster DirectXMan12/k8s-prometheus-adapter kubernetes-sigs/metrics-server kubernetes/kube-state-metrics kubernetes/node-problem-detector prometheus/node_exporter kubecost/cost-model kaidotdev/kube-trivy-exporter fluent/fluentd kaidotdev/events-logger 最後に kubernetes/kops github.com kopsはAWSやOpenStackなどへのKubernetesクラスタ構築を行うクラスタ管理ツールです。 KubernetesのIn-place Upgradeにも対応していたり、最近はKubernetesのバージョンアップへの追従の速度が上がっていて、このエントリの執筆時点でKubernetes 1.17に対応していて開発も活発です。 LIFULLでは主にAWSが利用されているため、このkopsを利用してAWS上にKubernetesクラスタを構築しました。 当初はAWSにEKSが無かったためkopsで構築をしましたが、EKSのリリース後も既に後述の認証部分やクラスタのオートスケールを実現をしていてEKSへ移行する旨味が少ないと判断して現在も使い続けています。 kopsからkube-apiserverのAuditログの設定ができるので併せて有効にしてあります。 また、ノードに多くのワークロードをデプロイするとkubeletが稼働するためのリソースが不足してしまうことがあるため、 spec.kubelet.kubeReserved から必要なリソースをkubeletに確保しておくことを忘れないようにしましょう。 LIFULLではスポットインスタンスの活用も進んでいて、preemptiveなワークロードの多くはスポットインスタンスで稼働しています。 単にスポットインスタンスにデプロイしてしまうとAWS側によるスポットインスタンスの停止でPodが安全に終了できないため、スポットインスタンス停止のシグナルを受けてノードのDrainを実行する以下のスクリプトをDaemonSetで動かすことで対処しています。 #!/usr/bin/env bash INTERVAL = 1 # Spot instance terminates 2 min after notification # https://docs.aws.amazon.com/ja_jp/AWSEC2/latest/UserGuide/spot-interruptions.html#spot-instance-termination-notices SPOT_LIFESPAN = 120 while true; do test " $( curl -sSL http:// 169 . 254 . 169 . 254 /latest/meta-data/spot/termination-time -o /dev/null -w ' %{http_code} ' ) " -eq 200 && break sleep $INTERVAL done ( sleep $(($SPOT_LIFESPAN - 30 )) && kubectl delete pod --field-selector =" spec.nodeName= $NODE_NAME ,metadata.namespace!=kube-system " --all-namespaces --wait =false ) & kubectl drain $NODE_NAME --force --ignore-daemonsets --delete-local-data sleep $SPOT_LIFESPAN NODE_NAMEはKubernetesのDownward APIによってデプロイされているノードの名前です。 projectcalico/calico github.com kopsは構築時にCNIを指定できるためそこでcalicoを採用しています。 calicoはBGPを用いたハイパフォーマンスなL3ネットワークを構築するためのCNIプラグインで、NetworkPolicyの利用も可能です。 kopsからAWS VPCというCNIプラグインを採用した場合、NetworkPolicyが利用できなかったり、PodがそれぞれVPC内のIPを使うためIPが枯渇する可能性があることにご注意ください。 coredns/coredns github.com 同様にDNSのコンポーネントについても選択できるためCoreDNSを採用しました。 CoreDNSはCNCFのGraduated Projectで、Kubernetes 1.13からはデフォルトでCoreDNSが利用されるようになりました。 kopsを用いてCoreDNSをインストールした場合、そのままではSIGTERMを適切に解釈せずRolling Update時にリクエストを取りこぼしてしまうため、 インストール時に以下のようにlameduckプラグインを有効にする必要があることにご注意ください。 $ kubectl get configmap -n kube-system coredns -o yaml | sed -r ' s/^(\s+)health$/\1health {\n\1 lameduck 5s\n\1}/ ' | kubectl apply -f - $ kubectl rollout restart -n kube-system deployment/coredns またkopsを利用してCoreDNSを有効にすると共にインストールされるcoredns-autoscalerについてもデフォルトだと適切にスケールしない可能性があるため調整を忘れないようにしてください node-local-dns github.com node-local-dnsはその名の通り、Nodeごとに名前解決の結果をキャッシュするためのコンポーネントです。 これが必要となる詳しい理由は以下にありますのでご参照ください。 kubernetes.io またクリティカルなところで言うと、kube-proxyのiptables実装を利用している際にUDPのEndpointの一覧の更新がうまくいかないケースがあるというものがあります。 kubernetes/proxier.go at 4505d5b182c85388627f1b5a648a2da377026871 · kubernetes/kubernetes · GitHub kube-dnsはそのまま使うとUDPで使うことになるためこの問題をはらんでおり、一度現象が発生してしまうとEndpointの更新が走るまで一部の名前解決のリクエストがblackholeされることになります。 node-local-dnsはこの問題に対しても有効に機能します。 Motivationの項にある通りiptablesによるDNATとConnection Trackingをskipすることができることに加え、node-local-dnsからkube-dnsへのリクエストはTCPにアップグレードされるため、少なくともkube-dnsに関してはこの問題が発生しなくなります。 ipvs実装はGAしたものの未だIssueが目立つ状況でお困りの方も多いと思いますので、node-local-dnsがお勧めです。 当然、名前解決のキャッシュによるパフォーマンス向上も期待することができます。 kubernetes-sigs/aws-iam-authenticator github.com こちらは旧heptio/authenticatorで、kube-apiserverに対するIAM Roleでの認証を実現するためのものです。 我々のKubernetesクラスタはMulti Tenantで運用しているため、各チームごとにIAM Roleを作成し権限の管理をしています。 kubernetes/autoscaler github.com kopsにはノードをオートスケールさせる機能がないため、リソースの確保量に応じてノードをスケールアウトさせるためにkubernetes/autoscalerを利用しています。 同様にリソース確保量の少ないノードをスケールインする機能も備えていて、スケールイン時にはDrainをして安全にワークロードを退避させることができます。 AWSでkubernetes/autoscalerを利用する際に注意しておかなければならないのは、AWSのAutoScalingGroupにはAvailability Zone間で台数を均等に保つための挙動があるということです。 この処理はAutoScalingGroup側で行われるため、ノードのDrainが行われずPodを安全に終了することができません。 これを防ぐためにはAvailabilityZoneごとにNodeGroupを分ける必要があります。 また前述のスポットインスタンスの活用に際してもスポットインスタンス用のNodeGroupを作成していて、kubernetes/autoscalerの持つexpanderという機能を利用してスポットインスタンスが優先的に利用されるように設定しています。 kubernetes-sigs/descheduler github.com 前述のkubernetes/autoscalerを利用してノードのスケールアウトをしていると、スケールアウト直後にノード間でリソース確保量にばらつきが出るという問題があります。 極端にリソース確保量の多いノードが存在している場合、そのノードでQoSの低いPodのEvictが起きる可能性が高くなってしまいます。 その問題を解決するのがdeschedulerです。 ポリシーを設定することで閾値を超えたノードからPodを対象のノードに移動させることができます。 RemoveDuplicates を有効にすることで同一ワークロードのPodが複数同じノードにある場合に退避させることもできますが、そういった制約を持たせたい場合は素直に antiAffinity を設定した方がいいため利用していません。 istio/istio github.com IstioはEnvoyをデータプレーンとして利用するサービスメッシュで、Kubernetesクラスタに対して優れたTraffic Managementや高いObservabilityを提供します。 Istioに関しては過去のエントリで触れているのでこちらも併せてご覧ください。 www.lifull.blog 我々のチームでは開発者がKubernetes Manifestを書く労力を削減するため、Kubernetesを利用するにあたってのプラクティスを盛り込んだManifestを生成するツールを提供しています。 このツールから生成されるManifestではIstioの利用が前提となっており、サービス間通信のCircuit BreakerやRetrying, Timeoutなどがデフォルトで有効化されるようになっていて、これにより多くのmicroservicesが安全に稼働するようになりました。 同様にIstioレイヤでのアクセスロギングも有効化されるようになっており、このツールによって開発者が意識することなくLIFULL共通のアクセスログフォーマットでログが吐けるようになっています。 アクセスログフォーマットが共通されたことでアプリケーション実行基盤として共通のログ分析を提供するにあたっても役立っています。 安くない運用コストを割いてIstioを導入しても実際に使われなければ絵に描いた餅となってしまいます。 このようにManifest生成ツールと組み合わせることで社内でIstioが広く利用される状況が作られました。 prometheus/prometheus github.com PrometheusはCNCFのGraduated Projectのモニタリングシステムです。 KubernetesのService Discoveryを使ってメトリクスを収集することができるためKubernetesとの親和性が高く、余計なエージェントを入れることなくクラスタの監視を開始することができます。 我々のチームでは新規開発プロジェクト向けのGitHubのTemplate Repositoryを提供していて、このTemplate Repositoryを利用してリポジトリを作成することでスムーズにKubernetesクラスタにアプリケーションをデプロイできるようになっています。 このTemplate RepositoryにはPrometheusのアラートのルールの自動生成の機能が備わっており、開発者が簡単にPrometheusでアラートの設定ができるようになっています。 また、Prometheusは単体で長期のメトリクスを保存することは想定されておらず、長期のメトリクスを保存するためには後述のThanosのようなソフトウェアを別途用意する必要がある点にご注意ください。 prometheus/alertmanager github.com AlertmanagerはPrometheusから送信されてきたアラートをSlackやWebhookなどを通して通知するためのコンポーネントです。 前述のアラートのルール自動生成時に適切なSeverityを付与するようにしていて、AlertmanagerではSeverityに応じて適切な頻度で適切なSlackチャンネルにアラートを通知するようになっています。 またAmazon SNSをイベントソースとしてLambda FunctionによるAmazon Connectを利用したオンコールシステムも開発していて、Alertmanagerと組み合わせることで必要に応じてオンコール担当者へ電話での通知も可能となっています。 knative github.com KnativeはIstioなどのサービスメッシュ上に構築する、いわゆるサーバレスワークロードを実行するためのソフトウェアです。 イベント駆動のワークロードや、前述のAlertmanagerのWebhookと連携させてアラートに伴うオペレーションの自動化に利用しています。 Kafkaを用いたChannelの永続化やメッセージングの提供も準備しているため、今後多くのワークロードで利用していく予定です。 thanos-io/thanos github.com ThanosはCNCFのSandbox ProjectのPrometheus向けLong Term Storageです。 Object Storageにメトリクスを格納することで長期のメトリクスを安価に保存できるという特徴を持ちます。 多くのクラウドプロバイダはS3やGCSのようなObject Storageを提供しているため単にそれらを利用するだけになります。 同種のソフトウェアの場合、自前で永続化されたストレージを用意する必要があったりCassandraやDynamoDBのようなデータストアを要求されますが、Thanosの場合は比較的セットアップが容易という点もメリットです。 ただし、Indexのキャッシュにmemcachedを利用できるものの同種のソフトウェアと比較して相対的にメトリクス取得の速度が遅くなるため、Thanos側でサポートしているShardingを利用しながら高速化に努める必要があります。 また、長期のメトリクスを用いたPrometheusのRuleの評価に関してもいい方法がなくこれも課題の一つです。 Long Term Storageであると共にPrometheusの冗長性の問題も解決していて、重複メトリクス除去の機能を備えているため複数台のPrometheusを立てて冗長化しつつ、Thanosを介してクエリすることで重複を除去して結果を返すことができます。 grafana/grafana github.com GrafanaはPrometheusなどをバックエンドとするVisualizationツールです。 先日リリースされたGrafana v7ではJaegerやZipkinといった分散トレーシングもバックエンドとして利用できるようになり、ログストレージにも同様に対応していることからモニタリングに関する一切の情報をGrafanaで表示することができるようになりました。 我々のチームでは開発者が簡単にダッシュボードを作成できるようgrafonnet-libというGrafanaコミュニティが提供しているライブラリをベースにJsonnetの整備も進めており、現在全てのダッシュボードがJsonnetで管理されています。 モニタリングのプラクティスに則ったダッシュボードのパネルを多く提供していて、開発者は必要なパネルをJonnnet形式で配置するだけで洗練されたダッシュボードを手に入れることができます。 tricksterproxy/trickster github.com TricksterはComcastが開発するPrometheusのような時系列データベースの前段に置くキャッシュサーバです。 前述のようにThanosは運用が簡単な一方でメトリクスの取得が遅いため、このTricksterを挟むことで高速化を図っています。 あらかじめよく使われるGrafanaのダッシュボードから叩かれるクエリのキャッシュを裏で生成しておくことで、ダッシュボード閲覧時の体験をよくするような工夫もしてきました。 DirectXMan12/k8s-prometheus-adapter github.com DirectXMan12/k8s-prometheus-adapterはKubernetesのHorizontal Pod AutoscalerでPrometheusのメトリクスを利用するための custom.metrics.k8s.io 実装です。 CPUの使用率でのスケールアウトが適さないケースは多くあり、そういったニーズに応えるべくPrometheusのメトリクスを利用できるようにしています。 例えば以前のエントリで紹介したGitHub ActionsのSelf-hosted Runnerもin-queueなJobの数をPrometheusのメトリクスとして公開しておいて、その値を元にスケールアウトさせています。 www.lifull.blog 実験的な試みとしてあるメトリクスの未来の予測値をもとにしたスケールアウトも始めていて、これも同様に時系列分析の結果をPrometheusに格納することで実現しているなど、こういった柔軟なスケールには必要不可欠なコンポーネントです。 kubernetes-sigs/metrics-server github.com metrics-serverは kubectl top やHPAを用いたCPUによるスケールをする際に必要なコンポーネントで、元々使われていたHeapsterというソフトウェアの後継です。 kubelet内のcAdvisorからメトリクスを収集してAPIを通してそのメトリクスをクラスタに対して公開する役目を持ちます。 Prometheusは直接cAdvisorからメトリクスを取得することができるのでHPAでCPUによるスケールをさせたい場合は前述のprometheus-adapterを用いることで不要にも思えますが、 kubectl top などでも利用されるため基本的には導入することになると思います。 Kubernetesのメトリクスパイプラインは少し複雑なのでこちらの資料がおすすめです。 github.com kubernetes/kube-state-metrics github.com kube-state-metricsはKubernetesのObject単位でのメトリクスを生成するコンポーネントです。 似たような名前のmetrics-serverとは似て非なるもので、metrics-serverはkubeletをデータソースとするのに対し、kube-state-metricsではkube-apiserverをデータソースとし、例えばPodのCPUのRequestsやDeploymentのReplicasなど、Kubernetes Resourceに関するメトリクスを公開します。 その点についてはドキュメントでも注記されています。 github.com HPAのMaxに達してしまっている、DeploymentのRolloutが止まっているなどといったアラートは運用する上で必須のため、こちらもmetrics-serverと同様に基本的には導入することになるでしょう。 kubernetes/node-problem-detector github.com node-problem-detectorはその名の通りNodeの異常を検知するためのPrometheus Exporterです。 基本的には /dev/kmsg をデータソースとしたKernelレベルでの異常の検知に利用され、例えば task xxx blocked for more than 120 seconds のようなハングやOOM Killingなどを検知することができます。 Prometheus向けにメトリクスも提供するため、既存のPrometheusによる監視にこういったKernelレベルのモニタリングを組み込むことができます。 prometheus/node_exporter github.com node_exporterはNode単位でのメトリクスを公開するためのPrometheus Exporterです。 Node全体でのCPUやネットワークの利用量に加えて、PSIに対応しているKernelであればCPUやメモリのPressureを公開することができます。 PSIとはLinux Kernelの機能であるPressure Stalled Informationの略で、詳しくは以下をご覧ください。 PSI - Pressure Stall Information — The Linux Kernel documentation これは有名なモニタリングの方法論USEメソッドで監視を推奨されているSaturation、つまりリソースの飽和状態を表すメトリクスで、PSIから取得したメトリクスを監視することでリソースのOvercommitによるパフォーマンスの低下に気づくことが可能となります。 参考 www.brendangregg.com kubecost/cost-model github.com kubecost/cost-modelはクラウドプロバイダのインスタンスタイプに応じたインスタンスの金額を公開するPrometheus Exporterです。 クラスタ上に存在するNodeの一覧を取得し、Nodeそれぞれのインスタンスタイプからインスタンスの料金、CPU1コアあたりメモリ1GBあたりの推定料金をメトリクスとして生成します。 これを用いて各アプリケーションのダッシュボードに推定の月次コストを表示するようにして、開発者に日々コストを意識してもらうようにしています。 金額はフィクションです。 kaidotdev/kube-trivy-exporter github.com kaidotdev/kube-trivy-exporterは拙作のクラスタ内に存在する全てのDocker Imageに対してaquasecurity/trivyを実行し、脆弱性情報を公開するPrometheus Exporterです。 社内のセキュリティエンジニアから要望を受けて開発し、申し訳程度にOSSとして公開しているものです。 www.lifull.blog これも同様に各アプリケーションのダッシュボードに脆弱性情報を表示するために利用していて、開発者が日頃から脆弱性を意識するような文化づくりに貢献しています。 fluent/fluentd github.com fluentdは言わずと知れたログコレクタで、具体的には fluentd-kubernetes-daemonset をデプロイしてNodeのログを集約しています。 LIFULLではログから得られたレスポンスタイムの統計情報をダッシュボードで閲覧するためにPrometheusのメトリクスとして公開したり、ログフォーマットの統一や各種変換処理をfluentdのレイヤで行なっているため、スケールさせたい単位でfluentdクラスタを分けてfluentd-kubernetes-daemonsetを入り口として多段のログパイプラインを構築しています。 ここでログが欠損するとクラスタ全体のログが失われてしまうため、bufferの設定には気を使う必要があります。 kaidotdev/events-logger github.com こちらも拙作のコンポーネントで、kaidotdev/events-loggerはKubernetesのEventsを単に標準出力するだけのものです。 もともと監視にDatadogを使っていたのでKubernetesのEventsをDatadogで確認することができていたのですが、Prometheusに移行してKubernetes Eventsを集約して監視することができなくなったため開発しました。 fluentd側でその情報をPrometheusにも公開していて、ログの監視と同じようにKubernetes Eventsを監視できるようにしています。 例えばContainerGCFailedといったNodeの異常を示すものや、大量のNodeNotReadyの発生に気付けるようアラートを仕込んでいます。 最後に このようにKubernetesをProduction Gradeで運用しようと思うと多くのソフトウェアの導入が必要となります。 一部はDatadogのようなサービスを利用することで置き換えることはできますが、これ以外にもデプロイやセキュリティ、内部統制など考えること多くあります。 導入をお考えの方には慎重な検討の手助けに、既に導入済みの方には少しでも参考になれば嬉しいです。
こんにちは。エンジニアの松尾です。普段はLIFULL HOME'Sの売買領域でエンジニアチームのマネジメントを担当しています。 私が所属している部署では定期的に登壇スタイルでの社内勉強会を開催しています。 直近の会を「 社内勉強会をオンラインでいい感じに開催する 」という点を念頭に開催したため、その構想からふりかえりまでをまとめます。 これからオンラインで勉強会を開催したいという方の参考になれば幸いです。 目的の設定 私の所属組織のエンジニアは「強い個人・最高のチームになることで、価値創造を加速させ続ける」という姿勢で日々の業務に取り組んでいます。このことばの前半部分を下記のように解釈し、勉強会の目的としました。 強い個人 : エンジニアとしてのテクニカルスキルを向上させること 最高のチーム : チーム内のコミュニケーションを活性化させ、コラボレーションを生み出すこと テクニカルスキル向上への影響の部分はテーマ選定・発表内容によって決まるところが大きく、今回の記事の本筋からは外れるため特に触れません。 運営の組織づくり 現組織での勉強会開催は3回目になります。当初はマネージャー主導のトップダウン形式でしたが、現在は有志のメンバー(新卒2、3年目のメンバーが大半)が主体となって運営をしています。 メンバーにはキックオフの際に前述の(割と大雑把な)目的を伝えていますが、実現方法や準備の進行はおまかせしています。 そのため、以降のお話は運営メンバーを見守っていた私が議論を思い出しながら整理した記録です。 実施形態の検討 勉強会当日は出社するのか 新型コロナウイルスへの対応状況は日々変化しています。 実は以前に企画した勉強会が土壇場でオンライン開催となったことがあり、その場でのふりかえりでは「参加者間でコミュニケーションがとれない」「次回は対面でやれたらいいね」という話をしていました。 とはいえ現状で一同に会することが難しいという状況が改善されるかは読めなかったため 「 じゃあ最初からオンライン前提の勉強会を作ろう 」という方向性にしました。 参加者間でコミュニケーションは取れるのか 社外での勉強会と比較して、今後も一緒に働いていく仲間としては「 その場限りではない継続的な関係を作っていきたい 」という思いが強く、実現のために ツール選定 と 場作り の2点を中心に議論をしました。 ツール選定 当日だけではなく後日にも活発な議論が生まれることを期待して、要件に合うものを探しました。今回は下記の4つのツールを活用しました。 📞 オンライン通話: Zoom 長時間繋いだままでも安定する 後から/参加できなかった社員も見られるように録画ができる 他のツールより部屋の分割(ブレイクアウト)が容易 ※結局使用せず 📩 登壇者への質問・参加者間の議論: Chatwork 議論のログが残る ※Zoomの録画時にチャットログが出力できることを知らず 事前に参加者に告知ができる 🗂 質疑のまとめ: Google Jamboard 議論の要点や盛り上がりをわかりやすく表現できる 複数人で編集ができる 📊 投票・アンケート: Google Form スムーズにフォームの配布と集計が行える 投票のログが残る 場作り 「質疑の短い時間では深い議論ができない」「登壇スタイルでは聴講者との間に距離ができる」という懸念があったため、 オフ会 という名称で、会が終わった後に別途セッションを設けることにしました。 登壇者に質疑で聞けなかったことやこぼれ話を聞くことを主目的に、ファシリを置かない・ご飯を食べていい という雑談ベースでの会話の場にしています。 開催当日 登壇発表 「LIFULL HOME'Sの実装の歴史から学ぶ『設計』」 というテーマで3人のスピーカーが登壇しました。 自部署内外から人が集まり、常時50名程度が参加している状態でした。※出入りは自由 「CSSの設計」の発表 オフ会 20名程度が集まり、登壇時には語られなかったこぼれ話を聞くことができました。 ※撮影しそこねたため写真は割愛 登壇時とオフ会の議論もあとから振り返られるように、質疑やコメントはチャット上だけではなくJamboardにもまとめています。 CTOが登壇した「現APIの設計」の議論の例 ふりかえり 参加者からのフィードバック 後日聴講者と登壇者の両方を対象にアンケートを取った結果から抜粋したコメントです。 横の繋がりを強化する大変良い取り組みだと感じました 顔出しはありのほうが発表はやりやすいですね! 家の回線の問題が…。 オフ会はもうちょい人がばらけてくれるとよかったなーと思います(T_T) オフ会参加はネタと時間の都合によりそうです! スキルアップ・コミュニケーションの場として一定の評価は得つつも、オンライン特有の問題や会の運営上の課題が見つかりました。 オンライン開催のメリット・デメリット 前述のアンケート結果も踏まえて、開催してみて感じたメリットやデメリットをまとめます。 運営 🙆‍♂️ 準備の手間が少なく済む 場所取りや会場設営が不要で、事前準備にかかる手間はオフラインと比べて大きく削減できました。 またオンライン通話ツールの録画機能が使えれば、撮影がRecボタンひとつで完結するため非常に楽ができます。 🙅‍♂️ オンライン特有のオペレーションが発生する 長時間/多人数で利用できる有料アカウントなどの確保 ビデオ撮影に関する事前アナウンス 聴講マナーの周知(基本はミュート・反応は大げさに など) 今回は有料アカウントは取得済みであり、アナウンスは事前に段取りを決めて勉強会開始時に行いました。 登壇者 🙆‍♂️ リアルタイムでコメントが見える/聞ける 発表時間にゆとりがある場合は聴講者から複数のコメントを吸い上げるなど、うまく活用できれば柔軟な発表ができそうです。 🙅‍♂️ 発表に対する反応が見えづらい ビデオOFFの参加者が多く、アイスブレイクや小ネタを挟んでテンポを掴むというところが難しいようでした。 Zoomであればリアクション機能を積極的に使用したり、ビデオをONにすることを推奨しておくことでもう少し改善できそうです。 また、登壇者のネットワーク環境が整っていないと場がグダグダになる可能性があるため、不安がある場合は事前対応を考えておく方が良さそうです。 聴講者 🙆‍♂️ 参加のハードルが低い 部屋のキャパシティが基本的にはないことと作業の片手間でも参加しやすいことがあり、気軽に参加できます。また資料や音声が手元で見られる/聞けるため、通常の勉強会より視聴しやすいという意見もありました。 🙅‍♂️ 対面での懇親会のような距離感は出すことは難しい 今回はオフ会というカジュアルな場を設けてみましたが、複数の議論を並列に進められないため、結局1対多の印象になってしまうのが難点でした。 まとめ 単に発表内容から学ぶ以上に発見の多い勉強会となりました。何より慣れないやり方に試行錯誤しつつも、事後アンケートでは多くのお褒めのことばを頂き一安心でした。 今の状況は逆にチャンスとも捉えられると思います。次回以降も毎回新しい工夫を取り入れながらスキルアップ・コミュニケーションを加速させていきたいと思います。
技術開発部の相原です。 今回は、2019年末にリリースされた GitHub ActionsのSelf-hosted runners をKubernetes上で動かして自動化に取り組んでいる事例を紹介します。 背景 LIFULLではプライベートネットワーク上に存在するRDBMSなどのリソースを利用したアプリケーションのテストを実行するといった用途で、古くからJenkinsが運用され続けてきています。 こういったテストの実行などはプライベートネットワークに疎通できないCircleCIやGitHub Actionsでは実行することができず、プライベートネットワーク上に構築されたJenkinsなどのサーバがリポジトリの更新を検知して実行する必要があります。 そのためLIFULLでもJenkinsを運用し続けてきたわけですが、ご多分に漏れずこれまでにバージョンアップやJenkins職人問題・スケーラビリティの問題に悩まされてきました。 そこで、我々はこれらの問題を解決すべくGitHub Actions Self-hosted runnersに着目しました。 GitHub Actions Self-hosted runnersとは、GitHub ActionsをGitHub hostedな環境ではなく自分たちのインフラで動かすための2019年末にリリースされたランタイムです。 これを利用してプライベートネットワーク上でGitHub Actionsを動かすことで前述のテストをJenkinsから移行することができ、Jenkinsサーバを撤廃できるのではないかと考えました。 GitHub Actions Self-hosted runners on Kubernetes 前回の LIFULLが主要サービスの(ほぼ)全てをKubernetesに移行するまで で紹介しましたが、現在LIFULLでは大部分のアプリケーションがKubernetes上で動いています。 当然そのKubernetesクラスタはプライベートネットワーク上で稼働しているため、以下のようなメリットを期待してGitHub Actions Self-hosted runnersをこのKubernetes上で稼働させることにしました。 日々の運用の余剰リソースを利用してrunnerを動かすことでのコストカット 待ち時間のないジョブ実行 柔軟なリソース確保 Kubernetesの宣言的なAPIを利用することによる脱Jenkins職人 しかし、Kubernetes上で動かすといっても公式からのサポートが受けられるわけではありません。 そこで、KubernetesのCustom Resource DefinitionsというKubernetesのAPIを拡張して任意のリソースを定義することのできる機能を利用してGitHub Actions Self-hosted runnersを動かすためのソフトウェアを余暇の時間で開発して導入しました。 github.com このソフトウェアを利用すると以下のようなKubernetes Manifestをデプロイするだけで任意のイメージのGitHub Actions Self-hosted runnersが指定したリポジトリに紐づけられて起動します。 apiVersion : github-actions-runner.kaidotdev.github.io/v1 kind : Runner metadata : name : example spec : image : ********.dkr.ecr.ap-northeast-1.amazonaws.com/homes repository : lifull/homes tokenSecretKeyRef : name : credentials key : TOKEN 本来、GitHub Actions Self-hosted runnersはGitHubから提供されているランタイムをサーバにインストールして利用することを前提とされています。 ref. セルフホストランナーの追加 そのためこれをコンテナとして動かすことを考えると、あらかじめこのランタイムがインストールされたイメージを用意して利用することになってしまいますが、アプリケーションのテストをrunnerに実行させたいといったケースで毎回そのアプリケーションのイメージを再ビルドしてランタイムをインストールするということは現実的ではありません。 そこでこの問題を解決するため、少々いびつではありますが kaidotdev/github-actions-runner-controller は以下のような動きをします。 github-actions-runner-controllerの動き これらの動きは全てコントローラの裏に隠されていて 、利用者は適当なイメージをKubernetes Manifestに書いてデプロイするだけでそれが透過的にrunner入りのイメージとして再ビルドされて起動するようになっています。 そのため、通常のアプリケーションのデリバリーパイプラインをそのまま利用してこのマニフェストをデプロイすることで、runnerのイメージを最新のアプリケーションに追従させることが可能となりました。 Spinnakerを利用している場合はイメージのタグをSpinnakerが勝手にいじってくれるのでそのままこのマニフェストを加えるだけですし、GitOpsなデリバリーパイプラインを使っている場合もタグ更新のワークフローを同様にこのマニフェストにも適用するといった感じです。 不自由なくGitHub Actions Self-hosted runnersを使うために必要な機能は大体備えているはずで、環境変数やファイルのマウント、コンテナリソースの定義に加えて kaidotdev/github-actions-exporter を利用してin-queueなジョブの数を公開しているため、カスタムメトリクスを利用したスケールアウトによってin-queueなジョブの数に応じたコンテナの増減も可能です。 github.com 詳しい使い方に関しては README をご覧ください。 GitHub Actions Self-hosted runners on Kubernetesによる自動化 こうしてLIFULLは誰もが自由にGitHub Actions Self-hosted runnersを起動できる環境を手に入れました。 GitHub ActionsはGitHubのあらゆるイベントを元にジョブを実行することができ、様々な自動化タスクへの適用が期待できます。 そして、誰もが自由にGitHub Actions Self-hosted runnersの導入が可能になったことによって、多くの開発者がそれぞれで気軽に自動化に取り組むことができるようになりました。 これは今までのJenkinsの運用や、クラウドサービスとしてのCircleCIやGitHub Actionsの利用では実現できないことでした。 我々のチームとしてもこの仕組みを利用して以下のような自動化に取り組んでいます。 アプリケーションのリリースパッケージでのテスト実行 アプリケーションのデプロイ コンピューティングリソースを利用する解析処理 クラウドサービスを利用すると待ち時間が長かったり利用できるコンピューティングリソースに制限があったりしますが、この仕組みに載ることで格安で待ち時間なく大量のコンピューティングリソースを使えるようになりました。 同じことを実現できるソフトウェアは多くありますが、Kubernetesの宣言的なAPIの利用によって簡単に自分たちのインフラで動かすことができ、GitHub Actionsという開発者に慣れ親しんだフォーマットで自動化タスクを記述できる安価でスケーラブルかつ柔軟なこの仕組みには一定の価値があると考えています。 自動化タスクにお悩みの方は試してみてはいかがでしょうか。
こんにちは!クリエイターの日運営委員の工藤です。 新型コロナウイルスの影響により弊社でも現在在宅勤務になっており、非接触のコミュニケーションの機会が増えてきました。社内でのミーティングも基本ビデオ通話になっております。 そんな中、社外ではclusterを利用したバーチャル空間でイベントなどが行われています。それに参加した社員から「社内でもやりましょう!」と声をかけていただき、他の社員にもこのような技術にも触れてほしいという思いから一緒に企画しました。 cluster.mu どんなイベント? イベントとしては、まずは誰でも気軽に参加できるように各自オリジナルのアバターを作り披露するというイベントを行いました。少し興味あるなーって方はデフォルトのアバターで見学も可能です。 バーチャル空間内のスクリーンにPDFを投影することができるので、各自自分のアバターの紹介をしてもらいました。 自分自身をバーチャル空間上で扱えるようにしたものもあったり かわいい女の子のアバターを作ったりもしていました。 それぞれ個性が溢れていて、おもしろかったです! これはどうやって作ったかも発表していて勉強にもなりました。 最後にイベントらしく集合写真も撮りました! 弊社受付スペースも再現 弊社2Fの受付スペースを再現したものをLIFULL Labの社員に1、2時間で作っていただき遊びました。 オレンジのオブジェクトを使って弊社ロゴを再現しようとしました。 みんな運んでますね! しかし、難しくでできませんでした、、、 さいごに エンジニアだけでなく企画など様々な職種の社員に参加していただけました。 イベントをやってみてバーチャル空間でもさまざまなイベントができそうだなと感じました。今回、何名もの社員がアバターを作成してくれたので、また違うバーチャル空間でのイベントも企画していければな思います。 弊社では、一緒に働くメンバーも募集しています。 recruit.lifull.com
こんにちは。LIFULLでデータアナリストをしている宮野です。 普段はサービス周りのデータ分析を行っているのですが、TVCMの効果検証を行う機会があり、その際CausalImpactという時系列因果推論フレームワークを使用したのでご紹介いたします。 【目次】 はじめに Pythonを用いたCausalImpact データの準備 効果検証 共変量の確認と選定 / 周期性(シーズナリティ)の付与 ①共変量 ②周期性(シーズナリティ) RのCausalImpactとの結果比較 RでのCausalImpact実装 PythonとRの検証結果比較 おわりに はじめに CausalImpactとは?  →Googleがリリースした時系列因果推論の"R"パッケージです。 そう。Rのパッケージです。当然Rを使って効果検証を行うのが通常だと思います。 なのですが、私自身Pythonを使用することが多く、どうせならPythonで分析できないかと調べたところ、有志が作成した"Pythonでも使えるCausalImpact"のライブラリを発見しました。 せっかくなのでこちらを使用してみたのですが、実装していく中で、非公式?故か日本語での参考記事があまり見当たりませんでした。そこで少しでもPython版を使用する方の参考になればと思い、こちらを執筆しました。 今回使用したPythonのライブラリはこちら。 dafiti/causalinpact: https://github.com/dafiti/causalimpact 参考として、記事後半でRのCausalImpactにおける検証結果との比較も行っています。 なお、この記事は「とりあえず手を動かして実行できる」ことを目的にしているため、難しい用語の使用はできるだけ避けました。同じ理由で、前提となる統計学や因果推論の知識も割愛しています。 ※実務で使用する場合は必ず有識者に相談やレビューをしてもらったうえで効果検証をしてください Pythonを用いたCausalImpact データの準備 今回、CausalImpactを使用して「 ある地域では、TVCMを放映したことによってサイト流入数は増加したか? 」という検証を行うものとします。 検証を行うためには目的変数となる"TVCM放映エリア"のサイト流入数と、共変量(≒説明変数)となる"非TVCM放映エリア"のサイト流入数のデータが必要になります。 これらを踏まえて、用意したデータの概要は以下の通りです。 データ取得期間:2019年10月1日〜2020年2月29日 TVCM放映期間:2020年1月8日〜 TVCM放映エリア(Aエリア):サイト流入数(目的変数) TVCM非放映エリア(B,C,Dエリア):サイト流入数(共変量≒説明変数) ※実際のデータを使用することはできないため、サンプルデータを用意しました Python版CausalImpactのインストール pip install pycausalimpact #必要なライブラリをインポートする import pandas as pd import numpy as np from statsmodels.tsa.arima_process import ArmaProcess from matplotlib import pyplot as plt from causalimpact import CausalImpact ##CausalImpactのライブラリ %matplotlib inline #データの読み込み(今回はexcel) df = pd.read_excel( 'sample.xlsx' ) #データの確認 df.head() データの読み込みが完了しました。 後述しますが、CausalImpactを実行する際にどの時点で介入があったのかindexで指定する必要があります。 今回はわかりやすいようにdateをindexに指定します。 #CausalImpactを実行する際、わかりやすいように日付データをindexに指定する df = df.set_index( 'date' ) df.head() これでCausalImpactを実行する準備ができました。 効果検証 実際に効果検証を行っていきます。 #TVCM放送前と後を指定する pre_period = [ '2019-10-01' , '2020-01-07' ]  #TVCM放映開始前 post_period = [ '2020-01-08' , '2020-02-29' ]  #TVCM放映開始後 #CausalImpactの実行 ci = CausalImpact(df, pre_period, post_period) ci.plot(figsize=( 22 , 20 )) 縦に引かれた黒の破線は、TVCM放映開始後である2020-01-08となります。 上段に図示された黒の実線は実績値、青の点線はTVCMを放映しなかった場合の予測値となります。 中段に図示されたものがTVCM放映の効果になりますが、2020年1月8日にTVCMを放映してからサイト流入数が増加したと言えそうです。 下段に図示されたものは増加したサイト流入数の累計値です。 結果のサマリーを確認するには以下を実行します。 #サマリーの確認 print (ci.summary()) Posterior Inference {Causal Impact} Average Cumulative Actual 285.22 15116.91 Prediction (s.d.) 206.92 (10.57) 10966.99 (559.96) 95% CI [186.82, 228.24] [9901.52, 12096.52] Absolute effect (s.d.) 78.3 (10.57) 4149.92 (559.96) 95% CI [56.99, 98.4] [3020.39, 5215.39] Relative effect (s.d.) 37.84% (5.11%) 37.84% (5.11%) 95% CI [27.54%, 47.56%] [27.54%, 47.56%] Posterior tail-area probability p: 0.0 Posterior prob. of a causal effect: 100.0% For more details run the command: print(impact.summary('report')) 共変量の確認と選定 / 周期性(シーズナリティ)の付与 ここからは少し踏み込んだ話をします。 ①共変量 今回のデータでは、共変量(≒説明変数)としてB,C,DのTVCM非放映エリアのデータがあります。 この共変量は予測モデルに必要となる大事な要素となります。 共変量がモデル作成にどれだけ使われている(モデルに影響している)のかを確認するために以下を実行します。 ci.trained_model.summary() P>|z| と coef に注目します。今回の結果だとエリアB,C,Dを使用して予測モデルを作成していそうです。 例えば coef が"0"になるような共変量があった場合、その共変量は予測モデル作成には使用されないようになっています。 そのため、使用された共変量を確認し、 "使用されなかった共変量を削除→新たな共変量を追加" という作業を繰り返すことで、モデル精度を高めることができそうです。 ②周期性(シーズナリティ) 次に周期性(シーズナリティ)について説明します。 時系列データには、天候や季節、曜日などによって数値が変わるような季節変動が含まれる場合があります。季節変動が含まれるデータの場合、より良い予測モデルにするためには季節変動を考慮する必要があります。 ここでは例として「平日より土日のほうが検索数が多いため1週間(7日間)ごとの周期性がありそう」と仮定します。 この周期性を考慮してCausalImpactを実行するには"nseasons"を追記することで実現できます。(デフォルトは1) #CausalImpactの実行 ci = CausalImpact(df, pre_period, post_period, nseasons=[{ 'period' : 7 }]) #7日間の周期性を考慮する ci.plot(figsize=( 22 , 20 )) これでPython版CausalImpactを用いた効果検証が一通りできました。 RのCausalImpactとの結果比較 同じデータを使用して、RでもCausalImpactを実装していきます。 ※Pythonのように日付データをindexに指定しませんがデータの中身は同じものです 最初に断っておきますが、あくまでPythonとの結果比較をするだけで「なぜ結果が違うのか」「どちらがいいのか」などについては触れないものとします。(むしろ詳しい人がいたら教えてください) RでのCausalImpact実装 #excelファイルを読み込むためのパッケージをインストール install.packages ( "openxlsx" ) #CausalImpactをインストール install.packages ( "CausalImpact" ) #ライブラリの読み込み library ( openxlsx ) library ( CausalImpact ) #データの読み込み(excel) df <- read.xlsx ( "sample_R.xlsx" ) #TVCM放送前と後を指定する(index番号) pre.period <- c ( 1 , 99 ) #TVCM放映開始前 post.period <- c ( 100 , 152 ) #TVCM放映開始後 #CausalImpactの実行とサマリーの表示 ci <- CausalImpact ( df , pre.period , post.period ) plot ( ci ) summary ( ci ) Posterior inference {CausalImpact} Average Cumulative Actual 285 15117 Prediction (s.d.) 207 (13) 10987 (673) 95% CI [182, 233] [9634, 12325] Absolute effect (s.d.) 78 (13) 4130 (673) 95% CI [53, 103] [2792, 5483] Relative effect (s.d.) 38% (6.1%) 38% (6.1%) 95% CI [25%, 50%] [25%, 50%] Posterior tail-area probability p: 0.001 Posterior prob. of a causal effect: 99.9% For more details, type: summary(impact, "report") 共変量の確認 plot ( ci $ model $ bsts.model , "coefficients" ) 周期性(シーズナリティ) ci <- CausalImpact ( df , pre.period , post.period , model.args = list ( nseasons = 7 )) #7日間の周期性を考慮する PythonとRの検証結果比較 PythonとRの検証結果(サマリーの内容)を比較してみます。 今回用意したサンプルデータではPythonとRの結果には差がなさそうです。 ※尚、今回のサンプルデータでのみ検証結果の比較を行っております。ご注意ください おわりに いかがでしたでしょうか? Python,Rどちらも簡単にCausalImpactを用いた効果検証が行えそうです。 今回のように、TVCM放映エリアと非放映エリアがある場合は共変量として非放映エリアを使用するのが良いと思います。 しかし、全国でTVCMを放映していた場合はどうでしょうか。 例えば、Google Trendsなどを利用して「1LDK」や「引越し」など、同じ業態の中でも検索トレンドがサイト流入数と似ているものを探し、共変量として使用してみるといいかもしれません。 地域にこだわらなくても、同質性が担保できれば問題ないと思います。 今回の検証では、TVCM非放映エリアがあったので簡単に共変量を見つけることができましたが、今後は上記のようなケースでも正しく効果検証ができるように自身のスキルを磨いていきたいと思います。 本記事の内容に齟齬などあればご教示いただけますと幸いです。
こんにちは!クリエイターの日運営委員の工藤です。 みなさんは「LIFULL Fab」をご存知ですか? 弊社は、Fabスペース(アナログ・デジタル工作機器が利用可能な工房)も運営しており、そこには3Dプリンターやレーザーカッター、ShopBotなど、クリエイターならテンションが上がること間違いなしの機器がたくさん揃っています! fab.lifull.com 今回はシルクスクリーン製版機を導入したのでみんなで使おう!ということで、「クリエイターの日」のイベントの一環として、 シルクスクリーン体験会を開催しました! ※クリエイターの日とは? 希望者が、3ヶ月ごとに最大7営業日を使って、好きなものを開発することができるLIFULLの制度です。 LIFULLでは、マーケティング能力や技術開発能力を高めてイノベーションを創造するため、通常業務の枠を離れて、新たな技術や手法に取り組む機会となっています。 以前はレーザーカッターでお菓子に彫刻するようなイベントを行いました。 www.lifull.blog どうやって印刷するの? まずはデータを製版機に送り、専用のスクリーンに製版します! ホームズくんの版ができました🤩 あとは、スキージー(ヘラ)でインクをのばすとできあがりです!! 作成中の参加者の方の様子 インクを乗せる場所はどこがいいか、真剣に考えています。 どこに製版されたのかわかりにくかったみたいです。マスキングテープなどで目印付けたほうがよさそうでした。 インクを乗せてみました。どれぐらいの量にすればいいのか、考えながら乗せていきます。 思ったよりたっぷり乗せるくらいがよさそうでした。 インクを伸ばす作業です。 速くのばすと図柄がかすれてしまったり、ゆっくり伸ばしすぎると図柄が潰れてしまったりするため、参加者のみなさんはこの作業に一番苦戦されたようでした。 これで完成です!みなさんどんな作品ができたでしょうか? どんなものができたの? 完成したものはこちらです!参加者のみなさんの個性が溢れるものができました。 保護猫の配信を行なっている方が、配信のノベルティとしてトートバッグを作ってくださいました! 猫ちゃんのロゴがとっても可愛いです! さっそく着てくれました!ご自身の名前をロゴ風にしたそうです! 普段も使えそうなデザインで素敵です! 細かい模様なため、非常に丁寧に作成されていました! とても綺麗な仕上がりになっています! ご家族の似顔絵をバッグにしてくれました! こちらは白いインクを使って、黒いバッグにもプリントしました。 弊社の役員が、ホームズくんのカバンを作ってくれました。 お気に入りになったようで、早速肩にかけています✨ さいごに 今回イベントを開催してみて、カバンやTシャツなど身近なものを題材とすることで、ものづくり以外の職種の方でもFabスペースやシルクスクリーンに興味を持っていただけました。 実際にシルクスクリーンを使ってみて、またオリジナルグッズを作ってみたいというお声を多くいただきました。 LIFULLでは、LIFULL Fabを使った様々なイベントを企画しています。 イベントの様子はFacebookで発信していますので、是非ご覧ください! https://www.facebook.com/lifullfab/ また、LIFULL Fab以外でもLIFULLでは様々なクリエイター向け社内イベントを開催しています。こちらも興味がある方は是非ご覧ください! www.lifull.blog recruit.lifull.com