TECH PLAY

株式会社LIFULL

株式会社LIFULL の技術ブログ

660

エンジニアの松尾です。LIFULL HOME'S の売買領域でエンジニアのマネジメントを担当しています。 チーム開発やプロダクトの運用をしていくにあたって開発ドキュメントは重要です。LIFULLにおいても日々作成やメンテナンスをしていますが、運用にあたって問題もあります。今回はこれらを少しだけでも改善すべく、「断捨離」に取り組んだ話を紹介します。 ドキュメント管理の現状 「断捨離」の意味 開発ドキュメントの「断捨離」 年末の大掃除 個人ワーク グループワーク 試してみた結果 まとめ ドキュメント管理の現状 LIFULLの開発ドキュメントの大半は下記のいずれかで管理されています。 GitHub Google Docs Confluence GitHubではリポジトリに紐づく補足情報や知識を記載しており、Google Docsは主にミーティングの議事録に利用されていることが多いです。これらの中では大きな問題は発生していない認識です。 Confluence も職種を問わず全社員が利用できるツールとして、開発ドキュメントだけではなく多くの用途で活用されています。誰でも利用できる便利さがある一方で、いくつかの問題があります。 ページの重複があり、公式寄りの情報がわかりづらい 更新されていない情報も含めてページの総量が多い 個人スペースに有益な情報があるときもある このような問題の一部を「断捨離」のイメージで解決できないかと考えました。 「断捨離」の意味 「ものを捨てる」文脈で利用されることが多いことばですが、実際には「ものを捨てる」は「断捨離」の一部分を切り取ったものです。「断捨離」の起源はヨガの哲学にある「断行」、「捨行」、「離行」であるそうです。 断行: これから入ってくる不要なものを断つこと 捨行: 既存にある不要なものを捨てること 離行: ものへの執着から離れること 開発ドキュメントの「断捨離」 そこで、ドキュメント管理の問題に「断捨離」の動きを当てはめてみました。 断: 重複ドキュメントをまとめて増えないようにする 捨: 不要なドキュメント/記載を削除する 離: 個人スペースにあるドキュメントをあるべき場所に置く これらを「断捨離」の実践例として、問題解決に取り組んでみることにします。 Googleのソフトウェアエンジニアリング においても、「カノニカルな情報源の確立」が重要であると述べられています。組織全体で使える中央集権的なリファレンスを目指していけるように、まずは個人レベルでの行動を促してみます。 年末の大掃除 気付けばもう12月です。 株式会社サーバーワークスの事例 も拝見し、「年末の大掃除」を称して開発ドキュメントの断捨離に取り組んでみることにしました。 LIFULLには部署の社員で集合して行う総会の文化があり、部署ごとにさまざまなコンテンツでの実施をしています。今回は私が所属しているプロダクトエンジニアリング部2Uの総会の場で、個人ワークとグループワークを行いました。 個人ワーク 前述の開発ドキュメントの「断捨離」を実践例として、まずは自分の手元にのメモ/ドキュメント類を整理してもらいます。時間に余裕があれば所属するグループや組織に関連するページについても見てもらうことにしました。 グループワーク 各自が行ったことを共有しあってもらいます。コミュニケーションと割り切って気楽に話してもらうのがメインですが、「実はそのページ消しちゃダメかも…?」というような万一の抑止が入ることも狙っています。 試してみた結果 15名程度で実際に取り組んでみた結果、実践例やツールを問わずさまざまな動きが見えました。 ゴミ箱、ダウンロードフォルダなどパーソナルなスペースからのファイル削除 自身のまとめで有用そうなファイルを技術横断のスペースに移動 必要なドキュメントの情報の最新化 Slackチャンネルからのリンクの精査 現在時点では未使用のツールのドキュメントをアーカイブ化 「断」でしくみを整えることは、対象や影響範囲が大きい場合は難しいこともあり今後の課題と感じました。とはいえ怪しいドキュメントに「非推奨」とラベルを付けるだけでも効果はありますし、捨てられず量が増えても効率化する手段はあると思います。 ゴミ箱やダウンロードフォルダからの削除はセキュリティリスクを鑑みてもあらためて重要であり、定期的に整理の時間を取ることが望ましいと思います。年末の大掃除は理にかなっていそうですが、年1回と言わず適切な頻度で見直すのが良さそうです。 まとめ 年末の大掃除にかこつけて、開発ドキュメントの整理に取り組んでみました。たった1時間の取組みなので大きな成果とは言えませんが、これを第一歩として組織全体で「断捨離」の文化を作っていければと思っています。 最後に、LIFULL ではともに成長していける仲間を募集しています。よろしければこちらのページもご覧ください。 hrmos.co hrmos.co
本記事は LIFULL Advent Calendar 2023 の17日目の記事です。 qiita.com 事業基盤のチームのマネジメントを担当している磯野です。 自他共に認めるGitHubおじさんとして社内では活動しています。 私たちのチームは開発生産性をより高めるため、開発エコシステムの改善に取り組んでおり、特にGitHubを中心とした生産性向上に注力しています。 今回はその取り組みの一環として、GitHub Actions においてマシンユーザーやAppsを減らしつつ、セキュリティと利便性を向上させるための施策について紹介します。 GitHub Actionsでの課題 GitHub Actionsを用いた処理の実行に際し、いくつかの課題に直面しました。 課題としては以下のような点があります: 標準で使用可能なGITHUB_TOKENではworkflowのトリガーが不可能で、また .github/workflows ディレクトリの更新もできない マシンユーザーやGitHub Appsの管理にコストがかかる マシンユーザーやGitHub Appsを利用するには、リポジトリごとにシークレットを設定し、すべての利用箇所に対して必要な権限を付与する必要があり、セキュリティ上のリスクが存在する これらの課題への解決策として、GitHub Actionsでの認証情報の設定を単純化する処理を開発しました。 これにより、ワークフローに必要な権限のみを付与することでセキュリティの向上が期待できます。 課題解決後の利用シナリオ GitHub Actionsでの認証情報の設定を単純化することで、次のようなことが可能になりました: GitHub ActionsからのpushまたはPR作成時において、Actionsをトリガーすることが可能 .github/workflows/ ディレクトリ内のファイル更新が可能 標準のGITHUB_TOKENではできない処理も簡易に実行可能 また、 リポジトリ側でシークレット情報を管理する必要がない ため、シークレットを各リポジトリへ配布する必要がなく、運用上のメリットもあります。 弊社ではマイクロサービス化が進むにつれてRepositoryが増加し、それぞれに対しマシンユーザーを個別に追加することで運用コストが肥大化しており、大きな運用コスト削減につながっています。 課題を解決するための仕組み GitHub Actionsでの認証情報を単純化するため、以下のような仕組みを開発しました。実線はActions内の処理の流れを、点線は各処理からのAPI呼び出しを表しています。 graph TB subgraph GitHub Actions direction TB START((開始)) ACTION1("aws-actions/configure-aws-credentials<br>次のLambda呼び出し用") ACTION2("configure-github-credentials<br>(今回作成したもの)") ACTION3("実処理") END((終了)) end subgraph GitHub API direction TB API1("POST /app/installations/{installation_id}/access_tokens") API2("その他のAPI") end subgraph AWS direction TB STS["AWS STS<br>後続のLambdaを呼び出すトークンを取得"] LAMBDA["AWS Lambda<br>(IDトークンの検証と<br>GitHubトークンの取得)"] end START --> ACTION1 ACTION1 --> ACTION2 ACTION2 --> ACTION3 ACTION3 --> END ACTION1 -."①後続のLambdaを呼び出す権限のある<br>AWSクレデンシャルの取得".-> STS ACTION2 -."②後続のActionで利用するための<br>GitHubのTokenの取得".-> LAMBDA LAMBDA -."③指定権限のトークン取得".-> API1 ACTION3 -..-> API2 Composite Actionとしての実装は以下のようになっています。 name: Create specified scoped token workflow descroption: | Create specified scoped token workflow inputs: role: required: true type: string outputs: token: description: "GitHub App token" value: ${{ steps.create-app-token.outputs.token }} runs: using: "composite" steps: - name: set env shell: bash run: | echo "LAMBDA_NAME="<<<lambda function name>>" >> $GITHUB_ENV echo "IAM_ROME_ARN="<<<iam role arn>>>" >> $GITHUB_ENV - uses: aws-actions/configure-aws-credentials@v4 with: role-to-assume: "${{ env.IAM_ROME_ARN }}" aws-region: "<<<region>>>" - id: create-app-token name: create app token shell: bash run: | export AWS_DEFAULT_REGION="<<<region>>>" ID_TOKEN="$(curl --silent -H "Authorization: bearer ${ACTIONS_ID_TOKEN_REQUEST_TOKEN}" "${ACTIONS_ID_TOKEN_REQUEST_URL}&audience=configure-github-credentials" | jq -r '.value')" aws lambda invoke --cli-binary-format raw-in-base64-out --function-name "${{ env.LAMBDA_NAME }}" --payload "{ \"id_token\": \"${ID_TOKEN}\", \"role\": \"${{ inputs.role }}\" }" outputfile.txt || : TOKEN=$(cat outputfile.txt | jq -re ".token // empty" || echo "") if [ -z "${TOKEN}" ]; then echo "Token is missing in the JSON file" cat outputfile.txt | jq -re ".errorMessage // empty" exit 1 fi echo "::add-mask::$TOKEN" echo "GITHUB_TOKEN=$TOKEN" >> $GITHUB_ENV echo "token=$TOKEN" >> $GITHUB_OUTPUT 各処理の詳細 ① 後続のLambdaを呼び出すためのAWSクレデンシャルの取得 aws-actions/configure-aws-credentials を用いて、後続のLambdaを呼び出すためのIAMロールのクレデンシャルを取得します。 事前にGitHubをIDプロバイダとして登録し、GitHub経由でAssumeRoleを実行できるよう設定しておく必要があります。 ②GitHubのTokenの取得 IDトークンを用いた呼び出し元の検証を行い、Lambda上で適切な権限を付与します。 IDトークンの正式な検証を行うことで、トークン内に含まれるリポジトリ名やブランチ名、実行者などの情報が利用でき、指定の権限を付与すべき対象かどうかを判断します。 IDトークンから得られる情報については こちら を参照してください。 graph TB subgraph configure-github-credentials direction LR CGC1("IDトークンの取得") CGC2("Lambdaの呼び出し") CGC3("トークンの環境変数への設定") CGC4("トークンをシークレットとして設定") end subgraph Lambda direction LR LAMBDA1("IDトークンの検証") LAMBDA2("指定の権限が利用可能か検証") LAMBDA3("GitHubトークンの取得") LAMBDA4("GitHubトークンの返却") end CGC1 --> CGC2 CGC2 --"IDトークン, 必要な権限"--> LAMBDA1 LAMBDA4 --"GitHubトークン、有効期限"--> CGC3 CGC3 --> CGC4 LAMBDA1 --> LAMBDA2 LAMBDA2 --> LAMBDA3 LAMBDA3 --> LAMBDA4 ③ 指定権限のトークン取得 ②で述べたLambdaから呼び出されるAPIです。 GitHub AppsのInstallation access tokenを生成します。このAPIを呼び出す際はApps側にその権限が必要です。 今後の展望と課題 この仕組みは現在一部のプライベートリポジトリで利用を開始していますが、将来的にはさらに拡張し、最終的にはオープンソースとして公開したいと考えています。 まとめ GitHubのOIDCとAWS Lambdaを活用し、GitHub AppsのInstallation access tokenを安全に取得できるようになりました。これにより、GitHub Actionsでの認証情報のセットアップを単純化し、よりセキュアな実行が可能です。 LIFULLでは開発生産性向上のための開発エコシステムの改善に積極的に行っています。今回の仕組みはその一環であり、AIを活用して全社的な生産性向上を目指すkeelaiや、Kubernetesを用いたアプリケーション実行基盤であるKEELなど、多くの取り組みを進めています。 LIFULLでは一緒に働いてくれる仲間を募集しています。これらの取り組みに興味を持った方がいらっしゃいましたら以下からぜひお問い合わせください。 hrmos.co
KEELチーム の相原です。 今回はeBPFを利用してKubernetesクラスタの可観測性の隙間を埋めている話です。 前回のエントリではLLMにうつつを抜かしていたので本業(?)の話をしようと思います。 www.lifull.blog LIFULLの可観測性の現在地 eBPFとは 可観測性の隙間 NAT Loopback eBPFを実行するには BPF CO-RE libbpf-rsを利用したNAT Loopbackの検知 1. (ユーザ空間) コマンドライン引数として受け取ったDNSをTTLごとに名前解決してIPアドレスを取得する 2. (ユーザ空間) IPアドレスに変化がある度にカーネル空間で動くBPFプログラムにそのIPアドレスのリストを渡す 3. (カーネル空間) Kprobesで tcp_v4_connect/tcp_v6_connect にフックを仕込む 4. (カーネル空間) 受け取ったIPアドレスに対する tcp_v4_connect/tcp_v6_connect があればユーザ空間に対してその実行元のプロセスIDとコマンド名を返す 5. (ユーザ空間) カーネル空間から受け取ったプロセスIDからKubernetes上のコンテナIDを取得する 6. (ユーザ空間) 得られたコンテナIDとコマンド名とともに接続先をPrometheusのMetricsとして公開する 最後に LIFULLの可観測性の現在地 はじめに、LIFULLの可観測性の現在地について軽く書きます。 可観測性にはPrimary Signalsと呼ばれるLogs, Metrics, Tracesの3つの指標があり、我々が開発するKubernetesベースの内製PaaSであるKEELにはそれぞれに対応するプラットフォームが構築されています。 github.com それぞれGrafana Loki, Thanos, Grafana Tempoを採用しており、Grafanaで横断的に閲覧可能です。 加えてContinuous ProfilingのためにPyroscopeも構築されており、Logs, Metrics, Traces, Profilesと4つの指標をプラットフォームとしてサポートしています。 (ここまで来ると全てGrafana製品で統一したいですが、Thanosはかれこれ5年以上運用していて十分に実績があるのでアーキテクチャにそれほど違いがないこともありGrafana Mimirへの移行は検討中です) Logsはアプリケーションの標準出力・標準エラーに加えてService Meshのレイヤで取得した共通フォーマットのアクセスログを集めていて、TracesとProfilesはそれぞれ我々が管理する共通のアプリケーションフレームワークに事前に組み込まれているOpenTelemetryとPyroscope SDKによって自動で収集しています。 Metricsも同様にOpenTelemetryで取得していますが、その他にもアクセスログから集計したURIごとのレイテンシ・サクセスレートをfluentdで出力していたり、拙作の kube-trivy-exporter を使ってアプリケーションの脆弱性情報を収集していたり Core Web Vitals を計測したりとPrometheus Exporterを適宜作りながらあらゆる情報を集めています。 クラスタレベルだと prometheus/node_exporter や kubernetes/kube-state-metrics , kubernetes/node-problem-detector の他に、Podごとの利用料を按分するPrometheus Exporterなどがあり、内製PaaSの利用者は様々な事象を観測できるようになっています。 しかし、これだけやっていてもまだ観測できないものがあります。LinuxカーネルレイヤのMetricsです。 そしてそれはeBPFを利用することで取得可能です。 eBPFとは 既にeBPFの説明はありふれていますが軽く説明しておきます。 eBPFとはカーネル空間で安全にプログラムを実行するためのサンドボックス技術です。 eBPF is a revolutionary technology that can run sandboxed programs in the Linux kernel without changing kernel source code or loading a kernel module. ebpf.io サンドボックス内で実行されるC言語のプログラムをBPFプログラムと呼ぶことが多いです。 BPFプログラムはイベント駆動でネットワーク上のイベントやカーネル上のイベントなどを起点として実行されます。 カーネル上のイベントは主に事前にLinuxカーネル上に定義されたフックポイントである Tracepoints の他に、カーネル空間の任意の関数の実行にフックを仕込むことのできる Kprobes が利用できます。 Kprobesは任意の関数に仕込んでなんでもできる一方でカーネルのバージョンアップによって関数名が変わった際などに追従することが難しく、Tracepointsは事前に定義されているためカーネルのバージョンアップに左右されないものの定義されていない場所を起点に発火させることができないといった違いがあります。 eBPFは Maps というデータ構造を持っていてこれでユーザ空間と状態を共有できるため、KprobesやTracepointsをもとに発火したBPFプログラムでMetricsを収集し、Mapsを通してユーザ空間に出力することでLinuxカーネルレイヤのMetricsを観測できるようになります。 可観測性の隙間 では実際に観測したいLinuxカーネルレイヤのMetricsとはなんでしょうか。 例えばどんなMetricsが取れるかを知りたい場合は iovisor/bcc#tools がお勧めです。 bccとは詳しくは後述しますが、BPF Compiler Collectionの略でeBPFを簡単に実行するための仕組みです。 同時に様々なeBPFを利用したツールも提供されていて、 bcc: General Perfomance Checklist を見たことある方はいらっしゃるのではないでしょうか。 この中のうちあなたが管理するシステムの潜在的な問題にまつわるものが観測したいMetricsとなるわけですが、ここではLIFULLでの分かりやすい例を一つ紹介したいと思います。 私達が観測したいLinuxカーネルレイヤのMetricsの一つは、 Kubernetesクラスタ内からのある接続先に対するプロセスごとの接続回数 でした。 なぜそんなMetricsを取得したいかを説明するためにはまずNAT Loopback(hairpinning)ついて説明する必要があります。 NAT Loopback NAT Loopbackとはhairpinningとしても知られる機能で、NAT環境下においてLAN内のクライアントが自身に対してWANからアクセスする際にその通信をループバックさせるというものです。 これは利用しているルータやロードバランサによっては対応していないことがあり、実際にAWSのNetwork Load Balancerは Preserve client IP addresses を有効にしているとNAT Loopbackは機能せず接続がタイムアウトしてしまうということが知られています。 docs.aws.amazon.com Kubernetesクラスタにおいてはクラスタ前段にIngress Controllerに紐づいた Type: LoadBalancer なNetwork Load Balancerを立ててクラスタ外のリクエストを受けるというものはよくあるパターンです。 この時、クラスタ内のPodからそのNetwork Load Balancerに接続してしまうとタイムアウトしてしまう可能性があるということになります。 KubernetesクラスタとしてもLAN内であればKubernetesのサービスディスカバリを使って接続した方がレイテンシが低いため、プラットフォーマーとしては Kubernetesクラスタ内からIngress Controllerに紐づいたNetwork Load Balancerに対して接続しているクライアント を検知する必要があります。 全てのPodにService Meshが入っていれば検知可能でしょうし、パケットキャプチャでもクライアントの存在自体は検知可能です。 しかし歴史的理由から私達のIstioは一部導入できていないアプリケーションがあったり、Kubernetesクラスタには複数のアプリケーションが載っているためクライアントの存在を検知できただけでは不十分でクライアントの特定まで行う必要があります。 そこでeBPFでTCPの接続処理にあたる tcp_v4_connect/tcp_v6_connect をフックして検知をしようということになりました。 (eBPFを利用すればパケットの向き先を勝手に変えてしまうこともできますが今回は検知のお話をします) eBPFを実行するには さて、それではeBPFを動かすにはどうしたらいいでしょうか。 eBPFはサンドボックス化されたVM上でBPFプログラムを実行することで安全性を担保しているため、そのVMが解釈できるバイトコードにBPFプログラムをコンパイルして実行する必要があります。 そこでよく使われていたものが先ほど紹介したBPF Compiler Collection、bccです。 bccはeBPFを簡単に実行するための仕組みで、bccをライブラリとして利用したソフトウェアを実行すると、ClangをフロントエンドとしたLLVMでBPFプログラムをコンパイルし成果物のバイトコードをVMにロードしてeBPFが実行されます。 これにより利用者はBPFプログラムだけを書けば簡単にeBPFを動かすことができるといったわけです。 しかし、ご存じの通りClangは重いバイナリですし実行時にコンパイルするというアプローチは実行時のオーバーヘッドを伴います。 監視対象のサーバの台数分だけClangをインストールしてコンパイルしてとなると支払うコストが大きくなるためプロダクション環境に手放しに導入できるものではありません。 "よく使われていた"とbccを過去形で紹介しましたが、現在はその問題を解決するためにBPF CO-REという仕組みがあります。 BPF CO-RE BPF CO-REの説明もわざわざここでしなくても感がありますが一応簡単にしておきます。 BPF CO-REはBPF Compile Once - Run Everywhereの略で、その名の通りコンパイルを一度だけすれば成果物のバイナリをどこででも動かすことができるというものです。 詳細な仕組みについては省きますが、 libbpf/libbpf というBPF CO-REをサポートしたライブラリを使うことで利用できます。 libbpfはC言語向けのライブラリですが、 libbpf/libbpf-rs というRustバインディングも公式に提供されているためRustでも開発可能です。 我々KEELチームはproxy-wasmでEnvoyの拡張を書く際にもRustを利用しているため、ここからはlibbpf-rsを使って Kubernetesクラスタ内からIngress Controllerに紐づいたNetwork Load Balancerに対して接続しているクライアント を検知する方法を説明してきます。 今回はユーザ空間でも多少処理が必要となるためRustで書いた方が無難でしょう。 2021年当時はいくつかlibbpf-rsに不足している機能がありましたが今はlibbpfと遜色なく利用できるようになりました。 libbpf-rsを利用したNAT Loopbackの検知 まずは大まかな設計を決めましょう。 改めて、今回実現したいことは Kubernetesクラスタ内からIngress Controllerに紐づいたNetwork Load Balancerに対して接続しているクライアント の検知です。 この仕組みは他にも"退役予定のデータストアにクエリしているクライアントの洗い出し" などにも使えるため、今のNetwork Load BalancerはIPアドレスが変わらなくなりましたがDNSベースで汎用的に作ってみます。 大まかな処理の流れは以下といったところでしょうか。 (ユーザ空間) コマンドライン引数として受け取ったDNSをTTLごとに名前解決してIPアドレスを取得する (ユーザ空間) IPアドレスに変化がある度にカーネル空間で動くBPFプログラムにそのIPアドレスのリストを渡す (カーネル空間) Kprobesで tcp_v4_connect/tcp_v6_connect にフックを仕込む (カーネル空間) 受け取ったIPアドレスに対する tcp_v4_connect/tcp_v6_connect があればユーザ空間に対してその実行元のプロセスIDとコマンド名を返す (ユーザ空間) カーネル空間から受け取ったプロセスIDからKubernetes上のコンテナIDを取得する (ユーザ空間) 得られたコンテナIDとコマンド名とともに接続先をPrometheusのMetricsとして公開する 今回はクライアントの特定まで行う必要があるため、プロセスIDからKubernetes上のコンテナIDを取得して公開することで、コンテナIDからPodを特定できるようにしています。 最終的にこのソフトウェアをKubernetes上にDaemonSetとしてデプロイするイメージです。 順番に見ていきます。 1. (ユーザ空間) コマンドライン引数として受け取ったDNSをTTLごとに名前解決してIPアドレスを取得する ここは本筋ではないのでさらっと流します。 こちらが今回開発するソフトウェアのエントリポイントとなる main.rs です。 ご覧の通り、当然普通のRustアプリケーションとして開発できます。 #[tokio::main] async fn main () -> Result < (), Box < dyn std :: error :: Error + Send + Sync + 'static >> { let args: Args = Args :: parse (); < snip > let mut handles = vec! []; let ns = args.nameserver. parse :: < std :: net :: SocketAddr > () ? ; let conn = trust_dns_client :: udp :: UdpClientStream :: < tokio :: net :: UdpSocket > :: with_timeout ( ns, std :: time :: Duration :: from_secs ( 5 ), ); let (client, bg) = trust_dns_client :: client :: AsyncClient :: connect (conn).await ? ; handles. push ( tokio :: spawn (bg)); let (tx, mut rx): ( tokio :: sync :: mpsc :: UnboundedSender < IPMap > , tokio :: sync :: mpsc :: UnboundedReceiver < IPMap > , ) = tokio :: sync :: mpsc :: unbounded_channel (); let hm = std :: sync :: Arc :: new ( futures :: lock :: Mutex :: new ( IPMap :: new ())); for host in args.hosts { for record_type in [ trust_dns_client :: rr :: RecordType :: A, trust_dns_client :: rr :: RecordType :: AAAA, ] { let mut cloned_client = client. clone (); let cloned_hm = std :: sync :: Arc :: clone ( & hm); let cloned_tx = tx. clone (); let host = host. clone (); handles. push ( tokio :: spawn (async move { let name = trust_dns_client :: rr :: Name :: from_str ( & host). unwrap (); let mut cache = IPCache :: new (); loop { let response: trust_dns_client :: op :: DnsResponse = cloned_client . query ( name. clone (), trust_dns_client :: rr :: DNSClass :: IN, record_type, ) .await . unwrap (); let answers: & [ trust_dns_client :: rr :: Record] = response. answers (); let mut max_ttl = 0 ; match record_type { trust_dns_client :: proto :: rr :: RecordType :: A => { let mut new = vec! []; for record in answers { if record. ttl () > max_ttl { max_ttl = record. ttl (); } if let Some ( trust_dns_client :: proto :: rr :: RData :: A ( ref ip)) = record. data () { new. push ( u32 :: swap_bytes (( * ip). into ())) } } new. sort (); let default = vec! []; let old = cache.ipv4. get ( & host). unwrap_or ( & default); if old != & new { let mut hm = cloned_hm. lock ().await; if let trust_dns_client :: proto :: rr :: RecordType :: A = record_type { for ip in old { hm.ipv4. remove (ip); } for ip in new. iter () { hm.ipv4. insert ( * ip, host. clone ()); } } cloned_tx. send (hm. clone ()). unwrap (); cache.ipv4. insert (host. clone (), new); } } < snip > _ => { continue ; } } if max_ttl > 60 { tokio :: time :: sleep ( std :: time :: Duration :: from_secs (max_ttl as u64 )).await; } else { tokio :: time :: sleep ( std :: time :: Duration :: from_secs ( 60 )).await; } } })); } } < snip > Ok (()) } 処理内容は単純で、行儀よくTTLごとに名前解決をしながらIPアドレスに変更があればそれをチャネルで送信しています。 実際には AAAA レコードの実装もしてIPv6に対応する必要がある点にご注意ください。 エラーハンドリングも省略しているので必要に応じて修正する必要があります。 2. (ユーザ空間) IPアドレスに変化がある度にカーネル空間で動くBPFプログラムにそのIPアドレスのリストを渡す 次は本題となるカーネル空間との接合部分です。 libbpf-rs 周辺のエコシステムには libbpf-cargo というBPFプログラムからRustのスケルトンをビルド時に生成してくれるツールがあります。 以下のような build.rs を書いておくと、 fn main () -> Result < (), Box < dyn std :: error :: Error + Send + Sync + 'static >> { libbpf_cargo :: SkeletonBuilder :: new () . source ( "src/bpf/connect.bpf.c" ) . build_and_generate ( std :: path :: Path :: new ( "src/bpf/skel.rs" )) ? ; Ok (()) } src/bpf/skel.rs が生成されて src ディレクトリ内でこのように利用できるというものです。 mod skel { include! ( "bpf/skel.rs" ); } そうすると skel モジュール以下に *Builder が生えてくるのでこれを使ってカーネル空間で動くBPFプログラムにそのIPアドレスのリストを渡していきましょう。 use skel :: * ; unsafe impl plain :: Plain for connect_bss_types :: event {} pub fn watch ( map: crate :: IPMap, stop: std :: sync :: Arc < std :: sync :: atomic :: AtomicBool > , ) -> Result < (), Box < dyn std :: error :: Error + Send + Sync + 'static >> { let builder = ConnectSkelBuilder :: default (); let mut open = builder. open () ? ; let v4_keys = map.ipv4. keys (); let mut v4_keys_array: [ u32 ; 16 ] = [ 0 ; 16 ]; let v4_keys_len = v4_keys. len (); for (i, key) in v4_keys. enumerate () { v4_keys_array[i] = * key; } open. rodata ().tool_config.daddr_v4 = v4_keys_array; open. rodata ().tool_config.daddr_v4_len = v4_keys_len as u32 ; let mut load = open. load () ? ; load. attach () ? ; < snip > } この watch 関数はチャネルから送られてきた crate::IPMap を受け取ってBPFプログラムとやり取りをするというものです。 BPFプログラムに値を渡すためには、先に説明した Maps の他に .rodata セクションを利用できます。 open.rodata() で .rodata セクションに書き込まれた値はC言語のBPFプログラムで const として参照できるというものです。(感覚的には逆に思いますがそういうものみたいです) 本来IPアドレスのリストは動的に変化するためReadOnlyな .rodata セクションではなくMapsが望ましいですが今回は単純化して .rodata セクションを利用しています。 ( Arc<AtomicBool> な stop という変数でIPMapに変更があった際に古いIPMapを持った watch を止めるみたいなことをイメージしています) そして load.attach() でBPFプログラムをカーネルにロードしたらようやくBPFプログラムです。 3. (カーネル空間) Kprobesで tcp_v4_connect/tcp_v6_connect にフックを仕込む 今回フックしたい tcp_v4_connect/tcp_v6_connect には事前定義されたTracepointsがないためKprobesを使います。 メインの処理はこのようになります。 SEC ( "kprobe/tcp_v4_connect" ) int BPF_KPROBE (tcp_v4_connect, struct sock *sk, struct sockaddr *uaddr, int addr_len) { u64 __pid_tgid = bpf_get_current_pid_tgid (); gid_t tgid = __pid_tgid >> 32 ; pid_t pid = __pid_tgid; bpf_map_update_elem (&sockets, &pid, &sk, 0 ); return 0 ; } SEC ( "kretprobe/tcp_v4_connect" ) int BPF_KRETPROBE (tcp_v4_connect_ret, int ret) { u64 __pid_tgid = bpf_get_current_pid_tgid (); gid_t tgid = __pid_tgid >> 32 ; pid_t pid = __pid_tgid; struct sock **skpp = bpf_map_lookup_elem (&sockets, &pid); if (!skpp) { return 0 ; } if (ret) { goto end; } <snip> } Kprobesには kprobe と kretprobe という2つのエントリがありそれぞれ関数の開始と終了に紐づいています。 この実装では tcp_v4_connect 関数の開始と終了をフックしているというわけです。 関数が呼び出された時点では実際に接続が行われたかどうかは判断できないため、終了時にMetricsを送信したいところですが kretprobe では終了ステータスしか取ることができません。 そのため、 kprobe の bpf_map_update_elem で引数をMapsで保持しつつ kretprobe の bpf_map_lookup_elem でそれを取り出して処理をします。 実際には tcp_v6_connect の実装もしてIPv6に対応する必要がある点にご注意ください。 kprobe で保存する引数は実際にLinuxカーネルの関数のシグネチャと一致している必要があり、それを調べるためにはLinuxクロスリファレンスがお勧めです。 いくつか候補がありますが私は https://elixir.bootlin.com/ を使っていて、関数名で検索するとこのように定義元にジャンプできます。(この時カーネルのバージョンによる差異に注意する必要があります) https://elixir.bootlin.com/linux/v6.6.1/source/net/ipv4/tcp_ipv4.c#L201 4. (カーネル空間) 受け取ったIPアドレスに対する tcp_v4_connect/tcp_v6_connect があればユーザ空間に対してその実行元のプロセスIDとコマンド名を返す 以下は kretprobe の完全版です。 bpf/bpf_helpers.h や bpf/bpf_core_read.h にヘルパ関数が色々入っているのでそれらを使いながら必要な情報を取り出しています。 詳細な説明は省きますが関数名からなんとなく雰囲気はつかめるはずです。 #include "../../vmlinux.h" #include <bpf/bpf_helpers.h> #include <bpf/bpf_core_read.h> #include <bpf/bpf_tracing.h> SEC ( "kretprobe/tcp_v4_connect" ) int BPF_KRETPROBE (tcp_v4_connect_ret, int ret) { u64 __pid_tgid = bpf_get_current_pid_tgid (); gid_t tgid = __pid_tgid >> 32 ; pid_t pid = __pid_tgid; struct sock **skpp = bpf_map_lookup_elem (&sockets, &pid); if (!skpp) { return 0 ; } if (ret) { goto end; } struct sock *sk = *skpp; u32 daddr_v4 = BPF_CORE_READ (sk, __sk_common.skc_daddr); if (! filter_daddr_v4 (daddr_v4)) { goto end; } uid_t uid = bpf_get_current_uid_gid (); struct event event = { .tgid = tgid, .pid = pid, .uid = uid, .protocol = ipv4, }; BPF_CORE_READ_INTO (&event.daddr_v4, sk, __sk_common.skc_daddr); bpf_get_current_comm (event.comm, sizeof (event.comm)); bpf_perf_event_output (ctx, &events, BPF_F_CURRENT_CPU, &event, sizeof (event)); end : bpf_map_delete_elem (&sockets, &pid); return 0 ; } sock のメンバも同様にLinuxクロスリファレンスで検索して確認することができ、 __sk_common.skc_daddr で向き先のIPアドレスを取得できます。 https://elixir.bootlin.com/linux/v6.6.1/source/include/net/sock.h#L357 filter_daddr_v4 関数は先ほど .rodata セクション経由で渡した tool_config を使いながら対象のIPアドレスへの接続をフィルタリングする関数です。 const volatile struct { u32 daddr_v4[ADDR_LEN]; u32 daddr_v4_len; u8 daddr_v6[ADDR_LEN][ 16 ]; u32 daddr_v6_len; } tool_config; static __always_inline bool filter_daddr_v4 (u32 daddr) { if (tool_config.daddr_v4_len == 0 ) { return true ; } for ( int i = 0 ; i < tool_config.daddr_v4_len; i++) { if (daddr == tool_config.daddr_v4[i]) { return true ; } } return false ; } bpf_perf_event_output は BPF_MAP_TYPE_PERF_EVENT_ARRAY というリングバッファのMapsを使ってユーザ空間に値を送信するための関数で、Mapsは以下のように events として定義されています。 SEC ( ".maps" ) struct { __uint (type, BPF_MAP_TYPE_PERF_EVENT_ARRAY); __uint (key_size, sizeof (u32)); __uint (value_size, sizeof (u32)); } events; これを使うことでユーザ空間に対して実行元のプロセスIDやコマンド名を event という構造体に詰めて返すことができます。 eBPFで利用できるリングバッファには BPF_MAP_TYPE_RINGBUF もありますがLinuxカーネルのバージョンが5.8以上でないと利用できず、例えばUbuntu 20.04とかでは利用できないためご注意ください。(今回紹介している事例は2021年のものであるため BPF_MAP_TYPE_PERF_EVENT_ARRAY を利用していました) sockets というMapsは kprobe と kretprobe の間で引数を持ち回すためだけのものなので用が済んだら中身を削除しています。 5. (ユーザ空間) カーネル空間から受け取ったプロセスIDからKubernetes上のコンテナIDを取得する プロセスIDからコンテナIDを取得する方法は少なくとも2021年時点ではあまり情報がなかった記憶があるので説明しておきます。 コンテナランタイムはcri-o想定です。 コードを見ていただくと早いでしょう。 use std :: io :: BufRead; pub struct Metadata { container_id: String , } pub fn from_pid (pid: i32 ) -> Option < Metadata > { let var = std :: env :: var ( "PROCFS_PATH" ); let path = if let Ok ( ref path) = var { std :: path :: Path :: new (path) } else { std :: path :: Path :: new ( "/proc" ) }; let cgroup = path. join (pid. to_string ()). join ( "cgroup" ); if let Ok (file) = std :: fs :: File :: open (cgroup) { let mut reader = std :: io :: BufReader :: new (file); let mut buf = String :: new (); let _ = reader. read_line ( &mut buf); return buf . trim_end () . split ( ':' ) . last () . and_then (extract_container_id) . map ( | container_id | Metadata { container_id }); } None } enum CgroupDriver { Cgroupfs, Systemd, } fn detect_cgroup_driver < T: AsRef < str >> (cgroup_path: T) -> CgroupDriver { if cgroup_path. as_ref (). starts_with ( "/kubepods.slice" ) { // https://github.com/kubernetes/kubernetes/blob/v1.26.1/pkg/kubelet/cm/cgroup_manager_linux.go#L82 CgroupDriver :: Systemd } else { // https://github.com/kubernetes/kubernetes/blob/v1.26.1/pkg/kubelet/cm/cgroup_manager_linux.go#L111 CgroupDriver :: Cgroupfs } } fn extract_container_id < T: AsRef < str >> (cgroup_path: T) -> Option < String > { // https://github.com/kubernetes/kubernetes/blob/v1.26.1/pkg/kubelet/cm/node_container_manager_linux.go#L40 if ! cgroup_path. as_ref (). starts_with ( "/kubepods" ) { return None ; } match detect_cgroup_driver ( & cgroup_path) { // https://github.com/cri-o/cri-o/blob/v1.26.1/internal/config/cgmgr/cgroupfs.go#L65 CgroupDriver :: Cgroupfs => cgroup_path . as_ref () . split ( '/' ) . last () . map ( | s | s. to_string ()), // https://github.com/cri-o/cri-o/blob/v1.26.1/internal/config/cgmgr/systemd.go#L80 CgroupDriver :: Systemd => cgroup_path . as_ref () . split ( '/' ) . last () . and_then ( | unit | unit. trim_end_matches ( ".scope" ). split ( '-' ). last ()) . map ( | s | s. to_string ()), } } 基本的にはprocfsからcgroupの情報にアクセスして、cgroupドライバに応じて判断するという流れになっています。 cgroupのパスの中にコンテナIDが含まれているのでそれを取り出すだけです。 このソフトウェアはDaemonSetとしてKubernetesクラスタにデプロイすることを想定しており、その際にPodにはホストのprocfsをマウントする必要があるため環境変数 PROCFS_PATH からprocfsのマウントポイントを受け取れるようにしています。 6. (ユーザ空間) 得られたコンテナIDとコマンド名とともに接続先をPrometheusのMetricsとして公開する BPF_MAP_TYPE_PERF_EVENT_ARRAY から送信されてきた値は、ユーザ空間では libbpf_rs::PerfBufferBuilder のコールバックとして取得できます。 use skel :: * ; unsafe impl plain :: Plain for connect_bss_types :: event {} pub fn watch ( map: crate :: IPMap, stop: std :: sync :: Arc < std :: sync :: atomic :: AtomicBool > , ) -> Result < (), Box < dyn std :: error :: Error + Send + Sync + 'static >> { < snip > let meter = opentelemetry :: global :: meter ( "connectracer" ); let counter = meter. u64_counter ( "connect_total" ). init (); let buffer = libbpf_rs :: PerfBufferBuilder :: new (load. maps_mut (). events ()) . sample_cb ( move | _cpu: i32 , data: & [ u8 ] | { let mut event = connect_bss_types :: event :: default (); plain :: copy_from_bytes ( &mut event, data). expect ( "Data buffer was too short" ); if let Some (host) = match event.protocol { connect_bss_types :: protocol :: ipv4 => map.ipv4. get ( & event.daddr_v4), connect_bss_types :: protocol :: ipv6 => { map.ipv6. get ( &u128 :: from_be_bytes (event.daddr_v6)) } } { let command = if let Ok (s) = std :: str :: from_utf8 ( & event.comm) { s. trim_end_matches ( char :: from ( 0 )) } else { "" }; let mut attributes = vec! [ opentelemetry :: KeyValue :: new ( "host" , host. clone ()), opentelemetry :: KeyValue :: new ( "command" , command. to_string ()), ]; if let Some (metadata) = crate :: metadata :: kubernetes :: from_pid (event.pid) { let mut m = metadata. into (); attributes. append ( &mut m); } counter. add ( & opentelemetry :: Context :: current (), 1 , & attributes); } }) . build () ? ; < snip > } (先ほどのKubernetesの Metadata は以下のようなFromトレイトを実装しているため、そのまま metadata.into() できます) impl From < Metadata > for Vec < opentelemetry :: KeyValue > { fn from (metadata: Metadata) -> Self { vec! [ opentelemetry :: KeyValue :: new ( "container_id" , metadata.container_id, )] } } PrometheusのMetricsとして公開するためにはOpenTelemetryを利用するとして、あとは取得したコンテナIDとともにインクリメントするだけです。 コンテナIDさえ取得できてしまえば kubernetes/kube-state-metrics が出力する kube_pod_container_info と組み合わせて以下のようなクエリでPodと紐づけることができるため、ここではそれ以上のことはしません。 tcp_v4_connect_total * on(container_id) group_left(namespace, pod) label_replace(kube_pod_container_info{container_id!=""}, "container_id", "$2", "container_id", "(.+)://(.+)") 最後に 少し長くなってしまいましたが、あとはOpenTelemetryのregistryのMetricsを公開するサーバを書けば、晴れてeBPFによる Kubernetesクラスタ内からIngress Controllerに紐づいたNetwork Load Balancerに対して接続しているクライアント の検知が完成です。 このように、eBPFを利用することでKubernetesクラスタの可観測性の隙間を埋めることができました。 コンテナIDの取得など、実際にKubernetesクラスタで利用するイメージもついたのではないでしょうか。 (一部のbccベースのトレーシングツールと異なり)ユーザ空間のリソース消費は非常に軽微で、このソフトウェアの場合はメモリ使用量が6MB未満程度でCPUも処理内容をご覧の通りほとんど使わないためご安心ください。 BPF CO-REで可搬性のあるバイナリにすることでbccの時にあったClangへの依存や実行時コンパイルを取り払うことができ、プロダクション環境でも比較的気軽にeBPFを導入できます。 eBPFは kretprobe で返り値を上書きできたりと副作用があったり、パフォーマンスのオーバーヘッドも0ではないため導入には慎重になるべきですが、実際に数年のプロダクション環境での運用の中で今のところ問題は発生していません。 (LIFULLでは kretprobe で返り値が上書きできることを利用して簡単なCircuit Breakerの仕組みを準備していたりもします) あわせて、Network Load BalancerのNAT Loopback問題についてもくれぐれもご注意ください。 性質上クラスタが巨大になるほど発生率が低くなるため、しっかり監視していないと謎のTail Latencyに悩まされることになります。 ブログを書くのをサボってしまいeBPFの旬はとっくに過ぎてしまった感がありますが、時に(当時の)最新技術を使いながらPlatform Engineeringすることに興味がある方がいれば是非こちらからお問い合わせください! hrmos.co
プロダクトエンジニアリング部の二宮です。 私は 有料集客のデータを扱う部署の仕事 をしながら、サイドプロジェクトとしてKEELチームとともに keelaiという社内のAIチャットボット の開発にも関わっています。keelaiについての詳細は相原がこちらの記事で解説しています。 www.lifull.blog keelaiはSlack上で動くAIチャットボットを含んだ "汎用AI(仮)" 技術スタックで、LIFULLグループのSlackユーザーおよそ1000人程度の中で月間200人以上に利用して頂いてます。これはけっこうな成功例と言っていいんじゃないでしょうか? 結果的にですが、keelaiの社内広報やサポートを担当することが多くありました。また私はエンジニア向けの Q&Aフォーラムを開設 していること、 ベトナム拠点との交流会 の企画にも関わっていることから、社内の技術広報やコミュニケーションについて考えることが多くありました。そこで培ったノウハウや考えも含めて共有します。 大きく考える いきなり精神論だし、社内広報に限らない話ですが、新しい基盤を作るのに大事なことだと思ってます。 keelaiが大きなユーザー数を獲得できた一番大きな要素は、 相原の記事 にもある通り「子会社や業務委託の人々にも使ってもらおう!」と大きく考えて狙っていき、そのために必要なこと(例えば予算や権限管理等)を整備していったことだと思ってます。 私達の汎用AI(仮) keelaiは多言語対応や契約形態やグループ会社ごとのFunction Callingのアクセス制御を経て、現在は国内外のグループ会社全体で利用されています。 社内知識からの回答やWebブラウジングはもちろんのこと、画像・音声に関する操作や社内システムとのインテグレーション、WebAssemblyでサンドボックス化された安全なCode Interpreter相当の機能も準備中です。 特に、keelaiの開発チームではけっこう冗談みたいな会話をしていて、「200人に使ってもらったし、次は2000人だな(※社員数超えてる)」っていう話から「じゃあ子会社も入れなきゃ(※実際には入れても足りない)」っていう実際にできる話に繋がっていきました。 私たちはついつい現在の延長上で考えてしまうのですが、他の人に面白いそうだと思ってもらうためには、今までやってきていない話の中から「意外といけそうじゃない?」っていう面白いアイデアを実現していることが大事じゃないかと思います。これは ベトナム拠点との交流会 でも共通していたと思います。 面白いアイデアを探索するために、みんなで心にイケイケ社長を宿しましょう😎 次の行動を喚起する 広報は主にSlackで行っています。ただ、ハンガーフライトの告知でも感じているのですが、かなり「あのイベント面白そうだけどいつやるの?え?先週終わった?」みたいな話をされてしまうことも多いです。 それなりの高頻度(週に1~2回程度)で投稿する 何らかの行動を喚起する 具体的には「カレンダーの予定追加」「プロダクトを触ってもらう」など keelaiでは「showcaseの記事を読んでもらう」ことを置いて、週に数回程度で次のような投稿を雑談チャットに投稿しています。 この「行動を喚起する」という話は、『 システム運用アンチパターン 』の「コミュニケーションを適切に定義する」という章の内容が参考になっています。以前、読書会をしたログが こちら にあり、他の項目も役立つはずです。 こういうとき私たちは「こんなにたくさんの機能を実装したぞ!すげーだろ!」みたいなことを言いがちですが、むしろ読者に次にどんな行動を取ってほしいのか考えて、ちょっと軽めの文章で誘ってみるのがコツなんじゃないかと思ってます。 keelaiはSlack Botとして実装されており、単に「次は君たちも使ってみてくれ!」とも言いやすいし、一般的なChatGPTの利用方法も集めやすいため、その点では楽です☺️ 継続的に接点を持つ 定期的な広報をすることにはもう一つ意味があって、広報を見た人からの問い合わせが来るきっかけになることです。なんとなく質問や提案をするタイミングを逃したまま忘れてしまっている人も多いと思っていて、その相手の周知にもなります。 実際に「keelaiのAPIがあれば、CIで呼び出して社内情報も加味した自動コードレビューに使いたい」という話が来て案内したり、「ドキュメントを見ても導入方法が分からない」と言われドキュメントの不備をアップデートしたりしています。 keelaiはサポート用の公式のSlackチャンネルも用意していますが、実際にはこういうカジュアルな問い合わせのほうが多いです。また、 交流会の運営 としては、逆にマネージャー職の社内キャリア相談の広報に対して「一緒にマネージャーの座談会をやりましょう」と私から提案して実現したこともあります。 継続的に接点を持つことと、思いつきのアイデアを投稿しやすい雰囲気を作ることが、後から考えるとけっこう面白いコラボレーションに繋がっていたと感じてます。 まとめ 特にエンジニアには、いい仕事をしていて他の人の役に立つモノを作っているはずなのに、本来のプロダクトやアイデアの持つポテンシャルを発揮できていない人も多いんじゃないかと感じることがあります。この記事がそういう人がうまくコラボレーションを広げられるきっかけになると嬉しいです。 また、少し話が逸れるので書きませんでしたが、keelaiの開発に関わっていて、こうした基盤を作ることによって、同じ会社の仲間にベストプラクティスやいいアイデアを広げることに貢献できると感じています。こちらについては「 LLM活用促進に向けたPlatform Engineeringからのアプローチ 」を読んでください。 最後に、LIFULLにはこうした新しいアイデアをどんどん議論していく文化の素地があるし、まだまだ発展できると思ってます。こうした文化を作っていきたいエンジニアは、ぜひ求人やカジュアル面談のページも見て頂けると嬉しいです。 hrmos.co hrmos.co
KEELチーム の相原です。 前回のエントリ で我々KEELチームはKubernetesベースの内製PaaSであるKEELを開発・運用する傍ら、LLMという新たなパラダイムの台頭にあわせてベクトルデータベースの提供や周辺ソフトウェアを社内向けに開発していることを紹介しました。 www.lifull.blog あれから数ヶ月が経ち、現在私達はLIFULLのグループ会社全体に向けて汎用AI(仮)を提供しています。 もともと我々KEELチームはPlatform Engineeringの一環として、Kubernetesベースの内製PaaSであるKEELのほかにコードジェネレータによる一貫したPaaS体験を中心に様々なユーティリティをコマンドラインから提供するkeelctl, KEELが提供するプラットフォームのユーザ体験を向上させるブラウザ拡張のkeelextを開発してきました。 Platform Engineeringの責任は無限にスケールさせることです。 プラットフォーム・コマンドライン・ブラウザを手中に収めてソフトウェアエンジニアの生産性向上を盤石なものとした私達が次に目を向けたものが、職種問わずあらゆる業務上の課題を解決できる汎用AIでした。 そもそも社内のLLM活用が思うように進んでいなかった中で、まずは活用の背中を見せること、そして"無限にスケール"を目指す上で避けて通れない汎用AIというテーマにはスケーラビリティや信頼性に専門性を持つ私達が適任だと判断しました。 今回目指す汎用AI 汎用AI(仮) keelai Agents Function Callingの利用 マルチエージェントによるトークン消費の抑制 マルチエージェントにおける状態共有とベクトルデータベース Bot EmbeddingRetrieval Evaluation その後 OpenAI Assistants API 最後に 今回目指す汎用AI とはいえ汎用AIは壮大なテーマです。 プロダクトの鉄則は「小さく作る」なのでまずはファーストリリースのゴールを設定しましょう。 なるべく作らない テキストベースでの対話型インターフェース 職種問わずあらゆる業務上の課題を解決できるスケーラビリティを持つ スケーラビリティとコストのバランスを保つ 私達のプラットフォーム戦略は(3人というコンパクトなチームということもあり) インナーソース に重きを置いていて、無限にスケールする仕組みを用意した後は社内からContributionを集めて加速的に成長していくことを狙っています。 実際にコードジェネレータによる一貫したPaaS体験を中心に様々なユーティリティをコマンドラインから提供するkeelctlでは、あるプラクティスを浸透させたい開発者が自らの手でkeelctlに機能を実装する文化が根付いていて、社内の全体最適に貢献するとともに標準コマンドラインツールとしての地位を確立しています。 汎用AIを目指す上でもあらゆる業務上の課題を解決する機能を私達だけで実装することは現実的ではないため、 「なるべく作らない」ことでコストとバランスが取れたスケーラビリティだけを素早く示してインナーソースによって成長していく ことを目指しました。 汎用AI(仮) keelai そうして開発されたものが汎用AI(仮)であるkeelaiです。 (やっていき感を出すために社内プロダクトでもロゴを作るようにしていますが盛り上がるのでお勧めです) keelaiの基本的なコンセプトを私達はマルチエージェントと呼んでいて、サブタスクを解決するために自律的に動くエージェントを複数組み合わせて協調させることで無限にスケールすることを目指します。 現在では一般的なLLMのユースケースに加えて、例えば以下のようなユースケースにも対応しています。 Webから最新のコンテンツを取得して、社内情報と突合しながら新しいコンテンツを生成する 社内のテーブルスキーマに応じたSQLの生成とバリデーション 社内のデザインガイドラインに準拠した画像の生成 とにかく分からないことややりたいことがあれば、それが社内のことでも社外のことでも一見無理そうなことでもとりあえず指示するといい感じにしてくれるというものです。 しかしまだエージェントの実装はあらゆる課題を解決するために十分ではないし、エージェントを人間が実装しないといけない時点で...という気もするので "汎用AI(仮)" です。 そんなkeelaiは複数のコンポーネントから実現されており以下のような構成になっています。 agents: サブタスクを解決する複数のエージェントの実装 bot: agentsを呼び出しSlack Botとして稼働するテキストベースの対話型インターフェース api: 同様の機能をHTTPで提供するAPI memory: エージェント間で共有する短期記憶で軽量なベクトルデータベースであるRediSearchをバックエンドとする brain: エージェント間で共有する長期記憶でオブジェクトストレージであるAmazon S3をバックエンドとする embedding-retrieval: ChatGPT Retrieval Pluginの信頼性の問題を解決した社内知識を回答するためのソフトウェアでベクトルデータベースであるQdrantをバックエンドとする embedding-gateway: 各Embeddings APIに対する透過的なキャッシュレイヤ summarizers: やり取りが長期化した場合や巨大なドキュメントをもとに回答する場合に要約するモジュールで、用途に応じて複数の要約のオプションが用意されている loaders: embedding-retrievalに文書をインデックスするためのバッチプログラムで、GitHubやSlack, JIRA/Confluenceなど各種データソースごとに実装が存在する manager: loadersの実行管理を行うバッチプログラムで、差分インデックスや並列数の制御を行う evaluation: apiを使いながら典型的なkeelaiのユースケースを実行し、その精度をLLMによって出力したメトリクスから評価するためのバッチプログラム 私達はこれをPlatform Engineeringらしくパッケージとしても配布しており、特定のユースケース用にカスタマイズされた汎用AI(仮)を社内で開発できるようにしています。 初回リリースまでは2週間ほどと大分「なるべく作らない」ことで手を抜けたのでここからはそういった点を紹介していきます。 Agents エージェントはOpenAIのGPT-4をベースにFunction Callingを使って実装されていて、ブラウザ操作・画像生成・音声処理・社内システムとのインテグレーションなどサブタスクごとにエージェントが分かれています。 私達に自前のLLMを開発する体力はないのでGPT-4を利用することは当然として、エージェントの実装にはFunction Callingも使ってとことん楽をしています。 Function Callingの利用 Function Calling は関数の名前と引数の型をOpenAPI形式で与えるとコンテキストに応じて実行すべき関数とその引数を推論してくれるOpenAIが提供している機能で、エージェントがどの機能を呼び出すかをどうかを自律的に判断できるようになります。 似たようなことを実現するための手法として Plan-and-Solve Prompting が提案されていますが、Function Callingを利用することで極めて少ない実装量でそれっぽい挙動を再現することができます。 恐らく ChatGPT plugins の中身もFunction Callingでしょうし GPTs のActionsも同様のはずです。 以下は社内システムとのインテグレーションを司る ObservabilityAgent のイメージです。 messages = [{ "role" : "user" , "content" : "Pod/keelai-5675dfdf7b-d7c2l で起きているエラーの原因を調べて" }] tools = [ { "type" : "function" , "function" : { "name" : "get_metrics" , "description" : "Get metrics from Prometheus" , "parameters" : { "type" : "object" , "properties" : { "pod_name" : { "type" : "string" }, "metric" : { "type" : "string" , "enum" : [ "container_cpu_cfs_throttled_seconds_total" , "container_cpu_usage_seconds_total" , ], }, "duration" : { "type" : "string" , "enum" : [ "1h" , "6h" , "24h" ]}, }, "required" : [ "pod_name" , "metric" , "duration" ], }, }, }, { "type" : "function" , "function" : { "name" : "get_logs" , "description" : "Get logs from Grafana Loki" , "parameters" : { "type" : "object" , "properties" : { "pod_name" : { "type" : "string" }, "duration" : { "type" : "string" , "enum" : [ "1h" , "6h" , "24h" ]}, }, "required" : [ "pod_name" , "duration" ], }, }, }, ] response = openai.chat.completions.create( model= "gpt-3.5-turbo-1106" , messages=messages, tools=tools, tool_choice= "auto" , ) 必要に応じて実行すべき関数名と引数が推論されるため、あらかじめ用意しておいた関数を推論された引数で呼び出し、実行結果を返却することで汎用AIっぽい挙動を低コストに実現することができます。 その結果に対して更に推論を挟むことで ReAct 相当の機能も実現することができ、軽微な実装で更に精度を向上可能です。 マルチエージェントによるトークン消費の抑制 しかしFunction Callingも万能ではありません。 OpenAIの課金はトークンの入出力によって行われますが、 tools として与えた関数の候補は入力トークンとして毎回処理されます。 そのため汎用AIを目指す上で多くの関数を実装していくと、単なる「こんにちは」のような問いに対して膨大なトークンが消費されてしまいます。 そのために私達はサブタスクごとに実装されたエージェントに親子関係を持たせて、それを多段で呼び出すことによってトークン消費を抑えるアーキテクチャを採用していてこれをマルチエージェントと呼んでいます。 起点となる親のエージェントには以下のように子のエージェントを呼ぶFunction Callingを定義することで、 tools に膨大な関数群を書くことなく毎回のトークン消費を抑えつつ様々な機能の呼び出しに対応しています。 { "type" : "function" , "function" : { "name" : "launch_image_agent" , "description" : "Launch an agent to manipulate images" , "parameters" : { "type" : "object" , "properties" : { "instruction" : { "type" : "string" }, }, "required" : [ "instruction" ], }, }, }, { "type" : "function" , "function" : { "name" : "launch_observability_agent" , "description" : "Launch an agent to fetch observability signal" , "parameters" : { "type" : "object" , "properties" : { "instruction" : { "type" : "string" }, }, "required" : [ "instruction" ], }, }, }, それぞれのエージェントをどう協調させるかどうかもLLMに判断させる ということになります。 これにより画像生成に関係ないタスクの場合は launch_image_agent 分のわずかなトークン消費で抑えることが可能です。 ここにもFunction Callingを利用することでマルチエージェントも「なるべく作らない」で実現することができました。 突き詰めていくと「ある関数が実行された後にしか呼ばれない関数」のようなものが出てくるはずで、内部でコールスタックを持ちながらその依存関係をもとに tools を構築すると更にトークン消費を抑えられるなど、細かいトークン節約のテクニックはまた別のエントリで紹介することにします。 マルチエージェントにおける状態共有とベクトルデータベース 子のエージェントはRPCを通して呼ばれることもあり、負荷の特性に応じて異なるサーバ・異なる言語で実装されることがあります。 そのため、エージェント間の状態の共有には memory と brain という2つの外部記憶を通して行っています。 セッションが終了すると破棄される短期記憶である memory にはベクトルで各エージェントが処理結果を格納し、他のエージェントからは曖昧な表現でその処理結果を取り出せるようにしています。 例えば、画像生成を行うエージェントが「生成した犬の画像」として memory に画像を保存しておき、それをファイルアップロードを行うエージェントが「先ほど生成した犬の画像」として取り出すといった具合です。 素直にエージェント間で状態を共有しようと思うと、子のエージェントの実行結果を親のエージェントの入力トークンとして与えることになりますが、これは当然トークンの消費が激しくなってしまいます。 マルチエージェントにすることでコストとバランスが取れたスケーラビリティを実現するとともに、用途に応じた外部記憶を利用することで機能性を維持することができました。 この memory の実体はRedisの全文検索モジュールであるRediSearchであり、RedisStackというパッケージを利用することで簡単に用意することができるため、ここもまた「なるべく作らない」で実現されています。 この用途では永続性は不要であるためメモリ上に全て載せてパフォーマンスに優れるRedisが適切です。 Bot LLMを使ったアプリケーションを提供する上でまず最初に選択肢として挙がるものがBotインタフェースでありSlack Botでしょう。 私達も開発初期は当然Slack Botとして実装しましたが、汎用AI(仮)として成長していく中でもWebのインタフェースを用意するつもりはなくSlack Botとして作り続けています。 Slack Botは「なるべく作らない」上で色々と都合がいいです。 OpenAIはServer Sent Eventsで結果をストリームで受け取ることができるが、それをキューに溜めながらSlack APIの chat.update を呼ぶ実装でリアルタイムな返答を再現できる(Rate Limitのために適当にThrottlingする必要はある) 汎用AIを目指すと成果物をファイルとしてアップロードさせたくなるが、Slackはそのファイルの入出力先として十分機能する ダイレクトメッセージでSlack Botに話しかければクローズドに利用することができる上、そのやり取りを他の人に共有することもできるし当然パブリックチャンネルで直接利用することもでき、ChatGPTの Shared Links 相当の機能が実装不要で実現できる ユーザのメタデータは既にSlackが持っているため、所属組織ごとのFunction Callingの制限や言語の切り替えを認証の仕組みなしに実現できる 会話の履歴は当然Slack側に保存されているためこちらで保存する必要がない このようにSlack Botとして実装することでWebで同じ機能を実現するより格段に手を抜くことができ、汎用AIとして本質的な機能開発に集中することができました。 Slack Botを作るためにはBoltというフレームワークが用意されているためこれを使うだけです。 slack.dev SlackのSlash Commandとして開発者が容易に拡張できることも好みで、ChatGPTの Custom instructions 相当の機能が社内からのContributionを受けて開発されていたり、GPTsのように作成したプロンプトを配布する仕組みもSlash Commandとして実装されています。 (前述の通り会話の履歴を保存する必要がないため、長期記憶である brain の役割はこういった Custom instructions 相当の機能を実現するためにのみ利用されています) EmbeddingRetrieval EmbeddingRetrievalは 前回のエントリ でも軽く触れた社内向けの ChatGPT Retrieval Plugin のforkです。 社内知識を回答するために必要なコンポーネントで、ベクトルデータベースを利用してSemantic Searchすることで関連するドキュメントを取得することができます。 いくつかのパッチは書いたものの、結局ChatGPT Retrieval Pluginが各種データストアに対応するために膨れ上がった依存関係がネックとなりforkという道を選んでしまいました。 やはり私達としては可観測性や信頼性は重要であり、前回のエントリで触れたものを中心にいくつかの改善を施し、利用しないデータストアの実装を削除して利用しています。 その甲斐(?)あって低いエラー発生率や完全な分散トレーシングが得られるようになっており十分な信頼性で運用できています。 LangChain で TextSplitter や Vector stores を使って実現する方法もありましたが、結局LangChainも実装の箇所によって品質にムラがあることには変わりなく依存も同様に巨大となるため、シンプルなChatGPT Retrieval Pluginをforkすることが正解だったと感じています。 開発初期ではChatGPT Retrieval Pluginを使っていたため、「なるべく作らない」ためにChatGPT Retrieval Pluginを利用するということは依然有効だと思います。 私達はベクトルデータベースとして既に用意してあったQdrantを利用していますが、Qdrantも十分にシンプルなものの「なるべく作らない」というコンセプトとしてはAzure Cognitive Searchを利用することが適切でしょう。 Evaluation 汎用AIを開発する上では継続的な精度の監視が必須です。 プロンプトチューニング一つで"あちらを立てればこちらが立たぬ"になりがちで、内部のモデルを変えた時のインパクトも観測する必要があります。 継続的に監視するにあたって毎回Slack Botを手動で呼び出すわけにもいかないためAPIが必要となりますが、エージェントとSlack Botはトークン数削減を狙ったマルチエージェントな実装により疎結合になっているため開発コストは低いはずです。 そしてAPIを実行した結果を何らかの方法で評価するわけですが、この際にはAzure Machine LearningのPrompt Flowが参考になります。 Prompt Flowにはいくつかの評価メトリクスが用意されており、汎用AIの精度評価に関してもこれをそのまま利用できるはずです。 learn.microsoft.com Relevance: 質問に対する回答が与えられたコンテキストとどの程度関連しているか Coherence: 質問と回答に一貫性があるか Fluency: 質問と回答が文章的に自然か などがLLMの評価メトリクスとして用意されています。 これをそのまま利用してしまうことで「なるべく作らない」で精度監視を実現することができました。 その後 私達の汎用AI(仮) keelaiは多言語対応や契約形態やグループ会社ごとのFunction Callingのアクセス制御を経て、現在は国内外のグループ会社全体で利用されています。 社内知識からの回答やWebブラウジングはもちろんのこと、画像・音声に関する操作や社内システムとのインテグレーション、WebAssemblyでサンドボックス化された安全なCode Interpreter相当の機能も準備中です。 こういった機能の実装は独立したエージェントを開発するだけで開発者誰しもができるようになっていて、Platform Engineeringを専門とする我々KEELチームはここに新たなプラットフォームとしての可能性を見出しています。 私達のプラットフォーム戦略はインナーソースによる成長を積極的に狙っていると先に書きましたが、その進捗はまずまずと言ったところで、 ChatGPT Retrieval Pluginの構築を一緒始めた二宮以外にも チーム外のContributorは何人か生まれつつあるのでここからの横展開を頑張ろうといったところです。 今回紹介した通り、この程度であればコアとなる Agents の機能以外を「なるべく作らない」で実現することができます。 プラットフォーマー各位はプラットフォームの次の一手として是非汎用AIをご検討ください。 LIFULLでは今後プラットフォームとの連携を一層強めていき、社内システムとインテグレーションされた汎用AI(仮)による障害対応の自動化や、(うまくGitHub Copilotの隙間を縫いながら)社内の開発ガイドラインをもとにしたコードレビューの自動化をやっていく予定です。 OpenAI Assistants API と、ここまで書いておいてですが、実は似たようなものはOpenAI Assistants APIを利用することでも実現できます。 https://platform.openai.com/docs/assistants/overview platform.openai.com タイトルにのみ書いてここまで触れてきませんでしたが、OpenAI Assistants APIとは2023年11月6日のOpenAI Dev Dayで発表された機能で、汎用AI(仮)のようなAIアシスタントを開発するためのフレームワークのようなものです。 会話の履歴の保持 ファイルサーバの提供(Fine-tuningでも利用されるので厳密にはAssistants APIの持ち物ではありませんが) ファイルサーバと統合されたマネージドベクトルデータベースを利用してSemantic Searchする retrieval の提供 Code Interpreterの提供 Function Callingとのインテグレーション が主な機能と言っていいでしょう。 今後利用できる機能はOpenAIによって実装されて増えていく予定らしくこれは強力な選択肢となるはずです。 しかし、会話の履歴の保持やファイルサーバはSlack Botとして実装していればSlackに肩代わりしてもらえますし、 retrieval 相当の機能はChatGPT Retrieval PluginとAzure Cognitive Searchで十分事足ります。 クラウド時代の常としてマネージドな部分が増えるほど価格は高くなるわけで、今回はOpenAI Assistants APIを使わず「なるべく作らない」で無限にスケールする汎用AI(仮)を開発した話を紹介しました。 (そもそも私達はDev Day前にここまで作ってしまっていたこともありこのまま突っ走ろうと思います。) 最後に 我々KEELチームはKubernetesベースの内製PaaSを開発・運用する傍ら、汎用AI(仮)の開発に踏み切りプラットフォームの影響力を強めることに成功しました。 KEELチームはこれまでもコマンドラインのソフトウェアやブラウザ拡張を開発してきており、プラットフォームの成功、ひいてはLIFULLの目指す「あらゆるLIFEを、FULLに。」実現に向けてソフトウェアエンジニアとしてPlatform Engineeringの領域からあらゆる手を尽くしていきます。 もし興味を持っていただけた方がいましたら是非こちらからお問い合わせください。 hrmos.co
プロダクトエンジニアリング部の吉田と申します。 普段はRubyやTypeScriptといった言語を使ったサーバサイドエンジニアをしています。 今回、サイトの閲覧障害をきっかけに行ったポストモーテム会が個人的にとても有意義だと感じたので紹介させてください。 障害分析レポートの紹介 弊社では障害が起きた場合、障害分析レポートを書くという決まりがあります。 この障害分析レポートというものは、一般的には SRE の用語でポストモーテムとして知られている障害対応時のことを記録する文書のことです。 弊社では品質管理を行っている部署がテンプレートやフォーマットを整えてくれており、内容としては オライリーのSRE本 の付録Dに記載してある「ポストモーテムの例」にかなり似通った内容です。 かいつまんで紹介すると下記のような内容を記載するものです。 障害の概要 影響範囲 タイムライン 水面下で起きていた問題(根本の問題など) 教訓(良かったこと、悪かったこと) これらを書くことでいったい何が起きていたのかを後から振り返ることができ、同じ過ちを繰り返さないためのアクションを考えることができる、というものです。 障害分析レポートの運用上の課題感 ただ、個人的にこの障害分析レポートの"運用"に課題があると常々感じていました。 その課題とは、障害分析レポートを書く人の主観に基づいた記載だけで終わりがちであり、"障害発生時の対応方法の改善"に寄与しないという点です。 障害分析レポートは障害対応が落ち着いたら上記のフォーマットにのっとって記載する、というところまでルールとして存在していますが、それ以外については何も定まっていません。 フォーマットについて書くと、何が起きて(Why)、誰が(Who)、いつ(When)、何を対応したか(What)は分かりやすい構成になっています。 しかし、タイムラインの項目で どう対応したか(How) の部分をどれくらい書くのかは書く人の裁量に委ねられています。 障害発生時にどのような調査をして、対応したメンバーの間ではどのように連携を取っていったのか、ということまで書く人はそう多くありません。 これでは再び障害が発生して別のメンバーが対応するとなった場合、どう振る舞えば良いのかということをその場その場で学ぶしかありません。 また、リモートワークをしている昨今では、チャットの文字上だけでコミュニケーションを済ますことが多いです。 障害対応をするときは阿吽の呼吸のようなものが求められることもあり、オフィス勤務をしている際には部署を超えて一ヵ所に集まって声を掛け合いながら作業をするということも珍しくありませんでした。 しかし、リモートワークではお互いの姿が見えないのでそれも難しいことです。 これは完全に私の主観混じりの決めつけに近いものですが、お互いの姿が見えないということでコミュニケーションロスが発生していたはずだ、だからそこには障害対応時の改善点があるのではないかと睨んでいました。 そういったことも踏まえ、障害分析レポートの物自体は良いのに活用ができていない、と感じていたのです。 上記のような課題感を抱えていたあるとき、休日に障害が発生し、関係者全員がリモートワークでの障害対応を強いられる状況になりました。 そして対応後、感じていた課題感を明らかにするべくポストモーテムを振り返る場としてポストモーテム会を開くことを提案しました。 ポストモーテム会の実施前の準備 今回は私が障害分析レポートを書き、それを土台にしてチームで話し合う会として設定をしました。 話し合う内容としては下記のとおりです。 障害分析レポートに書かれていないけど伝えたかったこと Slackで書くほどでもないが当時起きていたこと Slackには書かなかったが実は思っていたこと 特にそれ以上のことは決めておらず、時系列を見ながらああでもない、こうでもないとワイワイする感じです。 また、私が書き忘れていた、書き漏らしていたという出来事も話し合う過程で補完されていくだろうという狙いがあります。 休日明けの最初のミーティングのタイミングでメンバーにポストモーテム会を提案しました。 今回参加したメンバーには申し訳ないのですが、私の感じている課題感の共有はそこそこに、やりたいからやらせてくれ、といった感じでやらせてもらいました。 本来はもう少し丁寧に共有すべきだったと反省しています。 障害分析レポートのテンプレートに沿って書いた時系列 障害分析レポートのテンプレートに沿って書いた時系列は以下のようになりました。 時間 起きたこと 対応 02:05 外部サービスの影響で特定のページが閲覧できなくなる障害が発生 10:30 ユーザーが増えたことでアラートが鳴る 10:45 エンジニア2名で調査を開始(当時のSlackへのリンクを貼っている) 11:14 特定のデータが原因である可能性が濃厚だと判断し、データを管理しているインフラ部門へ協力を要請(当時のSlackへのリンクを貼っている) 11:40 インフラ部門が対応できない可能性を踏まえ別の方法を検討しているところ、主管部門から対応を開始する連絡をもらう(当時のSlackへのリンクを貼っている) 12:10 障害解消 インフラ部門による対応が完了(当時のSlackへのリンクを貼っている) 初動から約1.5時間の出来事、わずか6行にまとまっており簡潔でわかりやすいですね。 括弧書きをしているように証跡となるSlackのやりとりのリンクを記載しているので詳細な内容は追おうと思えば追えますが、この表を見ただけでは障害対応時にコミュニケーションロスなどの課題があったかどうかまでは見えてきません。 他にも10:45のエンジニアが何をどう調査していたのかはこの記載からは分からなかったり、11:14のところでもブログ記事向けに「特定のデータ」とボカして書いていますが、社内向けに書いたレポートでも具体的に何のデータのことかを書いていませんでした。 また、11:14〜11:40まで何をやっていたのかも分かりません。 こうして振り返ってみると自分でも粗が目立つとは思うのですが、書いた直後はこれで良いと思っていました。 これを見ながら複数人で話し合うことにより情報が補完できれば、という狙いです。 ポストモーテム会をやってみての時系列 上記を元にポストモーテム会を行った結果、細かく補完された時系列は以下のようになりました。 時間 起きたこと 対応 02:05 外部サービスの影響で特定のページが閲覧できなくなる障害が発生 02:30ごろ 実はエラーが出始めていたが、そのページのアラートの設定が漏れていた 04:31 アラートが鳴っていたが Slackの @here を利用しているため通知が飛んでいなかった 10:30 @here とか関係なしに通知をする設定にしていた1名が気付く(Aさんとする) Aさんが調査を開始する 10:35 私がアラートに気付きSlackにて調査開始宣言をする (エラーログの一部をレポートに貼り付け)エラーログが分かりづらく原因の特定に難航する 10:45 Aさんと私がSlackでコミュニケーションを開始 Aさんがかつて実装に関わったこともある関係で当時の記憶から心当たりを見つける 11:14 (Aさん)原因を特定しインフラ部門に対応を依頼するが、 休日ということもあり遠慮してメンションはつけなかった   また、アプリケーション側で対応することも検討したが対応するアプリケーションが多かったのでインフラで一括対応するほうが速いと判断した 11:18 (私)緊急と判断し、メンションをつける 11:24 インフラ部門が反応、私用のため20分ほど動けない旨の連絡をもらう その間、もっと短時間で解消する方法を模索する 11:40 インフラ部門から対応を開始する連絡をもらう そのままインフラ部門に対応してもらったほうが早そうなので別の方法の模索を打ち切り影響範囲調査に作業を転換 12:10 障害解消 インフラ部門に対応してもらったが、インフラ部門内での対応手順が定まっていなかったので手こずってこの時間になってしまった 12:35 影響範囲調査が完了、Slackにて報告 12:40 解散 2倍近くの行数になり、だいぶ肉付けされましたね! 前述の10:45前後の内容が充実したおかげでどういう振る舞いをしていたかも分かりますし、原因特定に至った流れも分かるようになりましたし、11:14〜11:40の間に行っていたことも分かるようになりました。 ポストモーテム会後の時系列を受けてのアクションを決める そして太字にした部分は、 障害対応における改善点 です。 これは最初の時系列などでは見えてこないもので、ここを改善することで障害から復旧までの短縮につながると考えられます。 理想を言えば手作業なしに復旧するのが望ましいですが、現実問題としてそうはなっていないので、オペレーションを改善するのも大事なことですね。 上記で太字にした部分に対応するアクションとして大まかに下記の3つを行いました。 アラートの対応が漏れていたので設定をするチケットを作成した アラートは @here ではなく @channel にするチケットを作成した 障害発生時はタイミング関係なく、遠慮なくメンションをするというルールにした 他にもアプリケーションの改善といったアクションもあるのですが、今回の障害対応の改善の趣旨から外れるためここでは省略することにします。 まとめ 障害はいつ起きるものか分かりません。そのときに備え、ちょっとした対応でも複数人の目で振り返ってみることで新たな発見があり、小さいかもしれませんが改善を積み重ねることができるのではないかと思います。 なんなら今この記事を書いている最中にも「このアクションを入れたほうが良かったのでは?」という発見もあったりして振り返ることの大事さを噛み締めています。 みなさんもポストモーテム会を開いてみてはいかがでしょうか? LIFULLでは共に改善を積み重ねていく仲間を募っています。 よろしければこちらのページもご覧ください。 hrmos.co hrmos.co
エンジニアの寺井です。本記事では LIFULL HOME'S でのサイト高速化への取り組みについて紹介します。 今回の内容は高速化施策の一環で、サイト速度を計測して監視できるようにした話です。 LIFULL HOME'Sのサイト内の各URLのサイト速度を一覧で見られるようにして、遅い箇所の特定や改善に活用できるようにしました。この取り組みについてお話します。 はじめに ~なぜサイト高速化が重要なのか~ Webページを見る際に数秒経っても真っ白の画面で読み込まれない、あるいは読み込まれている途中で何も操作ができない、こんな経験みなさんはありませんか?中にはページが読み込まれずイライラしてそのページから離れてしまうといった経験をした方も少なくないでしょう。 2017年にGoogleが実施したモバイルページの 調査 によると、ページ読み込み速度が遅くなるにつれて直帰率(ページを離れてしまう確率)が跳ね上がるという結果が示されています。このことから、サイト速度が遅いというだけでユーザーがサイトを利用してくれる機会が損失してしまうことがわかります。 上記の調査結果はやや昔のものですが、時間あたりに得られる体験が特に重視される現代ではサイト速度による影響はさらに向上していると推測されます。 以上より、サイトの高速化は真摯に取り組むべき内容だと判断できます。 高速化指標の話 サイト高速化の重要性は前項で触れましたが、では実際にサイト速度はどのように測ればよいのでしょうか? Webページを構成する上で必要な要素は数多あります。たとえば LIFULL HOME'S だと物件情報を取得してくるまでのバックエンドの処理部分、ネットワーク通信、物件画像を表示する処理などさまざまな要素が絡み合ってページが構成されています。実際に手元の端末でサイトにアクセスして比較して...といった方法では感覚的な比較にしかなりませんし、具体的にはどの部分の処理が遅いのかという判断も難しいでしょう。 そこで、サイト速度を測るための指標として存在する パフォーマンス指標 やそのパフォーマンス指標をスコアで評価する Lighthouse score といった速度計測用の指標を計測することにしました。 サイト監視の現状と課題点 LIFULLには内製の「KEEL」というLIFULLグループ全体で利用することを目的としたKubernetesベースのアプリケーション実行基盤が存在します。 KEELについての詳しい話は以下のエントリで紹介されているのでよければご参照ください。 https://www.lifull.blog/entry/2020/12/02/000000 KEELチームの活動により、LIFULL HOME'Sへの一連のリクエストに共通のID(TraceId)が割り振られ、関連するリクエストのログを横断で絞り込むことができます。これにより一連のリクエストのトレーシングが可能になり、あるユーザーのリクエストに対して裏ではどの処理がどれほどの処理時間を占めているかを把握することが可能になりました。この機能を活用することにより、高速化指標のTTFB(Time to First Byte, サーバ処理が終わって最初のレスポンスが返ってくるまでの時間)とほぼ同値のものを詳しく解析できました。 この活動に関しての詳しい話は以下のエントリに記載されているのでこちらも合わせてお読みください。 https://www.lifull.blog/entry/2022/12/22/090000 (上記記事より引用)バックエンド処理を詳しく解析可能 一方で、実際のLighthouse scoreはコンテンツが表示されるまでの時間やJavaScriptによって操作できない時間など、フロントエンド部分の処理の評価も重要になってきます。 バックエンド部分の詳しい解析はできてもフロントエンド部分の解析はうまくできないのが現状の課題でした。 WebPageTest を使った計測 そこで WebPageTest (以下WPTと表記)を導入することにしました。 WPTのしくみとしては「agent」と呼ばれるインスタンスが実際に計測対象のページを訪問して、かかった読み込み時間を計測できます。また、通信の帯域を調整でき、擬似的にPC環境でアクセスした状況やモバイル環境でアクセスした状況を作り出すことが可能です。つまりPCサイトとモバイルサイトそれぞれで、実際のユーザーが使うシナリオに近い状態で計測を行うことが可能です。 もちろんLighthouseを直接実行して計測するのでもよかったのですが、Lighthouseと比較してWPTの方がより詳しい項目まで取得できることが決め手となりWPT導入に至りました。 WPTはブラウザからも実行できるのですが、たとえば NodeJS用のAPI実行パッケージ を使うことでAPIを叩いて実行することも可能です。そこで、WPTが動作するサーバとagentが動くインスタンスを立ち上げ、APIを叩くアプリケーションを作成し、定期的にサイト速度の計測を実行するシステムを構築しました。また、WPTで取得した計測データは、データ収集ツールのPrometheusを用いて集約した後、データ可視化ツールのGrafanaを用いてダッシュボード表示をするようにしました。これにより、LIFULL HOME'S 内の主要URLで今どれくらいの速度スコアが出ているのかを可視化することが可能になりました。 この一連のシステムを簡易的に表現すると以下のような図になります。 システム全体図 このダッシュボードを活用することにより、現在LIFULL HOME'S内で極端に遅くなっている箇所の洗い出しや、リリース前後で速度変化が起きたことも検知することが可能になりました。 LIFULL HOME'S 主要URLごとにLighthouse scoreをグラフで一覧表示するようにしました もちろん、このダッシュボードからそれぞれのWPTテスト結果へ飛ぶことも可能にしました。WPTの個別結果では処理にかかった時間が時系列で見られる「Waterfall図」など、詳しく解析するためのデータが揃っています。 ある計測結果のWaterfall図 計測をするようになって所感や今後の展望 WPTを定期実行することにより、サイト内で弱点となっている遅い箇所の特定と改善に効率的に取り組むことができました。結果として大幅なスコア改善を達成できたこともありました。 詳しい数値はお見せできませんが、Lighthouse score が一気に30ptほど改善できた箇所もありました Webサービスを継続していく上で、機能追加に伴いサイトが遅くなっていくことはどうしても起こりうる問題だと考えます。 それは知らず知らずの内に細かい処理が積み重なって遅くなってしまった、というパターンが多いと思われますが、その原因の根本はサイト速度という指標を誰もが簡単に見られないからではないでしょうか。 今回の施策では時間をかけて定期的な計測と監視をできるしくみを作り上げ、LIFULLの全エンジニアがサイト速度を監視することが可能になりました。今までは気付くことができなかった速度の劣化等も各々が検知できるようになり、各々が改善に取り組むことも可能になりました。長期間のサービス運用において、自分たち自身で気付くことができ、対応できる環境は大事だと考えるので、今後長い目で見た時に大きな効果があると良いなと思います。 おわりに LIFULLではこのような内部システムの高速化や効率化などにも積極的に取り組んでいます。 本記事を読んでLIFULLに興味を持っていただけた方はぜひカジュアル面談を受けてみませんか?よろしければ以下の求人情報もご覧ください。 hrmos.co hrmos.co
プロダクトエンジニアリング部の千葉です。 LIFULL HOME'S不動産査定 と ホームズマンション売却 の開発に携わっています。 この記事では、売却査定サービスにおけるアクセシビリティ対応の取り組みについて紹介していきます。 マンション査定シミュレーション input要素 コンボボックス 所在地選択ダイアログ キーボードフォーカス リストボックス 最後に マンション査定シミュレーション マンション査定シミュレーションは、インターネット上でマンションの価格を調べることができる簡易査定の機能です。 売却計画を立てる際や、不動産一括査定サービス利用時の参考として使用することができます。 LIFULL HOME'Sのマンション査定シミュレーションではマンション名、所在階、専有面積、間取りを入力すると参考価格を算出することができます。 まずは、ここの入力欄要素での取り組みについて紹介します。 input要素 専有面積では10~150までの数字の入力が求められます。想定外の値が入力された際には、 pattern属性 と title属性 を用いることにより、エラーメッセージを表示して入力欄までフォーカスを強制的に戻すところまでブラウザが自動的に行ってくれるようにしています。 pattern属性 正規表現で入力値のパターンを指定するもの title属性 input要素にpattern属性が指定されている場合にパターンの説明を指定するもの パターンが一致していない際にツールチップで一致するための要件を説明してくれる < input type = "text" pattern = "([1-9][0-9]|1[0-3][0-9]|14[0-9])(\.[0-9]+)?|150" title = "10〜150までの数字を入力してください" > また、入力時に表示されるソフトウェアキーボードの種類として、所在階の入力では小数入力の必要がないため、 inputmode属性 に数字が表示される numeric を指定しています。一方で小数の入力の可能性がある専有面積では、区切り文字も含んだものが表示される decimal を指定しています。 inputmode属性 input要素の入力時に表示されるソフトウェアキーボードの種類を指定するもの numeric 数字の入力ができるキーボードが表示される decimal 実数の入力ができるキーボードが表示される 数字と区切り文字 (ピリオド . または カンマ , ) が含まれる < input type = "text" inputmode = "numeric" > < input type = "text" inputmode = "decimal" > コンボボックス つづいてコンボボックスでの取り組みの紹介です。 コンボボックスはキーボードなどで文字入力することも、入力候補のリストから選択することもできる入力ボックスのことです。 WAI-ARIAの仕様に基づき役割や状態を適切に設定することで、矢印キー、Enterキー、Escapeキーなどのキーボードだけで操作が完結できるように、また、スクリーンリーダーでもコンボボックスを理解・操作できるように実装されています。 (※ 今回紹介するコンボボックスの実装はWAI-ARIA 1.1に基づくものになっています。現在の最新仕様であるWAI-ARIA 1.2は仕様が異なっていてそちらの使用が推奨されています。) role属性 に combobox を持つ要素をinput要素とlistbox要素の親要素とすることでコンボボックスと識別しています。この要素には名前が必要なので aria-labelledby属性 を使用しています。 input要素に文字の入力をすると入力された文字に対応する入力候補のリストが表示されますが、これは aria-autocomplete属性 に list を指定することにより示しています。 表示されるリストは aria-controls属性 で指定している"mansionNameList"をidに持つul要素です。この要素が表示状態であれば親要素の aria-expanded属性 には"true"が非表示状態であれば"false"が指定されます。 キーボード操作によってリストボックス内でフォーカスされている要素が変更されると aria-activedescendant属性 の値が変更されます。 role属性 要素が示す役割を明確にするためのもの aria-labelledby属性 要素とラベルを関連付けるもの label要素に対するfor属性と同じで関連付けたい要素のid属性を値として指定する aria-autocomplete属性 入力補完のサジェストを提供するためのもの aria-controls属性 指定した要素が値に指定した要素を制御することを示すもの aria-activedescendant属性 現在アクティブな子孫要素を指定するもの aria-expanded属性 要素の開閉の状態を示すもの < span id = "mansionNameLabel" > マンション名 </ span > < div role = "combobox" aria-labelledby = "mansionNameLabel" aria-expanded = "true" > < input type = "text" aria-autocomplete = "list" aria-controls = "mansionNameList" aria-activedescendant = "" > < ul id = "mansionNameList" role = "listbox" > < li role = "option" ></ li > ... </ ul > </ div > 所在地選択ダイアログ 物件の所在地の選択をする際に用いているダイアログでの取り組みも紹介します。 キーボードフォーカス キーボードの操作で所在地が選択できるように tabIndex属性 を指定しています。都道府県の選択後は市区の選択リストにフォーカスが当たるように focus()メソッド を使用しています。 tabIndex属性 Tabキーによるフォーカスの移動順序、および要素がフォーカス可能かどうかを指定するもの focus()メソッド 指定された要素にフォーカスを設定できる場合にフォーカスを設定するもの < dialog id = "prg-addressSelectDialog" open > < div data - target = "addressSelect_city" > < div tabindex = "0" role = "listbox" > ... </ div > </ div > </ dialog > document .getElementById( "prg-addressSelectDialog" ).querySelector( `[data-target="addressSelect_city"] [role="listbox"]` ).focus(); リストボックス また、市区のリストでは選択肢グループ要素を用いていますが、スクリーンリーダーでも理解できるように役割や状態を設定しています。 listbox要素の aria-labelledby属性 にはダイアログのタイトルである"addressSelectCityTitle"を指定しています。こうすることによってリストボックスにフォーカスが当たった際にタイトルが読み上げられます。 aria-activedescendant属性 にはキーボード操作によってリストボックス内でフォーカスされている要素が指定されます。以下のコードでは千代田区がフォーカスされているため、千代田区を持つli要素のidが指定されていて、千代田区を持つli要素では選択中であることを示す aria-selected属性 が"true"となっています。 グループの識別には role属性 に group を指定して、 aria-labelledby属性 でグループラベルを含む要素を参照しています。各選択可能な要素には role属性 に option を指定しています。 aria-selected属性 要素が選択されているかどうかの状態を示すもの < dialog id = "prg-addressSelectDialog" open > < div data - target = "addressSelect_city" > < p id = "addressSelectCityTitle" > 市区を選択 </ p > < div tabindex = "0" role = "listbox" aria-labelledby = "addressSelectCityTitle" aria-activedescendant = "addressSelectCity101" > < ul role = "group" aria-labelledby = "addressSelectCityCate0" > < li role = "presentation" id = "addressSelectCityCate0" > 23区 </ li > < li value = "101" role = "option" id = "addressSelectCity101" aria-selected = "true" > 千代田区 </ li > < li value = "102" role = "option" id = "addressSelectCity102" > 中央区 </ li > ... </ div > </ div > </ dialog > 最後に 売却査定サービスにおけるアクセシビリティ対応の取り組みについて紹介しました。 弊社でのアクセシビリティの取り組みについてはほかの記事でも紹介されていますのでぜひご参照ください。 www.lifull.blog LIFULLではともに成長できるような仲間を募っています。 よろしければこちらのページもご覧ください。 hrmos.co hrmos.co
検索エンジンチームの加藤宏脩です。 今回は、LIFULLの検索エンジンであるSolrのバージョンアップについて紹介します。 Solrを含むミドルウェアの最新バージョンへのアップデートには多くの工夫と努力が必要です。 この記事では、私たちがLIFULL HOME`Sを支える物件検索エンジンのバージョンアップにどのように取り組んでいるのか、またv9.2.1へのバージョンアップ対応の詳細ついて紹介します 課題: Solrバージョンアップ移行時の課題 Solrのアップデートは単純な作業ではありません。 特に、古いバージョンからの大きなジャンプでは、多くの非互換性や変更点が存在します。以下は、私たちが移行時に遭遇した主要な課題です。 非互換性の問題: 既存の機能や設定が新バージョンで動作しない可能性。 テスト環境の構築: 新バージョンの動作確認に必要なテスト環境のセットアップ。 既存のカスタム機能の移行: LIFULL独自のカスタム機能を新バージョンに適応させる。 パフォーマンスの違い: 新旧バージョンの間でのパフォーマンス差。 新機能の取り込み: どの新機能を採用し、どう利用するかの判断。 影響が不明: 自社で利用している機能が把握できず、影響があるのかが分からない。 継続的にバージョンアップするために普段行っていること LIFULLでのSolr運用は日々の変更調査から始まります。 日々の変更調査 SolrやLuceneの変更内容を追跡し仕様変更や非推奨・廃止機能の調査します。 LIFULLの利用環境への影響を調査します。 調査結果をスプレッドシートにまとめます。 バージョンアップをブロックする可能性があれば、はやめにコミットします。 バージョン毎の調査 新バージョンのリリース毎に変更内容を確認し、動作確認を行います。 LIFULLの検証手順で動作確認をします。 テスト結果や修正項目、留意点をまとめます。 バージョンの選定 変更が多くなると作業量が増えるため、こまめにバージョンアップをします メジャーバージョンアップ等変更が多い場合は、 その一つ前のバージョンに上げるなどして、一つあたりのバージョンアップの作業量を減らすようにします。 バージョンアッププロジェクトで行うことについて バージョンアップは以下のような手順で進められます。 バージョンアッププロジェクトの開始 日々の調査やバージョンの調査結果をもとに、対応内容を確認。 調査計画、デプロイ計画、テスト計画を作成。 システム変更タスクの消化: 新バージョンに対応するための変更タスクを実施。 検証 LIFULLでは、物件検索エンジンの比較、検証用にテストを用意しています。 これがあることにより、 頻繁に物件データの更新がある環境で、データをそろえた2つの環境を用意したり 任意の量のクエリを抽出して性能や結果を比較するような手間のかかるタスクが簡単に行えるようになっています。 性能テスト 実際に本番環境で投げられているクエリを用意して、 新旧バージョンのクラスタにクエリを投げて、そのレスポンス速度を比較します。 回帰テスト 実際に本番環境で投げられているクエリをサンプリングして、 新旧バージョンのクラスタにクエリを投げて、レスポンスの差分を比較します。 データの差分確認テスト 新旧バージョンのクラスタに同じデータを投入して、 全件の出力を比較します。 混沌テスト(カオスエンジニアリング的な観点から行われるテストを略して混沌テストと呼んでいます) SolrのLeaderがfailoverして切り替わるのを確認します。 Zookeeperを落としてクラスタにクエリを投げて、そのレスポンスを確認します。 SolrのインスタンスにOOMを起こさせて、意図した挙動をするのかを確認します OOMは、自社で作ったOOMを起こさせるプラグインを導入してテストしています。 ディスクの使用量テスト Zookeeper、Solrのインスタンスのディスク使用量が新旧で大きく違っていないかを確認します。 Solrの台数を増減させてリクエストを受け付け続けられるかを確認します。 ログ出力テスト サーバー内のログにエラーやワーニングがないかを確認します。 cloudwatch logsに送信できているかを確認します。 デプロイ 問題がなければ、本番環境にデプロイ。 バージョンアップの運用をしたメリット バージョンアップを始めるときのハードルが低くなる バージョンアップが始まった段階で、変更内容やプロジェクトの手順など必要なタスクが分かります。 バージョンアップのPJのテンプレート化をしているので、PJの進め方も分かります。 共通のテスト手順が決まっているので、テストの手順を考える必要がなくなります。(変更内容を見て別途テストの設計はします) 知識が増える 変更調査を毎日やっているため、 メンバーが徐々にSolrの仕様変更に詳しくなります。 気になることをSlackでつぶやくと、誰かが知っているということが何度かありました。 リリースの安心感 検証は、過去の障害事例を元にしたテストも含んでおり そのテストがパスしている状態でのリリースには安心感があります。 Solr v9.2.1へのバージョンアップについて v9.2.1を選んだ理由。 当時最新のSolrバージョンであったことと、v9.x以降ベクトルが利用できるようになるため v9.2.1へのバージョンアップを行いました。 v8.x系の最新バージョンへの変更も考えましたが、 v9.2.1の検証もできており問題ないと判断したため、v9.2.1へのバージョンアップを行うことにしました。 Solrの変更について 調査や検証をする中で、いくつか問題や気を付けることがあったため その点についての紹介をさせていただきます。 ※具体的な変更については、Solrの公式の変更点を参照してください。 https://solr.apache.org/guide/solr/latest/upgrade-notes/major-changes-in-solr-9.html experimentalなAPIの機能廃止 zookeeperがlog4jを廃止して、logbackを使うようになりました logの出力先が変わるため、awslogsなどログの収集元を変更する必要があります。 FastLRUCache廃止に伴いCaffeineCacheへ変更 SolrのbooleanClausesの設定を参照する箇所の変更 節の長さが設定値を超えるようになり、バージョンアップ前まで成功してたクエリが失敗するようになるということが起きます LegacyBM25SimilarityFactoryの廃止に伴いBM25SimilarityFactoryへの変更 フリーワード検索による類似スコアでのブースト計算が変わりソートのための重みが下がります 類似度によるスコアの開きが少なくなるので、fqなど他の条件でのスコア計算の影響を受けやすくなります バージョンアップの効果 高速化 レスポンス速度が向上。 LIFULLの環境では、p99が大幅に改善しました。 CPU使用率の低下 CPU使用率が低下して、さばけるクエリ数が増えたので インスタンス数を3~40%ほど減らせました。 Solr v9というより、Javaのバージョンアップによる影響が大きかったのもあるかもしれません。 新機能の活用 新バージョンに含まれるベクトルを使った検証ができるようになりました。 まとめ 今回は、LIFULLが行っているSolrを継続的にバージョンアップする仕組みと、Solr v9.2.1へのバージョンアップについて紹介しました。 少ない工数かつ、比較的安全にバージョンアップできるようになりました。 また、最新のSolrにバージョンアップしたことで、新機能の活用やパフォーマンスの向上やコストカットなどのメリットも得られました。 ミドルウェアのバージョンアップは疎かにしがちですが、 LIFULLでは上記のような運用を行うことで、物件検索エンジンのSolrを最新バージョンに追随しています。 最後に、 このような効率化をしたいまたは得意なエンジニアの方々、 LIFULL では一緒に働く仲間を募集しています。この記事を読んで LIFULL に興味ができた方は求人情報も御覧ください。 hrmos.co hrmos.co
こんにちは。フロントエンドエンジニアの根本です。 LIFULL HOME'Sのプロダクト開発と、スポーツ関連の新規事業開発に携わっています。 ちょうど1年前のブログ( UXエンジニアとは?新規事業での取り組み - LIFULL Creators Blog )では、UXエンジニアという職種と新規事業開発でどのような取り組みを実践しているか概略を紹介しました。 今回はUXリサーチを取り入れた実際のプロダクト開発について、既存サービス改善と新規サービス開発それぞれに分けて紹介します。 既存サービス改善 インタビューの定期実施 私たちのサービスでは会員の方に常時インタビュー募集をしており定期的にインタビューを実施しています。 インタビューでは下記の共通事項を聞きながら必要があればその時に確認したい点や検討中の施策があればそれに対してヒアリングを行います。 ・サービスを認知した場所と会員登録した理由 ・現在の利用状況と登録前に期待していた事とのギャップ ・実際に使ってみて使いづらい点や要望 ユーザーストーリーマッピング作成 既存サービス改善を行うにあたって、サービス全体のユーザーストーリーマッピングを整理し直しました。 整理結果をもとに不足している機能群を洗い出し、優先度の重みづけをし重点的に対応すべき機能をピックアップしました。 また、会員には様々なユーザー属性がありその属性毎に必要な機能差分があれば色分けし整理します。 施策への落とし込み ユーザーストーリーマッピングを整理し見えてきた優先度高の機能について、インタビュー結果をもとにユーザー行動の洗い出しと発話を整理し改善のアイディアを洗い出します。 このように定期的にインタビューを実施することで、既存機能の改善をする際のインプットとして活用できPDCAを高速に回せることを実感しています。 新サービス開発 元々指導者向けにスポーツの練習メニューを提供するサービスを開発運営していましたが、今回選手向けの新規サービスの企画を進めてきました。 コンセプトテスト1回目 新規サービスを開発するにあたり、課題仮説とそれに対するコンセプトを用意し選手の保護者11名を対象にユーザーインタビューしました。 今回のイタンビューでは課題共感とコンセプト及びソリューションへのマッチ度を五段階で評価して頂き、自分達の検討している新規サービスがユーザーに受け入れられるのか検証しました。 選手年齢・競技経験・競技意欲・練習頻度など様々な基本情報をヒアリングすることで、今回の初期顧客となるペルソナ像の肉付け作業も合わせて実施しました。 初期顧客へのコンセプトテスト2回目 コンセプトテスト1回目から見えてきた初期顧客ユーザーへ追加インタビューを実施し、利用前UX・利用中UX・利用後UXを聞くことでユーザー体験設計時のインプット材料を整理しました。 【利用前UX】 ・サービスを知ってから導入するとしたらどんな流れで導入するのか ・こういったサービスや教材はどこで認知することが多いか ・認知した時に、どんなプロセスで検討するか ・導入する時の決め手は何か(期待値は何か) 【利用中UX】 ・全体感としてどのような利用の仕方をするか・いつ利用するか(曜日や時間帯など) ・誰が利用するか(本人、保護者、両方) ・利用するデバイスは何か(スマホ、PC、タブレット) ・どこで練習するか(家の中、家の前、公園など) ・練習する時にネックになりそうなことはあるか(端末など) 【利用後UX】 ・保護者として導入してよかったと価値を感じる要素は何か ・選手が価値を感じる要素は何か ワイヤーフレーム作成 プロダクトのワイヤーフレーム作成は自分が担当していますが、今回UXリサーチに時間をかけ様々なユーザーの声を聞いたことで、一つ一つの機能がなぜ必要なのか不要なのか言語化することが容易になりました。 本実装&リリース 本実装を終え、今年8月に無事プロダクトリリースを致しました。 UXリサーチを通常よりも念入りに実施したこともありリリースまでの期間は少し時間を要してしまいましたが、リリース後1ヶ月を迎えユーザー登録数も順調に推移しており、想定ペルソナのユーザーに利用いただいています。 また次のフェーズとしては、会員に対してインタビューを継続的に実施し実際の使い勝手について追加リサーチしていく予定です。 最後に LIFULL HOME'Sのプロダクト開発においても、UXリサーチは積極的に取り入れられており、リサーチ内容によって様々な検証が実施されています。 この1年様々なプロジェクトのUXリサーチに参画させていただく中で、改めてユーザーの行動や意識を理解することで、より良い体験を生み出せることを実感しました。 また、実際に自分のサービスの向こう側にいるユーザーと対話することでユーザーのためにもっと良いプロダクトにしなくてはという使命感も感じます。 これからも日常的にUXリサーチを取り入れながらプロダクトに愛を持って開発を続けていきたいと思います。 LIFULLでは共に成長できるような仲間を募っています。 よろしければこちらのページもご覧ください。 hrmos.co hrmos.co
こんにちは!LIFULL HOME’S iOSアプリエンジニアの山川・佐藤です。 今回は、2023年の9月1日(金) 〜 9月3日(日)の3日間で開催された、iOSに関連した技術をコアテーマにしたテックカンファレンス「iOSDC Japan 2023」に参加してきました。この記事では、3日間で行われたセッションの中から我々の印象に残ったセッションやイベントの様子について振り返ります。 iOSDC Japan 2023について iOSDC Japanは2016年に初開催され、今年で8回目となるiOSエンジニア向けのテックカンファレンスになります。 iOSDC Japan 2023の公式サイトはこちら https://iosdc.jp/2023/ 本イベントのテーマは「コミュニケーション」であるということで、オフラインの会場ではスポンサー企業ブースでさまざまな企業の方と交流したり、セッションで登壇した人に質問したり議論ができる場が用意されています。今回からはポスターセッションも始まりました。 そして、コロナ禍中は様々な行動制限があってできなかったことが多かったそうですが、今年は「フルスペックなiOSDCが帰ってきた」ということで、ビールが飲み放題な懇親会も復活しました!🍺笑 このように、学べて楽しめる要素が盛りだくさんなイベントです! 印象に残ったセッション Appleにおけるプライバシーの全容を把握する Appleが近年力を入れているプライバシーに関して、Appleが考えるプライバシーの基本原則や開発者が対応しなければいけないことを一通りおさらいするといった内容でした。 例えば2021年には、ユーザの許可を得ずにユーザの行動を追跡することを禁止するポリシー「App Tracking Transparency(ATT)」が制定されました。これによって、アプリはユーザの行動を追跡するには予めユーザに取得する旨を伝えた上でトラッキングの許可をもらう必要が出てきました。また、WWDC2023ではXcode15が発表され、Privacy Manifestsが導入されます。この対応が2024年春までに必須になります。必要な対応の要点の一つにRequired reaspon APIというものがあり、アプリで利用するのに理由が必要なAPIがあればMainifestに設定しておかなければいけません。 このAPIにはUser DefaultsのAPIも含まれており、これを利用していないアプリはほとんどないだろうということで、弊社を含めた多くの企業で対応が求められそうです。早めのキャッチアップと対応が求められるので、随時関連情報は見ていきたいですね。(山川) speakerdeck.com 法改正を乗り越えるiOSアプリのリリース戦略 運営中のサービスにダイレクトな影響のある法改正が施行されることになった際のリリース戦略について、株式会社LUUPでの対応事例の紹介でした。 2023年7月1日に電動キックボードの走行ルールが大きく変わりました。法改正施行日が決まっている中で、対応項目の洗い出しや、ユーザーに新しい交通ルールを理解してもらう方法の検討、極力サービスを止めないためのスケジュール管理など、怒涛の半年間であったことが伝わってきました。 計画的に準備を進めた結果、法改正施行当日にリリース作業を行う必要もなく、見守るのみだったというお話が非常に印象的でした。 不動産業界でも、法律はもちろんのこと、公正取引委員会の表示規約が毎年改正されます。これに合わせて弊社のサービスでも対応が必要になってくるため、非常に参考になりました。(佐藤) speakerdeck.com SwiftUI + KMM 開発で見えたそれぞれの長所と短所 Kotlin Multiplatformを導入することでiOS / Androidのビジネスロジックを共通化し、UIレイヤーの実装のみを各OSに委ねるという開発方法が登場しました。 ※最近、タイトルにもある「KMM」という呼び方はKotlinを開発するJetBrains社より、公式に「KMP」であるとされたため、以降はKMPで統一します。 📣 Update on the name of Kotlin Multiplatform From now on, “Kotlin Multiplatform” (KMP) is the preferred term when referring to the Kotlin technology for sharing code, regardless of the combination of platforms being discussed. We are deprecating the “Kotlin Multiplatform… — Kotlin by JetBrains (@kotlin) 2023年7月31日 iOS側でKMPを導入する際にはいくつか課題があるとのことでした。その一つとして、KMPはObjective-Cのモジュールを生成するため、いくつかのSwiftの機能は利用できません。そのため、KMP側で複数のクラスを持つ階層構造のものを定義したとしても、Swiftで見ると深い階層は浅い階層のクラスのオブジェクトにまとめられてしまったりするそうです。とはいえ、他にも癖のある部分もあるものの、総合的に見ると開発体験は悪くないそうでした。 実は弊社でもKMPを導入してサービス開発し始めていたので興味深い内容だったため、貴重な事例を知れて非常に参考になりました。(山川) speakerdeck.com Human Interface Guidelinesから読み解く標準アプリの素晴らしい体験 AppleのHuman Interface Guidelines(以下、HIG)を読んだことはあるでしょうか?2023年6月に公式の日本語版も公開されましたが、全てを読むのはなかなか大変ですよね。そこで、既存のApple標準アプリからHIGの理解を深めてみようという内容でした。 例えば、設定アプリは項目が多いにも関わらず、一貫したパターンやグループ分けによって整理されています。常に前の画面に戻れるようになっていたり、UIがテキストサイズの変更に対応していたりと、様々な観点での工夫が施されています。標準アプリには、Appleの知見が凝縮されています。特に標準アプリのアップデートされた箇所は、新たな発見につながるため積極的に触っていきたいですね! エンジニアだけでなく職種の壁を超えて、HIGを読んだり、標準アプリを研究しながら、サービスにとっての最適なUIを考えていきたいと思いました。(佐藤) speakerdeck.com こういうのは標準APIでいいよね サービス内で利用している外部のライブラリ数が多かったので、不要なライブラリを削減してその結果どうなるのかを説明したセッションでした。そもそも利用されていない・利用用途が大きすぎる・標準APIで充分担保できるといった理由から、元は44あったライブラリを15にまで削減されていました。例えば非同期処理でPromiseKitやRxSwiftを使っている箇所も、近年だとCombineやSwift Concurrencyの標準APIで簡単に実装できるようになってきています。 ライブラリの棚卸しをすることでメンテナンス性が向上するだけでなく、ビルド速度やアプリのサイズも改善される副次的効果もあるので、継続的に外部ライブラリと標準の機能との比較をしてリファクタリングしていく視点を持つことは事業インパクトには繋がりづらく、地道な対応ではあるものの重要なのだと改めて感じました。(山川) speakerdeck.com SwiftUIに適した新アーキテクチャの導入に挑む SwiftUIを導入するためのリアーキテクチャの検討から導入までの軌跡と、新しいアーキテクチャ「SVVS」の紹介でした。 リアーキテクチャを実施するにあたり、技術的負債の洗い出し・課題とサービス戦略にあったアーキテクチャの検討・リアークテクチャの進め方の考察の3段階の準備が行われていました。この対応はiOSチームのメンバーで行い、共通認識を持つことを意識して進めていったそうです。 採用された「SVVS」は、Store、View、ViewStoreの3つのコンポーネントで形成されます。依存関係は、ViewからViewStateへの依存、ViewStateからStoreへの依存の一方向と非常にシンプルな構成です。データの流れもシンプルになり、データ不整合の発生を防止することも期待できます。 既知のアークテクチャにこだわらず、チーム内での課題や今後の運用のしやすさを考慮して新しいアーキテクチャを生み出す姿勢を見習っていきたいですね。(佐藤) speakerdeck.com イベントの雰囲気 トーク会場は4部屋あり、自由に行き来ができるようになっていました。 今回はオンラインでも生配信されており、なんと中にはオフラインで参戦しつつも別室のセッションを聴く強者までいました! トーク会場の様子 Day1、 Day2に行われたLTでは、会場でサイリウムが配られ、それを振りながら応援していたのでライブのような雰囲気で楽しかったです。 LTはサイリウムをみんなでフリフリ! スポンサーブースでは、各企業のiOSアプリや事業の紹介のほか、iOSエンジニアならではのソースコードレビューやUIKitとSwiftUIの利用状況に関するアンケート調査などを実施していました。それらの結果を見ながらワイワイ議論できるもの、オフラインならではの醍醐味ですね⭐️ また、スポンサー企業様から技術書やバスタオル、ルービックキューブ、知恵の輪、中濃ソース!?など、個性豊かなノベルティをたくさんいただきました。 スポンサー企業ブース さらに、会場には軽食やドリンクも充実しており、その周りでは登壇者の方々に質問したり、ポスターセッションに参加したりと、コミュニケーションが活発に行われていました。 ロゴ入りのお菓子も食べ放題! X(旧:Twitter)でも楽しそうな投稿をしている方がちらほら見受けられました🤩 とても楽しく、勉強になり、本当によいカンファレンスでした😊 ありがとうございます!来年も楽しみにしています #iosdc pic.twitter.com/eMXC2fH3UC — こばやしよしのり🍎iOSエンジニア転職・オリジナルアプリ開発スクール運営 (@yoshiii514) 2023年9月3日 高まってきたな…! #iosdc pic.twitter.com/Hxpirq2H6X — Roku🐉 (@66nylon_y) 2023年9月3日 #iosdc スポンサーstmn社のTUNAG iOSアプリはVIPER使ってるようでVIPER研究読本がおすすめとおっしゃってましたー。感謝ぁ! pic.twitter.com/4XKvhYLk0B — y.imajo (@yimajo) 2023年9月3日 まとめ たくさんのセッションを聴講して、各企業の取り組みや技術的なトレンドを肌で感じることができました。iOSアプリ開発は従来UIKitを用いた開発がメインでしたが、どの企業でもSwiftUIへの移行を開始したり、SwiftUIでゼロから開発を始める事例が多く、イベントを通してiOSの主流な採用技術も大きく変わってきていることを特に強く感じました。弊社iOSアプリチームでも今後SwiftUIがメインとなる実装がどんどん入ってくることが見込まれるため、今回得られた知見をもとに弊社でのアプリ開発に活かしていきたいです。 最後に、LIFULLでは一緒に働いていただける仲間を募集しています。単にサービス開発をするだけでなく、自分たちの知見を深め・スキルを伸ばす機会がたくさんある職場です。カジュアル面談も実施していますので、もし興味があればそちらもご覧ください。 ※記事執筆時点ではアプリのエンジニアも募集していますよ😊 hrmos.co hrmos.co
プロダクトエンジニアリング部の二宮です。 私たちは「 強い個人・最高のチームになることで、価値創造を加速させ続ける 」というビジョンを掲げ、LIFULLのサービスをプロダクト開発でリードできる強い組織を目指しています。そして「最高のチーム」を目指すための取り組みをいくつか行なっています。 その活動の一環として、ベトナムの開発拠点の LFTV(LIFULL Tech Vietnam) とのハンガーフライト(雑談会)を開催しました。この記事では、その開催の背景と目的についてご紹介いたします。 ハンガーフライトについて LFTVハンガーフライトの準備段階 当日の様子と振り返り まとめと展望 ハンガーフライトについて LIFULLのエンジニア組織では、ここ数年間コミュニケーション活性化のための草の根施策としてハンガーフライト(雑談会)を行なっています。以前このブログでも「 リモートワーク下でどうやって偶発的なコミュニケーションを生み出すか: Discordを使ったコミュニケーション(ハンガーフライト編) 」で紹介した通り、次のような問題意識から始まりました。 コロナ禍の影響でリモートワークが中心になり、自部署以外のメンバーと話す機会が激減したため、ちょっとでも話す機会を作ろうと思ったのがきっかけで、私が所属する部署でもZOOMを使ってハンガーフライトを始めてみました。毎週決まった時間に自部署以外のメンバー含む数名でおしゃべりをしていました。 コロナ禍が長期化し、リモートワークが常態化しました。そのことによって、会社でも他部署の人と交流する機会が減ったことに対して課題意識が強まってきました。そこで、自分たちの周りでしかやっていなかったハンガーフライトを、エンジニア組織全体でやってみてはどうだろうと思い立ち、実施することにしました。 この活動は今ではエンジニア組織の文化として定着しており、現在は数人のメンバーで、次のような運営をしています。 色々な人に参加してもらえるように企画をしっかり練り、みんなが参加したくなるようなゲストを招待する。 無理の無いペース(月1回)でコンスタントに開催する。 参加者からチャットや口頭で質問やコメントを拾って、できる限り双方向コミュニケーションにする。 形式は座談会形式や質問形式など様々。 気軽に参加できるように聞き専もOK。 そして、7月の会ではLIFULLのベトナムの開発拠点の LFTV(LIFULL Tech Vietnam) の方々をゲストにお迎えしました。この企画の背景として、「 LFTVおよびその他海外拠点との協力開発の推進 」がLIFULLの開発組織のテーマの一環として掲げられており、実際に以前より業務連携が増えています。また、以前は単なる「案件の委託先」のような捉え方もされがちだったのですが、徐々にプロダクトチームの一員として参加するようなスタンスにシフトしようとしています。 先に結果を述べると、多くのメンバーが参加した盛況な会となり、いくつか反省点はあったものの、また同じテーマで開催したい良い会になったと思います。 LFTVハンガーフライトの準備段階 今回は普段に比べてどんな会になるのか想像できなかったため、準備をしっかり行いました。具体的には次のような形でやってみることにしました。 特に日本との関わりの強く、日本語にも詳しいブリッジエンジニアの方々を呼ぶ。 他の方々には「来てくれたら嬉しい」と伝える。 そこでベトナムの開発文化・生活の様子を聞ける会にする。 日本とベトナムでそれぞれ相手への事前質問を用意し、交互にその話題を振る形でファシリテーションする。 LFTVの社長に就任された加藤さんがハンガーフライトの運営メンバーの中にいたこともあり、意外に両方の国での広報や連絡で苦しむことは少なかったです。少し先回りした話ですが、「現地のエンジニアに楽しんでもらえる内容になるか不安なので、まずは日本側にベトナムに親しみを持ってもらおう」という方向性だったのですが、この不安は的中せず、実際にはブリッジエンジニア以外の方々にも積極的に参加して頂けました。 準備したスライド 当日の様子と振り返り 結果として、日本とベトナムが合わせて57人も参加する過去最大の参加人数の会になりました。ベトナム側の開発者はおよそ70名で、かなりの割合の方にこの会に参加してもらえました。当初の目論見通り、ベトナムや日本の文化の話題が中心となる会になりました。 アンケート結果などを踏まえ、後日の振り返りでは次の点が良かったこととして挙げられました。 参加人数も多く、アンケートでは満足度が高かった。 ベトナム側で、事前にGoogle Meetsのエクステンションで英語の字幕が出るようなものを共有してくれていた。 日本の運営側は「Google Meetsの公式機能には無い」程度しか確認できていなかった。 日本語で会話したため、日本語の堪能なブリッジエンジニアエンジニア以外に伝わるか心配だったが、ある程度は理解できていたらしい。 参加者の自発的なサポートがありがたかった(後述)。 より改善できそうな点としては次のようなものがありました。 スムーズな進行のためには英語の対応がもう少し必要だった。スライドに英語の記載があるとよかった。 Googleアカウントの権限の違いのため、LFTVのメンバーがGoogle Calendarの登録ができなかった。 暗黙の前提が違って、LFTVメンバーが質問の意図にピンと来ていなかったものもあった。 自発的なサポートで「コメント欄で発言してもらって、それを翻訳して拾う」という形になったが、明示的にその形にするとスムーズに会話が進みそうだった。 当日参加できなかった人にも録画を共有するつもりだったが、Google Meetsの録画をうっかり忘れてしまった。 当日は予想を上回るベトナム側の開発者が集まりました。これは嬉しい反響ですが、当日用意したスライドやアンケートが日本語だけだったり、非日本語話者の考慮漏れが発生したことが反省点の一つになりました。当日、自発的に同時通訳に近いことをしていただけて、かなり助かりました。 内容にピンと来ていなかった質問としては、例えば「今まで参加した中で楽しかったプロジェクトの話を教えてください」というようなものがありました。これは「LFTVでは開発タスク単位で仕事を振られることが多く、(今では変わりつつあるものの)プロジェクト単位で関わることが少なかった」という理由もあったようです。ただ、当日はベテランのエンジニアがこうした事情を補足説明していただいて、それぞれで見えている景色の違いが分かるきっかけになったとも言えるかもしれません。 こうして書くと真面目な話が多かったように思われそうですが、日本のYouTuber(ヒカキンさん)の話になったり、ベトナムオフィス周辺の美味しい料理の話だったり、カジュアルな話題でも活発に盛り上がることが出来ました。 まとめと展望 以上が今回開催したハンガーフライトの報告です。「最高のチーム」を作るためには、それぞれが異なる文化のメンバーとの交流を深めることが重要で、そのための一つの取り組みとして参考にしていただけたら嬉しいです。 「またベトナムの開発拠点との交流会を行いたい」という声が多かったのも嬉しいです。次回は今回の反省点も活かしてよりスムーズに交流できるように改善を図っていきます。LIFULLにはマレーシアの開発拠点( LFTM )もあり、3ヶ国での交流会も企画したいと思っています。 LIFULLのエンジニア組織では「越境」という言葉がよく使われていて、現実にもより良いチームワークを築くための国や職種を越えた様々な取り組みが行われています。興味を持たれた方はぜひ採用ページもご覧いただければ幸いです。 hrmos.co hrmos.co
こんにちは! LIFULLエンジニアの吉永です。 普段はLIFULL HOME'SのtoC向けCRMチームにてエンジニアリングマネージャをやっています。 本日はチームでGitのコミットメッセージ書式を Conventional Commits に準拠するようにしてから得た知見を紹介したいと思います。 コミットメッセージに書式を導入することでどんなメリットがあるのか?導入前後でどんな変化があったのか?今後の展望についてご興味のある方に参考になれば幸いです。 アジェンダ Conventional Commitsとは? チームで導入するにあたってどんな工夫をしたか? 自身が率先して規約に準拠する 定期的に自身のコミットメッセージを振り返る時間を設けた 実際に運用してみて得た知見を仲間にも共有する時間を設けた 導入してみてどうか? リリースノートの内容を分かりやすく自動生成できるようになった コミットの粒度が個人でばらつきにくくなる レビューをしやすくなった feat系の同じ文脈のコミットはレビュー完了後はまとめた方がよいかも 今後の展望 コードリーディングがしやすくなる(と思っている) コミットtypeやscopeの内訳を集計できるようになる まとめ Conventional Commitsとは? 人間と機械どちらから見ても読みやすい形式のコミットメッセージ規約です。 公式サイトに分かりやすく概要がまとまっていますので、良かったらこちらも参照してください。 www.conventionalcommits.org 規約と言われると、少し躊躇される方もいるかもしれませんがそこまで複雑な規約ではありません。 よって、導入するにあたってのハードルはさほど高くなく、気楽に始められると思います。 基本形は下記の形になります。 <type>[optional scope]: <description> [optional body] [optional footer(s)] optionalの部分は必須ではないので、必要最低限の規約を満たす為には <type> と <description> を記載すれば良いです。 例えばAという新機能を追加したコミットがあるとします。 その時のコミットメッセージは下記のようになります。 feat: A機能を追加 また、上記機能をリリース後一定期間経過後にA機能のバグを修正した場合は下記のようになります。 fix: A機能で数値に変換できない文字列を入力した場合に例外が発生するバグを修正 こんな感じで、人間から見てもそのコミットでどんな変更がコードに加えられたのかが分かりやすい規約になっています。 公式サイト上で定義されている <type> はfixとfeatのみなのですが、私達のチームではこれらに加えてAngularの規約も取り入れて運用しています。 github.com チームで導入するにあたってどんな工夫をしたか? 自身が率先して規約に準拠する まずは導入しようというチームに提案した私自身がきちんと規約を理解し、自身が行うコミットコメントを規約に準拠したものにしました。 定期的に自身のコミットメッセージを振り返る時間を設けた GitHubの検索APIを利用して、過去1週間以内のチームメンバーそれぞれのコミットコメント一覧を週一で開催しているチームの定例時間内で規約に準拠したコメントになっていたかを確認するようにしました。 最低でも1週間に一度は振り返る機会を設けたことで、徐々に規約に従うことが当たり前になっていく効果があったと今は思います。 実際に運用してみて得た知見を仲間にも共有する時間を設けた 得た知見もチームの定例で共有する時間を設けました。 このコミット <type> はrefactorかfixかchoreか分類に少し迷った、 <scope> をどこで切るか少し迷った、など実際に利用し始めて気づく疑問も数多くあったので、様々な事例を共有することで、次回からの指針になったり徐々に効率的になっていくと思っています。 導入してみてどうか? リリースノートの内容を分かりやすく自動生成できるようになった 私達のチームではリリース時に セマンティックバージョニング 形式に準拠したタグをインクリメントして自動生成していました。 約2年前に自前で作成したGitHub Actionsで行っていましたが、メジャー、マイナー、パッチをインクリメントする際のアルゴリズムがいまいちで、全ての場面においてチームメンバー全員が納得できるバージョニングになっていたかと言われると少し怪しい出来でした。 そんな中、チームのメンバーが下記のGitHub Actionsを探してきてくれ、Conventional Commitsに準拠していれば、タグのインクリメントとリリースノートも自動で生成してくれるという、既存のものよりも優れたものでした。 github.com 導入に当たってのハードルも低かったので早速採用して、運用を開始しました。 こちらのGitHub Actionsは個人的にも非常に気に入っており、Conventional Commitsに準拠することで得られる具体的なメリットとして、チーム内外にも共有しました。 コミットの粒度が個人でばらつきにくくなった Conventional Commitsを採用し、オプションである <scope> もなるべく含めようというローカルルールを採用したところ、コミットの粒度が個人でばらつきにくくなりました。 私達のチームのプロダクトではクリーンアーキテクチャを採用しているのですが、 <scope> にクリーンアーキテクチャの各レイヤー名( feat(repository):hoge とか feat(domain):fuga みたいな感じです)を入れて運用してみたところ、おのずと一つのコミットでの変更箇所が狭まったからだと思います。 また、レビューでもらった指摘を修正した後も、今まではついつい下記のようなコミットメッセージにしてしまっていました。 レビュー指摘修正 このコミット履歴は後でコードを読み返す時にはノイズにしかならないので、本来この変更を一緒に含めるべきコミットと統合すべきという意識にConventional Commits採用後は変わりました。 具体的には下記のようなコミット履歴になった場合は、 1 feat: A機能を追加 2 test: A機能のテストコードを追加 3 fix: A機能実装部分に対するレビュー指摘修正 下記のように1のコミットに3のコミットを統合するべきですね。 1 feat: A機能を追加 2 test: A機能のテストコードを追加 このようにコミット履歴をマージ前であれば、本来あるべき履歴へマージ前にリベースするということが自然と浸透しました。 レビューをしやすくなった コミットの粒度がばらつきにくくなったことで、レビューもコミット単位で行いやすくなり、この変更は何で行ったのか?をレビューアが理解しやすくなったと思います。 結果として、レビューがしやすくなったと感じる人が多く、今後も継続していこうと思える一つの要因になっています。 feat系の同じ文脈のコミットはレビュー完了後はまとめた方がよいかも レビューしやすくなったと感じる件と少し関りがあるのですが、私達のチームでは先述したようにクリーンアーキテクチャのレイヤーに沿った <scope> でコミットを分けて運用してました。 先日、Conventional Commitsを採用してから初めて大規模な実装を行い、上記の運用でコミット粒度を分けていたのでレビューは非常にやりやすかったです。 ただし、リリースノートにのるfeat一覧としてみると、正直このリリースで何の機能をリリースしたのか?が細分化されすぎているため、初見では分かりづらかったです。 コミット履歴としては下記のような感じになっていました。 feat(domain): A機能用のエンティティと変換処理を実装 test(domain): A機能用のエンティティの変換処理のテストを実装 feat(repository): A機能用のhogehogeデータを外部から取得する処理を実装 test(repository): A機能用のhogehogeデータを外部から取得する処理のテストを実装 refactor(repository): A機能用に追加した処理と既存処理とで共通化できる個所をまとめる feat(usecase): A機能用のインタラクターを実装 test(usecase): A機能用のインタラクターのテストを実装 feat(controller): A機能用のコントローラーを実装 test(controller): A機能用のコントローラーのテストを実装 コミット上ではコントローラー、リポジトリ、ユースケース、ドメインそれぞれ分けた方がレビューはしやすかったのですが、リリース後しばらくたってからコードリーディングをするときのコミット履歴としては下記が良いのではないか?とチームのメンバーと話していて、意見が出ました。 feat(api): A機能を追加 refactor(repository): A機能用に追加した処理と既存処理とで共通化できる個所をまとめる 結論、feat系はレビュー完了後は同じ機能に関するものであれば一つにまとめ、それら以外のものはそのまま個別のコミットのままで良いかもとなりました。 時間が経過して、後からコードリーディングする際のコミットコメントしても feat(api): A機能を追加 の方が、「このソースはA機能追加時に改修されたものなのか」と理解しやすく、その際にクリーンアーキテクチャのレイヤーの情報はいらないだろうからという理由です。 ※この辺りは、私達の出した結論が必ずしも正解とは限らないと思いますので、ケースバイケースかなと思いますが、一つの知見として参考になれば幸いです。 今後の展望 コードリーディングがしやすくなる(と思っている) Conventional Commitsに準拠することで、コミット粒度や形式がある程度まとまっていることから、時間が経過した後で該当個所のコードは何の作業でどんな理由が合って改修されたのか?をコミット履歴から情報を得やすくなり、結果としてコードリーディングがしやすくなると思われます。 また、自身だけでなく第三者にとっても同様の効果はあると思うので、効果を実感できる時期が来ることを今から楽しみにしています。 コミットtypeやscopeの内訳を集計できるようになる 既に少しだけ運用を開始したのですが、ある期間にチームで行った開発の割合は新機能開発系とリファクタリング系どんなバランスだったか?そのバランスは適切か?などをConventional Commitsに準拠していくことで定量的に集計することができるようになります。 今まではプロジェクト管理ツールへ日々の工数入力で行っていた集計をGitのコミット履歴の観点からも分析できるようになり、チームとしてより正確なステータスを把握しやすくなることを期待しています。 下のグラフは私達のチームの2023/06~2023/07のConventional Commitsの <type> を集計した結果です。 現時点では、この割合が健全な状態なのか?はまだあまり良く分かっていませんが、いずれデータが蓄積されて期間比較できるようになっていくことで、より活用の幅が広がっていくと思います。 まとめ Conventional Commitsについて、採用後しばらく運用してみてチームで得た知見について紹介しました。 チームで導入するには少しハードルが高いなど、それぞれ事情はバラバラかと思いますが、そのような状況の場合に私からお勧めするのは、まずは自分ひとりだけでもいいから準拠してみることだと思います。 私自身、実際に自分で採用してみて得たことをメンバーにも共有したり、Qiitaに個人として得た気づきをアウトプットしたりして理解を深めていったことで、良さに気づけた気がします。 qiita.com まずはスモールスタートでやってみることで得られることもあると思いますので、是非お試しください! 最後に、LIFULLでは共に成長できるような仲間を募っています。 よろしければこちらのページもご覧ください。 hrmos.co hrmos.co
アクセシビリティ推進グループの中島です。 過去同グループの発信した記事の中で、弊社がJavaScriptライブラリとしてStimulusを採用していると何度か紹介させていただきました。 www.lifull.blog 今回はその中で、どんな粒度で、どんな機能のStimulusコントローラを書いているのか少しばかり紹介しようと思います。 (全て書くととても長くなってしまうのでvol.1としてますが、vol.2以降を書くかどうかは今の所わかりません。) button_controller.js 適用例 参考 disclosure_controller.js 適用例 参考 inlay_controller.js 適用例 参考 anchor_sinon_controller.js 適用例 tabs_controller.js 適用例 参考 最後に button_controller.js まずは最頻出のコントローラです。 このコントローラは37signalsから拝借したコントローラの一つです。 button_controller.jsの実装を見る export default class extends Controller { keyboardClick( event ) { if ( [ 'Enter' , ' ' ] .includes( event .key)) { event .preventDefault(); event .stopPropagation(); this .element.click(); } } } このコントローラは要素にボタンとしての機能を簡単に提供するために使っているものです。 ボタンは通常、スペースキーやエンターキーといったキーボード操作でも操作可能であるべきです。 button要素で実装していればこのキーボード操作は標準で提供されるので、こちらがコードを書く必要はないのですが長く運用されたサイトでは往々にしてdivやaタグで実装されたボタンが目立ちます。 そういったものを要素自体を差し替えずに正しくボタンのように振る舞わせるのに役立ちます。 適用例 <!-- before --> < div > click me </ div > <!-- after --> < div # フォーカス可能に tabindex = "0" # 支援技術にボタンであることを教える role = "button" data -controller= "button" # スペースキーとエンターキーをクリックイベントとして処理する data - action = "keydown->button#keyboardClick" > click me </ div > 参考 www.w3.org disclosure_controller.js 次によく使うコントローラはディスクロージャー(開閉UI)を実現するコントローラです。 disclosure_controller.jsの実装を見る export default class extends Controller { static classes = [ 'collapsed' ] ; toggle(evt) { evt?.preventDefault(); if ( this .isExpanded) { this .hide(); return ; } this .show(); } show() { this .control.classList.remove(... this .hiddenClasses); this .element.ariaExpanded = 'true' ; } hide() { this .control.classList.add(... this .hiddenClasses); this .element.ariaExpanded = 'false' ; } get hiddenClasses() { return this .hasCollapsedClass ? this .collapsedClasses : [ '!hidden' ] ; } get isExpanded() { return this .element.ariaExpanded === 'true' ; } get control() { return document .getElementById( this .element.getAttribute( 'aria-controls' ).trim() ); } } 最近ではdetails要素で実現可能なディスクロージャーですが、例によって過去に作られたディスクロージャーはdiv等で作られ、ディスクロージャーとしての機能要件を満たしてないものが多くあります。 ディスクロージャーはトリガーである要素がフォーカス可能で、ボタンとして振る舞い、視覚だけでなく支援技術等でも開閉状態を把握できるように作られるべきです。 このコントローラを使うとそういった部分を担保したディスクロージャーを簡単に実装することができます。 適用例 <!-- before --> < div > < p > ほげほげについて </ p > < div class = "!hidden" > ほげほげはふがふがのことで 一般的にぴよぴよとも 呼ばれています。 </ div > </ div > <!-- after --> < div > < p # フォーカス可能に tabindex = "0" # 支援技術にボタンであることを教える role = "button" # 関連要素のidを指定することで支援技術でジャンプ機能等を提供する aria-controls = "content" # 開閉情報を支援技術に公開する aria-expanded = "false" data -controller= "button disclosure" data - action = "keydown->button#keyboardClick click->disclosure#toggle" > ほげほげについて </ p > < div id = "content" class = "!hidden" > ほげほげはふがふがのことで一般的にぴよぴよとも呼ばれています。 </ div > </ div > 参考 www.w3.org inlay_controller.js 主にウェブで見かけるUIに「もっと見るボタン」を押したら、ボタンは消滅しつつ、隠れた要素が表示されるというものがあります。 このパターンはARIA Authoring Practices Guide等でベストプラクティスが紹介されているわけではないのですが、我々はそういった振る舞いをinlayとよび、対応するコントローラを用意しています。 inlay_controller.jsの実装を見る import { tabbable } from 'tabbable' ; export default class extends Controller { show() { this .nextContent.classList.remove( '!u-hidden' ); this .element.classList.add( '!u-hidden' ); this .firstTabbableItem.focus( { preventScroll: true } ); } get nextContent() { let control = this .element.getAttribute( 'aria-controls' ); return document .getElementById(control); } get firstTabbableItem() { return tabbable( this .nextContent) [ 0 ] || this .nextContent; } } このパターンは押したボタンそのものが消滅することで、フォーカスが失われる(bodyに戻ってしまう)問題に対処するため、表示されたコンテンツ、あるいはそのコンテンツ内の最初のフォーカス可能な要素にフォーカスを移すことが重要と考えています。 そういったことが考慮されてない古いコードをこのコントローラに差し替えることで簡単にキーボード操作の要件を満たすことができるようになります。 適用例 <!-- before --> < ul > < li >< a href = "..." > a </ a ></ li > < li >< a href = "..." > b </ a ></ li > < li >< a href = "..." > c </ a ></ li > </ ul > < div > もっと見る </ div > < ul class = "!hidden" > < li >< a href = "..." > d </ a ></ li > < li >< a href = "..." > e </ a ></ li > </ ul > <!-- after --> < ul > < li >< a href = "..." > a </ a ></ li > < li >< a href = "..." > b </ a ></ li > < li >< a href = "..." > c </ a ></ li > </ ul > < div # フォーカス可能に tabindex = "0" # 支援技術にボタンであることを教える role = "button" # 開閉可能なUIであることを支援技術に公開する aria-expanded = "false" aria-controls = "more-content" data -controller= "button inlay" data - action = "keydown->button#keyboardClick click->inlay#show" > もっと見る </ div > < ul class = "!hidden" id = "more-content" > < li >< a href = "..." > d </ a ></ li > < li >< a href = "..." > e </ a ></ li > </ ul > 参考 accessible-usable.net anchor_sinon_controller.js 主にサイトアナリティクスの文脈で流入元を特定する目的でリンクにパラメータを付与することがよくあります。 ただ、googlebot等のクロールバジェットの消費を抑制する観点で、「パラメータ付与はJavaScriptでクリック時に行ってください」ということが要件に盛り込まれることが稀にあります。 目的は違えどGoogleAnalyticsのLinker機能などが類似の動きをしますね。 そういった時のためにURLの差し替えをさっさと行えるコントローラを用意しています。 anchor-sinon_controller.jsの実装を見る export default class extends Controller { static values = { url: String } ; trick() { this .element.setAttribute( 'href' , this .urlValue); } } 私自身SEOの専門家ではないのでどの程度効果があるのかは詳しく分かってませんが、汎用的なURL差し替えを実現できるようになっています。 適用例 <!-- before --> < a href = "/path/to/page/?from=xxxx" > some page </ a > <!-- after --> < a href = "/path/to/page/" data -controller= "anchor-sinon" data - action = "click->anchor-sinon#trick" data -anchor-sinon- url - value = "/path/to/page/?from=xxxx" > some page </ a > tabs_controller.js 複数のコンテンツをタブ付きインタフェースとして表現するケースがたまにあります。(特にPCサイトに多いような気がします。) 弊社でも家賃相場情報を間取りタイプごとにグルーピングしてタブで切り替えて閲覧できるといった機能があったりしますが、これはそういったUIパターンに適合するコントローラです。 tabs_controller.jsの実装を見る export default class extends Controller { static targets = [ 'tab' , 'tabpanel' ] ; static values = { index: { default : 0, type: Number } } ; select(evt) { let tab = evt.currentTarget; let index = this .tabTargets.indexOf(tab); this .indexValue = index; } selectAt(index) { this .indexValue = index; } next(evt) { evt.preventDefault(); this .indexValue = this .indexValue === this .lastIndex ? this .indexValue : this .indexValue + 1; this .tabTargets [this .indexValue ] ?.focus( { preventScroll: true } ); } prev(evt) { evt.preventDefault(); this .indexValue = this .indexValue === 0 ? 0 : this .indexValue - 1; this .tabTargets [this .indexValue ] ?.focus( { preventScroll: true } ); } first(evt) { evt.preventDefault(); this .indexValue = 0; this .tabTargets [this .indexValue ] ?.focus( { preventScroll: true } ); } last(evt) { evt.preventDefault(); this .indexValue = this .lastIndex; this .tabTargets [this .indexValue ] ?.focus( { preventScroll: true } ); } get lastIndex() { return this .tabTargets.length - 1; } indexValueChanged(current, prev) { let tabs = this .tabTargets; let tabpanels = this .tabpanelTargets; tabs [ prev ] ?.setAttribute( 'aria-selected' , 'false' ); tabs [ prev ] ?.setAttribute( 'tabindex' , '-1' ); tabpanels [ prev ] ?.classList.add( '!hidden' ); tabs [ current ] ?.setAttribute( 'aria-selected' , 'true' ); tabs [ current ] ?.setAttribute( 'tabindex' , '0' ); tabpanels [ current ] ?.classList.remove( '!hidden' ); } } タブ付きインタフェースはタブシーケンス中に一つだけタブストップを持つといった要件や、左右キーでタブ切り替えができる、 Home/Endキーでタブの先頭、末尾切り替えができるといった要件が存在します。 そういったタブナビゲーションをこのコントローラを利用すれば簡単に実現することができます。 適用例 <!-- before --> < h2 > 〜区の家賃相場 </ h2 > < div > < ul > < li > 1人暮らし向け </ li > < li > 2人暮らし向け </ li > < li > ファミリー向け </ li > </ ul > < div > 1人暮らし向け物件の家賃相場 ...円 </ div > < div class = "!hidden" > 2人暮らし向け物件の家賃相場 ...円 </ div > < div class = "!hidden" > ファミリー向け物件の家賃相場 ...円 </ div > </ div > <!-- after --> < h2 id = "tab-label" > 〜区の家賃相場 </ h2 > < div data -controller= "tabs" > < ul role = "tablist" aria-labelledby = "tab-label" > < li id = "tab1" # 初期選択の要素だけタブシーケンスにタブストップを設定 tabindex = "0" role = "tab" # タブが選択中であることを支援技術に公開 aria-selected = "true" data -tabs- target = "tab" data - action = " keydown.left->tabs#prev keydown.right->tabs#next keydown.home->tabs#first keydown.end->tabs#last click->tabs#select" > 1人暮らし向け </ li > < li id = "tab2" tabindex = "-1" role = "tab" aria-selected = "false" data -tabs- target = "tab" data - action = " keydown.left->tabs#prev keydown.right->tabs#next keydown.home->tabs#first keydown.end->tabs#last click->tabs#select" > 2人暮らし向け </ li > < li id = "tab3" tabindex = "-1" role = "tab" aria-selected = "false" data -tabs- target = "tab" data - action = " keydown.left->tabs#prev keydown.right->tabs#next keydown.home->tabs#first keydown.end->tabs#last click->tabs#select" > ファミリー向け </ li > </ ul > < div role = "tabpanel" aria-labelledby = "tab1" data -tabs- target = "tabpanel" > 1人暮らし向け物件の家賃相場 ...円 </ div > < div role = "tabpanel" class = "!hidden" aria-labelledby = "tab2" data -tabs- target = "tabpanel" > 2人暮らし向け物件の家賃相場 ...円 </ div > < div role = "tabpanel" class = "!hidden" aria-labelledby = "tab3" data -tabs- target = "tabpanel" > ファミリー向け物件の家賃相場 ...円 </ div > </ div > 参考 www.w3.org 最後に 今回は記事の物量の関係上、よく使う5つのコントローラに絞って紹介しました。 他にもダイアログ関連のコントローラ、コンテンツの非同期読み込みコントローラ、コンボボックスを実現するコントローラ等、さまざまなコントローラがあるのでvol2があればそこで紹介しようと思います。 最後までお読みいただきありがとうございました。LIFULL では共に働く仲間を募集しています! hrmos.co hrmos.co
こんにちは。プロダクトエンジニアリング部の武井です。 普段はLIFULL HOME'Sの賃貸領域の開発をしています。 現在、LIFULL HOME'Sの賃貸領域ではシステムの基盤刷新を行っています。 詳細については 以前の記事 をご覧ください。 今回はこの基盤刷新に伴い、新たなABテスト実施システムを構築したので、その概要を紹介したいと思います。 LIFULL HOME'S におけるABテスト LIFULL HOME'Sでは、ユーザーにとってより使いやすいポータルサイトを目指し日々UI/UXの改善を行っています。 その効果測定の手段としてABテストを取り入れており、常時いくつものABテストを実施しています。 旧基盤でのABテストのしくみはシステム立ち上げ当初に実装されて以来、現在まで10年以上に渡って使われ続けています。 今回の基盤刷新に伴い、このABテストを実施するしくみを新基盤上に構築し直す必要がありました。 ABテストのシステムは旧基盤と同様に今後10年以上使われ続ける可能性があり、非常に影響度の大きいシステムになることが予想されます。 そのため今後の開発効率を左右する重要な開発プラットフォームを作るという意識で開発に臨みました。 インフラ層での振り分け システムの構築にあたって、A/Bのユーザーをどのように振り分けるかをまず考えました。 最初に出た案は、KubernetesにおけるIstioの加重ルーティングを利用したインフラ層での振り分けです。 IstioはKubernetes上のトラフィック管理などを担うservice meshです。LIFULL HOME'Sの多くのプロダクトはKubernetesの共通基盤上で動作しており、service meshとしてIstioを利用しています。 このIstioのVirtualServiceという機能を使うことでユーザーの振り分けができます。 たとえば、以下のようにmanifestを記述すると v2 のバージョンに 25% 、 v1 のバージョンに 75% のユーザーをそれぞれ流すことができます。 apiVersion : networking.istio.io/v1alpha3 kind : VirtualService metadata : name : reviews-route spec : hosts : - reviews.prod.svc.cluster.local http : - route : - destination : host : reviews.prod.svc.cluster.local subset : v2 weight : 25 - destination : host : reviews.prod.svc.cluster.local subset : v1 weight : 75 Istio VirtualService しかしこの方法では、複数のテストを同時に並行して実施する際、運用上の問題が予想されました。 たとえばテスト1とテスト2を同時並行すると、A/Bそれぞれの掛け合わせで以下の4種類のバージョンのPodが必要になります。 テスト1A * テスト2A テスト1A * テスト2B テスト1B * テスト2A テスト1B * テスト2B このようにテストの同時実施数を増やしていくと、O(2 N )で用意するべきPodの種類が増えていき、管理が非常に困難になることが予想されます。 さらに一つのテストについて振り分けのパターンがA/B/C...と3パターン以上になることもあり、こうなるとより複雑性が増します。 このような運用上の懸念から、Istioを用いたインフラ層での振り分けは断念しました。 アプリケーション層での振り分け 他にも複数の案を検討した結果、インフラ層での振り分けは行わず同一のバージョンのPodでリクエストを受けた後、アプリケーションの中でA/Bのユーザーを振り分けコードレベルで処理を分岐させる案に落ち着きました。 詳細は割愛しますが、コードのイメージは以下のようになります。 システム側で設定ファイルとユーザー情報の突き合わせを行い、A/Bテストの情報が集約された ab というオブジェクトを生成します。このオブジェクトが持つ isB() のようなメソッドを用いてコード上でパターン分岐を行う形になります。 if ( ab. get( TEST_1_ID ) .isB ()) { // テスト1でのBパターンの処理 ... return } // テスト1でのAパターンの処理 ... この場合、アプリケーションのバージョン自体は一つで済みますが、if文で分岐を行う必要があります。複数のテストを同時並行するとより分岐条件が増え、コードの複雑性が高くなりますが、この複雑性を現時点では許容することにしました。 ABテストを実施する以上、必ずどこかでユーザーを振り分けるための複雑性を引き受ける必要があります。この複雑性をインフラ層という離れた場所ではなく、アプリケーションのコードという我々が普段開発していて変更しやすい場所に持ってきたことは暫定的に良い選択だったと感じています。 使いやすいインタフェースの追求 新システムを構築する上で、このシステムを利用する際の開発者体験や使いやすさを意識してインタフェースをデザインしました。 以下は開発したシステムにおける設定ファイルの一例です。 このように設定を定義すると、アクセスしてきたユーザーを自動的に振り分けるシステムになっています。 タイトルや資料へのリンクなども含めて宣言的に定義することで一目してテスト内容を把握できるようにしています。 export const abTestConfig: AbTestConfig = { [ AB_TEST_IDS.sampleProject ] : { title: '【賃貸事業部】サンプルテスト' , specUrl: [ 'https://jira.jp/wiki/XXXXX' , 'https://docs.google.com/spreadsheets/YYYYY' , ] , startDatetime: '2023-08-01 11:00:00' , endDatetime: '2023-08-14 13:30:00' , classification: [ { patternValue: 'a' , weight: 50 , measurementValue: 'sample_test_a' , } , { patternValue: 'b' , weight: 50 , measurementValue: 'sample_test_b' , } , ] , beforePattern: 'a' , afterPattern: 'b' , } , } ; この設定はTypeScriptのObjectとして定義し、型を当てるようにしています。 また、この設定ファイルに対するlinterを実装し、細かい設定内容もチェックしています。 これらのチェック機構によって、PullRequest作成時点で設定漏れや間違いに気付けるようになっており、誤った設定でデプロイしてしまうことを防げます。 このほかにも、利用開始方法や注意点などを記載した詳細なドキュメントを作成したり、テスト実施状況を可視化する簡単なダッシュボードを作成したりしました。 開発工数の削減 このシステムを構築するにあたって、旧基盤の単純な模倣ではなく少しでも開発工数を削減することも意識しました。 なぜなら今回構築するシステムは今後長い間使われる可能性があり、わずかな違いでもレバレッジが効き、結果的に大きな効果をもたらすためです。 旧基盤でのABテスト実施システムを分析したところ、振り分け部分と分析部分が連動していないことが改善点として挙がりました。振り分け部分とはユーザーをA/Bのように振り分ける部分、分析部分は振り分けた後のユーザーがコンバージョンに至ったかなどの分析用メトリクスを送信する部分を指します。旧基盤ではこれらが連動しておらず、テストを実施するたびにメトリクスを送信する処理を書く必要がありました。 そこで新システムでは設定ファイルに分析用の項目 measurementValue を設け、これを読み取って自動的にメトリクスを送信する設計としました。 export const abTestConfig: AbTestConfig = { [ AB_TEST_IDS.sampleProject ] : { title: '【賃貸事業部】サンプルテスト' , ... classification: [ { patternValue: 'a' , weight: 50 , measurementValue: 'sample_test_a' , // この値を自動的に送信する } , { patternValue: 'b' , weight: 50 , measurementValue: 'sample_test_b' , // Bパターンのときはこちら } , ] , ... } , } ; この改善によって、実装や確認の工数削減、実装漏れの防止などにつながります。 まとめ 普段はユーザーが直接触る機能の開発が中心となるため、今回のように社内の開発者に向けたシステムの開発は新鮮で貴重な経験ができたと感じています。最近ではこのABテストの実運用が始まっており、前よりも使いやすい!という声をいただいています。 このように、LIFULL ではユーザーや社内の開発者など多様なステークホルダーの体験を考えたものづくりを行い、ともに成長していける仲間を募集しています。よろしければこちらのページもご覧ください。 hrmos.co hrmos.co
こんにちは、AI戦略室の清田です。 2023年3月に岐阜で開催された DEIM 2023 に続き、6月に熊本で開催された人工知能学会全国大会(JSAI 2023)に参加いたしました。 www.ai-gakkai.or.jp 今年は、恒例の「不動産とAI」をテーマとした企画セッションにも関わりましたので、その内容も合わせて報告します。 生成AIブームがAI研究コミュニティにもたらした影響 今回のJSAI 2023は、過去最高となる3,566名もの参加者があり、大盛況でした。 2022年に相次いで登場した生成AI技術を用いたサービス(Stable Diffusionなどの絵画生成、ChatGPTなどの自然言語生成)の影響で、AI研究が改めて大きな注目を集めていることを感じます。 ディープラーニングの登場などを受けて10年前ほどから始まった 第3次AIブーム は、ある程度の落ち着きを見せていましたが、「冬の時代」を迎える前に、第4次ブームが始まったのかもしれません。 生成AI技術は、大きな期待を集めている一方、著作権の問題、情報の信頼性の問題など、さまざまなリスクが指摘されてもいます。 私がオブザーバーとして関わっている 人工知能学会 倫理委員会 でも、マスメディアからの取材依頼などが多数入っている状況を受けて議論を行い、「人工知能学会としての大規模生成モデルに対してのメッセージ」を公表しました。 www.ai-gakkai.or.jp 本大会では、「日本は生成AIを起爆剤にできるのか」をテーマとした緊急企画セッション、「アートにおいても敗北しつつある人間 〜人の美意識もAIにハックされるのか?〜」と題した倫理委員会主催セッションなどが実施され、多くの参加者を集めていました。 その様子は、NHKなどのメディアでも報道され、生成AIへの社会からの関心の高さを実感しました。 www3.nhk.or.jp 生成AI技術をめぐっては、大規模言語モデルなどの技術面だけでなく、倫理や法律、収益の配分、人の創造性など、さまざまな課題が入り交じっていて、正しい理解に基づいた議論がなかなか成立しづらいように思います。 正しい理解に基づいた生産的な議論を成り立たせる上で、学会というコミュニティの役割に、大きな期待が寄せられています。 こうした役割を果たす上で、生成AIの開発に関わる各企業がより主体的に関わることが求められているように感じます。 企画セッション「少子高齢化と「住まい」産業のDXを考える」 LIFULLでは、名古屋で開催されたJSAI 2017から、継続的に「不動産とAI」をテーマとしたセッションを、同じ関心を持つ大学や企業の方々と共同で開催しています。 今回は、「少子高齢化と「住まい」産業のDXを考える」と題した企画セッションを開催しました。 少⼦⾼齢化の進展に伴う「住まい」の課題に取り組まれている方々をお招きし、さまざまな事例を共有いただきました。 不動産、AIにかかわる方々だけでなく、これからの時代に求められている新たな「住まい」の価値を追求されている方や、人々の行動データをさまざまな社会課題の解決に活用する取り組みをされている方も交えた議論を行うことで、「不動産とAI」の研究領域をさらに広げることを目指しました。 sites.google.com LIDAR測量、簡易BIMによるリノベ・維持管理へのデータ活用 スターツ社の清水哲志様・城戸祐一様からは、既存建築物のリノベーションにかかる膨大な手間を、スマートフォンに搭載されたLiDAR(ライダー)機能を活用して作成された簡易BIMモデルを用いて削減する取り組みなどを発表いただきました。 (国土交通省の「令和4年度住宅生産技術イノベーション促進事業」として、LIFULLも開発に協力しています) xtech.nikkei.com リノベーション事業の最前線の話題 福岡を中心に築古ビルのリノベーションを多数手がけられているスペースRデザイン代表の吉原勝己様からは、「共感価値」によって、築数十年の築古ビルの資産価値を向上するという興味深い事例を発表いただきました。 www.reizensou.com www.space-r.net これらの事例は、本セッションに参加されていたAI研究者の方々からも驚きをもって受け止められました。 地⽅⾃治体における⾼齢社会デザインへのビッグデータ活⽤ソリューション事例 ヤフー社でビッグデータを活用したデータソリューション事業を担当されている大屋誠様からは、 DS.INSIGHT を用いた分析事例をご発表いただきました。 パネルディスカッション 皆さまからのご発表を受けて、以下のようなテーマで多岐にわたる議論を行いました。 既存ストックの価値を高めるためにAI技術が果たせる役割 2025年問題にどのように向き合うべきか 九州をフィールドとした協働の可能性 今回の議論は非常に刺激的で、お互いに接点の少なかった領域の人々どうしが対話を重ねることが、「住まい」産業の形を大きく変革するきっかけになるのではという大きな可能性を感じました。 来年に浜松で開催予定のJSAI 2024でも、引き続き「不動産とAI」をテーマとしたセッションを企画予定です。 多くの方々のご参加をお待ちしております! おわりに LIFULLでは、生成AI技術を活用したプロダクトの開発を加速するため、専門部署として ジェネレーティブAIプロダクト開発室を2023年5月に設置しました 。 www.lifull.blog AI戦略室も引き続き研究開発に取り組んでおり、今後はジェネレーティブAIプロダクト開発室とともに連携して生成AIの活用に取り組んでいく予定です。 ChatGPTを活用した「 AIホームズくん LINE版 」、ChatGPTプラグインなど、国内不動産ポータルとして初めてとなるサービスを続々とリリースしています。 lifull.com lifull.com 生成AI技術は強力な技術であるがために、ユーザーにとって多くの利便性をもたらす一方、使い方によってはユーザーの利益を損ねるリスクもあります。 AI戦略室では、『創造と革進で喜びを届ける』というチームビジョンを掲げ、AI技術シーズの創出と活用を通じて、多様な社会課題や事業課題の解決に挑戦しています。 今回のJSAI 2023への参加を通じて得られた生成AI技術をめぐるさまざまな課題を踏まえつつ、社会課題や事業課題の解決につながる活用のあり方を考えてまいりたいと思います。 AI戦略室では、共に成長しながら働く仲間を募集しています。ご興味をお持ちの方のご応募をお待ちしております! hrmos.co
KEELチーム の相原です。 今回は流行に乗ってLLM(Large Language Models)の話です。 とは言うもののLLMは単なる流行ではなく新たなパラダイムと言っていいでしょう。 解けるタスクの幅は未だ底が知れず、機械学習とは求められる能力も多少異なることからソフトウェアエンジニアである私の周りでも大きな変化が起きていると感じます。 LIFULLでもこの変化をコーポレートメッセージである「あらゆるLIFEを、FULLに。」の実現に繋げるべくジェネレーティブAIプロダクト開発室が新設され、 一発目としてLIFULL HOME'SのChatGPT Pluginをリリース しました。 さて、我々KEELチームはKubernetesベースの内製PaaSであるKEELを開発・運用するチームです。 www.lifull.blog 我々にはプラットフォームというレバレッジの効くソフトウェアを通して「あらゆるLIFEを、FULLに。」の実現にスケーラブルに貢献する責任があります。 これまでKEELでは コードジェネレータによるPaaS体験 を軸に、可観測性やセキュリティ, デリバリーパイプライン, MLOpsから各種データストア・認証基盤に加えてアプリケーションの参考実装の提供に至るまで必要なことはすべてやってきました。 LLMという新たなパラダイムでも同様にプラットフォーマーとしてやれることがあるはずです。 Platform Engineeringからのアプローチということで、社内でのLLM活用を促進するためにこれまでやってきたことを紹介します。 ベクトルデータベースの提供 Redis Qdrant Embeddings APIのキャッシュプロキシの提供 ChatGPT Retrieval Pluginの構築 コマンドラインツールでのLLM活用 Conventional Commits形式のコミットメッセージの自動生成 今後の展望 ベクトルデータベースの提供 ベクトルデータベースはLLMの文脈では長期記憶を実装するために利用されるデータストアで、個人的にこれから最も熱い領域の一つだと思っています。 LLMはモデルによって扱えるトークン数に限界があり、単体ではこのトークン数を超えて処理することはできません。 つまり、例えばChatGPTで長期のやり取りに応じた返答をさせたり、LLMに対して未知の大量の前提知識を与えてそれに基づいた回答をさせられないということです。 これを解決するために用いられる手法がベクトル表現を用いたSemantic searchです。 Semantic searchは情報検索の分野で知られる手法で、キーワードで検索するKeyword-based searchに対してベクトルによって表現された"意味"で検索します。 LLMの長期記憶は、あらかじめ長期に及んだやり取りや前提知識をベクトル表現に変換してベクトルデータベースに格納しておき、同様に変換したクエリからSemantic searchでそれらを取り出すことによって実現されます。 繰り返しLLMを呼ぶことで複雑なタスクを解く AutoGPT にも長期記憶が必要でありこの手法が用いられていました。 モデルに対する知識の追加はFine-tuningでも実現可能なはずですが、私の理解では過去の学習を忘却してしまうCatastrophic Forgettingなどが問題で期待する性能が出づらいという認識です。 そのため、LLMに複雑なタスクを解かせるための長期記憶を実装するにはベクトルデータベースは不可欠であり、プラットフォームとして提供することを決めました。 Redis これまで内製PaaSであるKEELではいくつかのデータストアをコードジェネレータ経由で利用できるようにしてきていて、Redisもその中の一つです。 www.lifull.blog Redisには RediSearch という全文検索に対応するモジュールがあり、これはSemantic searchにも対応しています。 そして、このRediSearchをはじめとした高品質なモジュールをバンドルした Redis Stack というパッケージがあったため、素直にこれに差し替えるだけで既存のRedisクラスタをSemantic searchに対応できそうだということでまずはRedisから始めました。 redis.io 提供していたRedisクラスタはRedis SentinelによるクラスタリングとHAProxyによるLeaderのService Discoveryによって実現されていて、書き込みがスケールしないことから主にキャッシュなどのRead Heavyなワークロード向けに提供しています。 LLMの長期記憶に関しても読み込みクエリが支配的であると考えられたためこれをRedis Stackに差し替えるだけで問題ないと判断しました。 しかし、ご存じの通りRedisは高速であることのトレードオフとしてすべてのデータをメモリに載せる設計です。 AutoGPTなどから利用されるデータの生存期間が明確な長期記憶としては問題ありませんが、ドメイン知識を記憶させて自社独自の回答をさせるためには膨大なメモリが必要となってしまいます。 取り扱うデータ量の増加によってこの問題が顕著になってきたため次の選択肢を探しました。 それがQdrantです。 Qdrant QdrantはSemantic searchを備えたRust製の検索エンジンです。 対抗馬としてはMilvus, Weaviate辺りでしょうか。 qdrant.tech QdrantはMilvus, Weaviateと比較して機能が少ない反面、構成が非常にシンプルでパフォーマンスに優れています。 前述の通り想定しているユースケースでは書き込みのスケールはそれほど必要ないため、動的なシャーディングや書き込みと読み込みのパスを分けるmicroservicesモードは不要でした。 (我々が得意なRustで書かれているので、構成がシンプルなこともあり何かあっても自分でどうにかしやすいというのもあります。) これもRedisと同様にコードジェネレータから利用できるようにして提供しました。 KEELにはコードジェネレータがあるため、Kubernetesではあるもののインタフェースが固まるまでは オペレーターパターン では提供しておらず、コードジェネレータのインプットとなるyamlにこう書くだけでQdrantクラスタが起動するようになっています。 spec : feature : qdrant : enabled : true replicas : 3 このタイミングで適切なダッシュボード・アラートから運用ドキュメントまでがコードジェネレータによって自動生成されているのでこの作業だけで既にProduction Readyです。 コミュニティからHelm chartも提供されていましたが、厳格な SecurityContext や TopologySpreadConstraint , Topology Aware Routing , mTLSなど我々がKubernetes Manifestsに要求する基準を満たすことが難しいため、基本的にHelm chartは利用しない方針でやっています。 Embeddings APIのキャッシュプロキシの提供 ここまででLLMの長期記憶を実装するために、データの生存期間が明確なユースケース向けにメモリ上で高速なSemantic searchを実現するRedisクラスタと、メモリに乗りきらない知識を記憶するためのディスクをバックエンドとしたQdrantクラスタを提供できました。 今後もユースケースに応じてサポートするデータストアを増やしていくことになるはずで、そうなるとデータストア間の移行コストが気になります。 ベクトル表現である Embeddings の生成には結局OpenAIのモデルを使うことになることが多く、愚直に新しいデータストアに再インデックスしてしまうと決して安くない金額がかかってしまいます。 そこでプラットフォームからのアプローチとして、OpenAI及びAzure OpenAI ServiceのEmbeddings APIのキャッシュを透過的に行うプロキシを開発しました。 キャッシュがなければUpstreamのAPIにリクエストしてその結果をキャッシュ、キャッシュがあればそのまま返すというよくあるやつです。 (この図はChatGPT PluginのShow Me Diagramsを利用して作りました。) OpenAIの公式クライアントである openai/openai-python などは OPENAI_API_BASE 環境変数でAPIの向き先を変更することが可能です。 インターフェースは揃えてあるので、これを利用して向き先をキャッシュプロキシに変えることでクライアントへの変更なしに透過的にキャッシュを挟むことができるといった具合です。 Embeddings APIのレスポンスはJSONなので素直にgzipしてオブジェクトストレージに保存するだけのシンプルなソフトウェアになりました。 Embeddingsを生成するために利用するモデルの名前がリクエストボディに入ってくるのでキャッシュのキーは普通にリクエストボディのハッシュ値でよくて、キャッシュのExpirationはオブジェクトストレージ側に任せてしまっています。 OpenAIとAzure OpenAI Serviceの差異は openai.util.api_key_to_header などでOpenAIの公式クライアントが吸収してくれているのでこの辺をそのまま利用すると楽ができます。 我々はObservability Platformも提供する内製PaaSのチームなので、(布教も兼ねて)このキャッシュプロキシにもちゃんとOpenTelemetryを入れてUpstreamに投げられたトークン数の監視と分散トレーシングをしました。 OpenAIはAPI Keyごとに利用料を追えないため、このレイヤでトークン数を監視することで細かく利用料を確認することができます。 これをプラットフォームから提供することで、単なるデータストア移行のコスト削減だけでなくサービスをまたいだEmbeddingsの共有みたいなところも狙っています。 ChatGPT Retrieval Pluginの構築 LLMの長期記憶のユースケースとしてすぐに思いつくのはやはり社内のQ&A Botでしょう。 社内のドメイン知識をもとにChatGPTが回答できるようになれば、いわゆる社内質問窓口の一部を代替できるはずです。 そのためのソフトウェアをOpenAIがChatGPT Pluginの発表と同じようなタイミングで公開しています。 openai/chatgpt-retrieval-plugin です。 これはベクトルデータベースをバックエンドとして文書のインデックスとSemantic searchをするChatGPT Pluginで、PDFのパースなどLangChainの Document Loader のような部分も内包していて、これさえあればすぐにChatGPTに社内ドキュメントをもとにした回答をさせることができます。 これを適当な場所で動かして、社内ドキュメントをインデックスするだけでやりたいことができそうです。 ただ、この手の誰のJob Descriptionにも書かれていないような仕事は往々にして進みが悪くなりがちです。 我々が開発する内製PaaSであるKEELを利用すればすぐにでも動かすことができるため、社内のQ&Aフォーラムを運営していてRetrievalに関心があった二宮の協力も得ながらプラットフォームの一環としてこの仕事を始めました。 www.lifull.blog 現在はQdrantをバックエンドにしたChatGPT Retrieval PluginがKEEL上で稼働しており、同様にKubernetesのCronJobで社内Q&Aフォーラムをはじめとした社内ドキュメントを定期的にインデックスするバッチプログラムが動いています。 それをSlack BotからLangChainの Retrieval QA 経由で呼びだして、社内のドメイン知識をもとに回答するChatGPTを実現しました。 残念ながら今のところはChatGPT Retrieval Pluginはforkして利用してしまっており、運用上で見つかったいくつかの課題はタイミングを見てパッチを送るつもりではあります。 QdrantのReplication FactorやShard数を外から与えることができない( datastore/providers/qdrant_datastore.py#L275 ) (Redisを代わりに使う場合)Connection PoolなしにRedisの接続を持ち回すため retry_on_error を書かないと接続先の入れ替わりなどに対応できない( datastore/providers/redis_datastore.py#L92 ) Chunk分割のロジックで日本語の文末が考慮されていない( services/chunks.py#65 ) Chunkのサイズは言語ごとのトークン数の消費具合を考慮して決定した方がよい( services/chunks.py#L15 ) などです。 コマンドラインツールでのLLM活用 一気に毛色が変わってコマンドラインツールでLLMを利用した機能を提供している話です。 我々はコードジェネレータをはじめ内製PaaSのKEELを利用するために便利な機能が詰まった keelctl というコマンドラインツールを提供しています。 keelctl self-update というコマンドで簡単に最新にバージョンアップすることができ、コードジェネレータである keelctl gen を実行するとKubernetes ManifestsからGitHub Actions, 運用ドキュメントまで最新のベストプラクティスが生成されるというようなソフトウェアです。 www.lifull.blog こうした機能を持つため大抵の開発者の手元には常に最新の keelctl が入っているような文化を作ることに成功しました。 これによりプラットフォーマーとしてKubernetesクラスタ経由での機能提供だけでなく、コマンドラインも握れているため開発者のローカルの環境にも影響力を持つことができています。 活用を促進するならまずは背中を見せようということで、その keelctl では keelctl llm というサブコマンドでLLMを利用した機能をいくつか提供してきました。 今回はそのうち keelctl llm conventional-commits というConventional Commits形式のコミットメッセージを自動生成する機能を紹介します。 Conventional Commits形式のコミットメッセージの自動生成 正直この辺の開発環境でのLLM活用を考えると大抵GitHub Copilotとバッティングすることになります。 しかしConventional Commitsは組織でルールを微調整したかったりするため自前でやる価値があると判断しました。 Conventional Commits とは人間と機械が読みやすく、意味のあるコミットメッセージにするための仕様です。 www.conventionalcommits.org 人間が手書きするには少し体力のいる仕様で、ルールも細かく定義されているためこれの自動生成はLLMが得意そうなタスクです。 プロンプトは後述しますが、トークン数節約のためLIFULLでは不要な制約を少し消しているのとコミットの型を明示しています。 自動生成の機能としては非常に単純で、あらかじめ与えておいたプロンプトをもとに、標準入力として受け取った git diff の出力結果からConventional Commits形式のコミットメッセージの候補を指定した数だけ生成し、Fuzzy Finderで良さそうなコミットメッセージを選択するとそれを標準出力するというものです。 このように使います。 $ git diff --cached | keelctl llm conventional-commits --select 3 | git commit -F - プロンプトの role: system はこんな感じです。 Please create an appropriate commit message for the given diff according to the following specifications. --- ## Specifications 1. Commits MUST be prefixed with a type, which consists of a noun, feat, fix, etc., followed by the OPTIONAL scope, and REQUIRED terminal colon and space. 2. A scope MUST be provided after a type. A scope MUST consist of a noun describing a section of the codebase surrounded by parenthesis, e.g., fix(parser): 3. A description MUST immediately follow the colon and space after the type/scope prefix. The description is a short summary of the code changes, e.g., fix: array parsing issue when multiple spaces were contained in string. 4. A longer commit body MAY be provided after the short description, providing additional contextual information about the code changes. The body MUST begin one blank line after the description. 5. A description MUST be kept within 72 characters. 6. The first letter of a description MUST be capitalized. 7. A longer commit body MUST be kept within 400 characters. 8. MUST not contain any footer. 9. The appropriate type/scope MUST be determined from the diff. 10. The commit message MUST be written in English. ## Available Types - feat: Addition of new features - fix: Bug fixes - docs: Documentation-only changes - style: Changes that do not affect the meaning of the code (whitespace, formatting, missing semicolons, etc.) - refactor: Code changes that do not modify existing functionality or add new functionality, such as changing variable or function names - perf: Performance improvements - test: Modifications or additions to existing tests - chore: Changes that are not important to developers, such as changes to the build process or library dependencies この機能を配布するにあたって、利用者の手元に OPENAI_API_KEY がないと使えないということは避けたいです。 API Keyの共有はセキュリティ的に論じるまでもないですし、それぞれがAPI Keyを発行することは利用のハードルが高すぎます。 そこで、我々が用意している認証基盤を利用することにしました。 内製PaaSのKEELではLIFULLで利用しているSSOのサービスをIdPとしたSAMLの認可プロキシを用意しています。 この認可プロキシのUpstreamとしてOpenAIのAPIを設定して、このプロキシのレイヤでOpenAIのAPI Keyをヘッダに入れることでOneLoginでログイン済みのユーザであれば OPENAI_API_KEY なしにOpenAIのAPIが利用できます。 認可プロキシなのでログも取れており、これもキャッシュプロキシの章で述べたOpenAIではAPI Keyごとに利用料を管理できない問題を解決できました。 ただしこの認可プロキシはCookieをもとに認可を行うため、Cookieを持たないコマンドラインからは素直に利用することができません。 こういう時にはよくある認証パターンを利用することができます。 コマンドラインツールが 0.0.0.0:0 でHTTPサーバとして待ち受ける( :0 で待ち受けるとランダムな空いているポートを割り当てることができます) コマンドラインツールが待ち受けているアドレスを redirect_url クエリ文字列に付与して <Authorization Proxy URL>/callback を xdg-open で開く( xdg-open はコマンドラインからブラウザを開くためのプロトコルです) Authorization Proxyで認可を行い必要に応じてSSOで認証する Authorization Proxyが認証済みのCookieの値をクエリ文字列に付与して redirect_url にリダイレクトする コマンドラインツールが受けたリクエストのクエリ文字列からCookieの値を取得する そのCookieを利用して認可プロキシにリクエストを投げる という流れです。 これにより、既に開発者の手元に入っているコマンドラインツールから一切の設定を必要とせずにLLMを利用した機能を提供することができました。 この機能は結構好評で、後続のリリースでConventional Commitsをもとにしたバグ発生率などのレポーティング機能も実装したこともあり、既に多くのチームでConventional Commitsが採用され始めています。 GitHub Copilotの隙間を縫っただけのような気もしますが、これで一つLLM活用の方向性を示すことができたと思います。 今後の展望 LLM活用促進に向けてPlatform Engineeringから行ってきたアプローチをいくつか紹介しました。 ですが、実際のところLLMのインパクトに対しては社内の活用はまだ不足していると感じています。 ジェネレーティブAIプロダクト開発室は新設されたものの、LLMは陳腐な言い方をすれば民主化されたAIであり、専任部署だけのものではないどころかソフトウェアエンジニアに限らず多くの人が活用してしかるべきです。 今後もプラットフォーマーとして活用の下支えをしながら一層LLMを「あらゆるLIFEを、FULLに。」の実現に繋げていこうと思います。 直近では組織にまだ活用のイメージが不足していると思っていて、 AI戦略室 と主要なアプリケーション開発者とともに、実際のアプリケーションでLLMを利用する生きた参考実装を用意しようと動いています。 個人的にはそろそろ(概念としての)AutoGPTによるアプリケーション実装の自動生成と真剣に向き合う頃合いかなとも思っています。 Platform EngineeringではこれまでSREを中心に価値あるプラクティスを組織に適用してきました。 これはプラットフォームがレバレッジの効くソフトウェアであるからで、LLMのような新たなパラダイムが出てきた時にそれを組織に適用する責任もプラットフォーマーにはあるはずです。 そして我々KEELチームはその結果として「あらゆるLIFEを、FULLに。」の実現にスケーラブルに貢献していくことを目指しています。 そんなKEELチームにもし興味を持っていただければ是非カジュアル面談しましょう! hrmos.co hrmos.co
こんにちは。エンジニアの渡邉です。普段はLIFULL HOME'Sの売買領域のエンジニアチームにて開発を担当しています。好きなGCPのサービスはCloudRunです。 今回は、LIFULL HOME'Sの物件画像を次世代画像フォーマット「WebP」形式に動的変換して配信できるようにした取り組みについて紹介します。 WebPとは WebP導入の背景 画像変換サーバの基盤刷新 主要なブラウザのWebPサポート 実現方法の検討 工夫した点 WebP対象外のブラウザからリクエストが来た場合に対する対応 CloudFrontのキャッシュ条件を変更 成果 パフォーマンスの改善 運用コストの軽減 全アプリケーションへの一括WebP対応 終わりに WebPとは WebP (ウェッピー)はGoogleがWebサイトの表示速度短縮を目的として開発した静止画像フォーマット画像形式のことを指します。 画質の劣化を最小限に抑え、画像サイズを軽くできます。表示速度改善によりエンドユーザーに好影響を与えるため、現在JPEGやPNGに変わる画像形式として注目されています。 WebP自体は2010年に仕様が公表され、多くのブラウザでサポートされています。 WebP導入の背景 サイト上で配信する画像をWebP形式に変換するしくみを導入する主な目的は、コストカットや表示速度改善、ユーザー体験向上のためです。 LIFULL HOME'SにおけるWebPの導入を長らく検討してきましたが、 画像変換サーバの基盤刷新 主要なブラウザのWebPサポート という2点において環境が変化したため、導入を進めることができました。 画像変換サーバの基盤刷新 LIFULL HOME'Sでは、物件画像のサイズやクオリティ、フォーマットなどを利用するアプリケーションに合わせて動的に調整する内製の「画像変換サーバ」を用いて画像を配信しています。 もともと私は画像の最適化に興味があり、LIFULL HOME'Sの画像を最適化し、最高の画像をユーザーに届けることを目標にしていました。 そのための地盤として、開発しやすいように画像変換サーバを新基盤に移行していました。 以前紹介した画像変換サーバの基盤刷新についてはこちらをご覧ください。 www.lifull.blog 主要なブラウザのWebPサポート WebP化を導入しようと考えていたときに抱えていた課題として、主要ブラウザの一部がWebPをサポートしていないことがありました。 当初WebP化を検討していた際にはInternet ExplorerとSafariにてWebP形式をサポートしていませんでした。 LIFULL HOME'Sを利用しているブラウザのうち、Internet ExplorerとSafariの利用率は無視できず、WebPを導入しても中途半端な成果になってしまうことが懸念だったのです。 しかしながら、現在Internet Explorerはサポートを終了し、SafariはWebPをサポートするようになり懸念点が解消しました。 そのため、WebP化の恩恵を強く受けられる算段が立ったので、導入に踏み切ることができるようになりました。 実現方法の検討 今回WebP配信化させるにあたって以下の二択の方法を考えていました。 すでに存在する画像ファイルを事前にWebP形式にしてそれを配信する方法 現在利用しているngx_small_lightを使用した画像変換サーバにて動的に変換させる方法 両者を比較したところ、今回は後者のngx_small_light側で動的に変換することを選択しました。 その理由としては次のような理由がありました。 ストレージに保存する画像のコストを下げたい 多様な環境からのリクエストに対応するため、配信する形式を動的に選択できるようにしたい 工夫した点 今回WebP化することを決めた上で、苦労したことがいくつかありましたので紹介します。 WebP対象外のブラウザからリクエストが来た場合に対する対応 LIFULL HOME'Sを利用されるユーザーは多種多様なため、Internet ExplorerなどのWebPが表示できないブラウザを利用されている可能性があります。 その場合、画像がまったく表示されないサイトになってしまうので、それを回避するためのしくみが必要でした。 今回どのように対応したかというと、Acceptヘッダの中身を見て変換するかを決定するプロセスを設けました。 ChromeなどのWebPを表示可能なブラウザの場合、以下のような image/webp をAcceptヘッダに持っています。 image/avif,image/webp,image/apng,image/svg+xml,image/*,*/*;q=0.8 この image/webp の有無によって元の画像をそのまま返すか、動的に変換したWebPを返すのかを選択しています。 Acceptヘッダに対応した画像フォーマットであればブラウザ側は問題なく表示できます。したがって、利用するアプリケーションはWebPが来る場合とそれ以外の画像形式が来る場合をそれぞれハンドリングする必要なく利用できます。 CloudFrontのキャッシュ条件を変更 LIFULL HOME'Sでは多くの画像を表示するため、負荷を軽減するためにCloudFrontによるCDNキャッシュを採用しています。 今までは画像を取得するURIに対して1:1になる形でCloudFrontにキャッシュできていました。しかしながら、今回の変更により、同一のURIであっても変換されたWebP形式か元の画像形式かの二択になってしまうことが予想されました。 もしWebP形式でキャッシュされていた場合に、Internet Explorerで表示しようとすると画像が表示されないといったことにつながります。それを回避すべくCloudFront側もAcceptヘッダの中身を確認したうえでキャッシュする機構に変更しています。 成果 苦労したこともありつつ、なんとかWebP対応を完了させたことで、いくつか大きく成果を出すことにつながりましたので紹介させていただきます。 パフォーマンスの改善 当初の目的にあった通り、画像の軽量化を行うことができました。 画像は平均して約20%ほどの軽量化に成功し、画像の表示スピードにも好影響を及ぼすことに成功しています。 運用コストの軽減 こちらのコストカットが今回だとかなり大きな成果としてつながりました。 もともと多くの画像を保有し表示することになるLIFULL HOME'Sでは大量の画像をCloudFrontにキャッシュしています。 多くの画像をキャッシュしているために高いコストを毎月かけて運用していましたが、WebP形式にしたことで画像サイズが20%軽減し、実績としてコストカットをすることにつながりました。 また、自社でWebP化を内製できたことで、もともと外部のサービスを利用する等の検討もありましたが、その必要がなくなったことも大きかったです。 全アプリケーションへの一括WebP対応 今回改修を加えた画像変換サーバは弊社の運営している多くのサービスが利用しているアプリケーションとして運用しています。 そのため、汎用的にWebPを返すしくみを作ることができたことによって、すべてのアプリケーションに対してWebPフォーマットでの画像を配信することに成功しました。 各アプリケーションで対応することなく、さまざまなメリットのあるWebPを一斉に適用できたことは、LIFULL HOME'S全体のパフォーマンス向上につながる成果となりました。 終わりに 今回はLIFULL HOME'Sにて画像最適化の文脈で多くのメリットがあるWebPフォーマットでの配信を実施でき、期待通りの成果を上げることができました。 もともと画像の最適化に興味があり、いつかLIFULL HOME'Sの画像をすべてWebPにするぞ!と意気込んでいた私としては感無量でした。 画像最適化はまだまだ多くの手法がありますので、これからも実践していければなと考えています。 弊社ではWebPを配信するにあたり画像変換サーバに対して手を加えるのが一番効果的であると判断しました。しかしながら、アプリケーションの特性によっては事前に変換しておく運用であったり、外部サービスを用いるといった手法も効果的であると思います。 WebP化することでの恩恵は大きいと思いますので、ぜひご検討してみてはいかがでしょうか。 最後に、LIFULL ではともに成長していける仲間を募集しています。よろしければこちらのページもご覧ください。 hrmos.co hrmos.co
こんにちは。AI戦略室 主席研究員の清田陽司です。 LIFULLが取り組んでいるさまざまな研究開発の課題を、より多くの社外の方々(とくに大学の研究者や学生)に共有することで、LIFULLだけではなし得ないより大きな研究成果につなげる、「産学連携」という活動を行っています。 実は、 LIFULL HOME'S 3D間取り というサービスも、産学連携の長年の取り組みの成果の一つです。 このたび、3月に開催された 第15回データ工学と情報マネジメントに関するフォーラム(通称 DEIM 2023) に、協賛企業の担当者、かつ「産学連携委員長」という役割で関わりましたので、その様子を報告します。 event.dbsj.org 開催会場の長良川国際会議場(岐阜県岐阜市) DEIMは、いわゆる「学会イベント」の一つで、 日本データベース学会 、 情報処理学会データベースシステム研究会 、 電子情報通信学会データ工学研究専門委員会 による共催です。 前身の「データ工学ワークショップ」から30年以上続いていて、例年600名以上の参加者を集めています。 LIFULLはもちろん、多くの企業がこのような学会イベントに協賛・参加しています。 この記事では、コロナ禍を経て4年ぶりに実現した現地開催の様子や、企業がこのような学会イベントに関わる意義について、お伝えしたいと思います。 コロナ禍と学会イベント 2020年初頭から続くコロナ禍は、多くの人が集まることに意義のある学会イベントに、大きな打撃を与えました。 2020年3月に開催された DEIM 2020 は、まさにコロナ禍の直撃を受けた学会イベントの一つでした。 DEIMは、例年合宿形式で開催され、参加者間の濃密な議論や交流が行われることを、大きな特色としていました。 私自身も毎年参加し、昼のさまざまなセッションでの発表や参加だけでなく、夜の美味しい料理やお酒を嗜みながらの多くの方々との交流も楽しみにしてきました。 しかし、新型コロナウイルス感染症が急激に拡大する中、このような濃密な交流をすること自体が許されない状況となり、実際に、多くの学会イベントが開催中止に追い込まれました。 DEIM 2020は、磐梯熱海温泉での開催が予定されていましたが、急遽現地開催から、当時ほとんど実績やノウハウのなかったオンライン会議システムによる開催に切り替えられました。 多くの学会イベントが中止に追い込まれる中、質疑応答を含む発表セッションをフルオンラインで実施できるシステムを短期間で構築し、フルオンライン開催を実現したDEIM 2020の挑戦は大きな注目を集め、メディアでも取り上げられました。 www3.nhk.or.jp www.asahi.com www.businessinsider.jp 私自身も協賛企業担当者としてDEIM 2020に参加していました。 オンライン開催のシステムを構築された関係者の方々の奮闘を目の当たりにし、大きな感銘を受けたことを鮮明に覚えています。 LIFULLでも、オンライン開催への切り替えを受けて、協賛を継続するか取りやめるかの判断を迫られましたが、このような危機的状況だからこそ継続して学会イベントの成功を支える、という決断に至りました。 いま振り返っても、この決断をしてとても良かったと思います。 国立情報学研究所(NII)に急遽設置されたDEIM 2020運営事務局 これに続く DEIM 2021 、 DEIM 2022 も、当初は現地(それぞれ磐梯熱海温泉、名古屋市)での開催が計画されましたが、コロナ禍での感染拡大のリスクが懸念されたため、いずれもフルオンラインでの開催を余儀なくされました。 オンラインでの学会イベントにいくつも参加してきて、オンライン開催にはメリット、デメリットの両方があることを感じてきました。 「参加者の幅が拡がる」ことは、オンライン学会イベントの良さの一つです。 参加費用、子育てや介護などの個別の事情により、これまで参加をあきらめてきた方々が多く参加し、議論や交流を楽しまれている様子を、私自身も数多く見ることができました。 より多様な方々が参加することで、議論の幅も拡がることは、オンライン学会イベントならではのメリットだと思います。 DEIM 2022では、過去最大となる1376名の方々が参加し、大盛況でした。 一方で、オンライン学会イベントには、「参加者間の交流が減ってしまう」という課題もあります。 現地開催の学会イベントでは、休憩時間中に顔なじみの方とたまたま出会っての雑談など、数多くの交流機会がありますが、オンライン開催ではどうしても減ってしまいます。 より多くの交流機会をもつことがメリットとなる協賛企業にとっても、交流機会が減ってしまうのは大きな悩みでした。 「直列ハイブリッド開催」という挑戦 オンライン開催と現地開催の良いとこ取りをする「ハイブリッド開催」は、すでにいくつかの学会イベントで取り入れられています。 私自身も、 人工知能学会全国大会(JSAI 2022、京都) など、いくつかのハイブリッド開催の学会イベントに参加し、その良さを実感しました。 一方で、ハイブリッドのイベント開催は本当に大変です。 現地参加者とオンライン参加者がスムーズに交流できるようなシステムは大がかりになりますし、トラブルが起きたときに対応できるスタッフも多数必要となります。 そこで、DEIM 2023では、3年間続いた完全オンライン開催の経験を踏まえて、新たに「直列ハイブリッド」という開催形式に挑戦しました。 具体的には、最初の3日間(3月5日〜7日)に一般発表セッションを完全オンライン開催で実施し、その後(3月8日〜9日)に現地会場(岐阜市)に集まってインタラクティブセッション(ポスター発表)などの交流イベントを実施することになりました。 このように、オンライン開催と現地開催を時間的に分ける(これを「直列ハイブリッド」と呼ぶことになりました)ことで、ハイブリッド開催の「コストや労力がかかる」というデメリットを最小化しながら、オンラインイベントだけ参加したい方々、現地で多くの参加者と交流したい方々の、両方のニーズを満たすことを目指しました。 結果として、直列ハイブリッド開催という形式は大成功だったという感想をもちました。 オンラインでの一般発表セッションで、より多くの発表をオンラインで視聴した上で、現地のインタラクティブセッションで、興味のある研究内容について、発表者とポスター前でじっくりと議論する、という、新たな学会イベントの形が実現できたように思います。 開催期間が5日間と長くなってしまうのが課題ですが、「学会の目的は何か」という原点に立ち返り、時代の変化に合わせてイベントのあり方を柔軟に変えていくことは、とても大切なことだと感じました。 「直列ハイブリッド」という前例のない開催形態に挑戦された実行委員長の鈴木優先生(岐阜大学)を代表とする幹事団の皆さまに、心からの敬意を表したいと思います。 この写真は、現地にて開催されたネットワーキングセッションの様子です。 Open Space Technology(OST) という枠組みで、参加者が話したいテーマをシェアし、それに興味をもつ人々が自由に集まって対話するという時間となり、大変盛り上がりました。 産学連携委員長としてのお仕事 今回のDEIM 2023では、産学連携委員長という役割を担当しました。 企業向け協賛プログラムの枠組みを設計するとともに、協賛企業各社と、大学の研究者を中心とする委員の方々とをつなぎ、産学連携をより密接にするという役割です。 今回は、「直列ハイブリッド」という開催形態のもとで、どのような協賛プログラムにすると多くの方に価値を感じていただけるか、幹事団や協賛企業の担当者など、多くの方々と相談しながら模索しました。 その結果、「4年ぶりの現地開催の機会を生かして、企業ブースに多くの参加者が集まる仕掛け」、および「協賛企業各社からの技術報告発表を、一般発表と同じオンラインセッションの時間に組み込むことで、参加者からより多くの質問が集まる仕掛け」に注力した協賛プログラムとすることになりました。 非常に有り難いことに、今回も19社もの企業から協賛をいただくことができ、充実した協賛プログラムを参加者の方々にご提供することができました。 とくに、最終日の常設ブースは、各社のブースに多数の参加者が集まり、大変盛況でした。 私自身も、LIFULLのブースにポスターを出して不動産分野でのAI関連の研究テーマなどをお伝えし、さまざまな反響をいただきました。 何よりも、参加者の方々が4年ぶりの現地での交流を楽しまれている様子が感じられ、主催者としても大変嬉しかったです。 協賛いただいた各社の皆さま、技術報告発表や常設ブースにて交流いただいた参加者の皆さまに、心より御礼申し上げます。 常設ブースの様子 オンライン会議用に参加者に配布されたバーチャル背景 企業が学会イベントに関わる意義 多くの企業がこのような学会イベントに積極的に関わっているのはなぜでしょうか? 優秀な学生の採用につなげたいという目的は、すべての企業が共通してもっています。 しかし、学会イベントを単に自社の魅力をアピールする場として活用するだけでは、効果も薄く、また長続きもしないように感じています。 学会イベントでは、学生さんだけでなく、大学の研究者の方々、他社の研究者や人事担当者など、さまざまな方々と交流することができます。 大学の先生方とお話しすることで、いまの学生が関心をもっているテーマなどについて詳しく知ることができます。 他社の方々とお話しすることで、他社がどのような考え方をもとに研究開発を進めているかなどについて、理解を深めることができます。 学会イベントの参加者との交流を深める上で非常に大切なのが、学会イベントの価値を高めるために、自社としてどのような貢献ができるのかという視点です。 LIFULLは、 利他主義 を社是として掲げています。 目の前にいる人をHAPPYにすることで自分もHAPPYになれる という考え方を、私達は学会イベントに関わる上でも大切にしています。 最後になりますが、LIFULLでは共に成長しながら働く仲間を募っております。 AI戦略室では シニアデータサイエンティスト を募集中です。 hrmos.co カジュアル面談もありますのでご興味ある方は是非ご応募ください! hrmos.co 今後も、LIFULLでの産学連携活動について本ブログで発信していきます。どうぞよろしくお願いいたします!
社内でChatGPTの普及のためハッカソンを開催しました こんにちは。クリエイターの日運営委員の花岡です。 4/20にLIFULLでChatGPTハッカソンを実施したので、その模様について報告します。 近年、ChatGPTによる技術革新はめざましいものがあります。 LIFULLのサービスとしては、先日ChatGPTを活用したAIホームズくんbeta LINE版をリリースをしています!! lifull.com このような動きの中で、社内向けとしてもChatGPTの可能性を探るべく、ハッカソンを開催しました。 急な開催ではあったものの、22名の方にご参加いただきました! 今回のハッカソンの狙いは以下の通りです。 ChatGPTを使ったハッカソンを実施することで、新しいアイデアの種にしてもらう。 LIFULLでの、ChatGPTへの関心を高めてもらう。 エンジニア・非エンジニアに限らずChatGPTを社内で使ってもらうことにより、ChatGPTという技術に慣れ親しんでもらう。 社内にプロンプトのノウハウを蓄積する。 今回は入門編ということで、エンジニア以外にも広く参加してもらう形式をとりました。 ハッカソンの概要 今回は、ChatGPTが盛り上がってまだ日が浅いことや、エンジニア以外の参加者も多いことからハンズオン、ハッカソンの二部形式を取ることにしました。 また、今回のハッカソンでは弊社のAI戦略室で作成いただいたChatGPTツールを使用しました。 第一部: ハンズオン LLMの概要について ChatGPTと社内向けツールの説明 第二部: ハッカソン ルール説明 ハッカソン 成果発表 表彰 第一部 ハンズオン LLMの概要説明 ハンズオンの前半では、弊社の加藤さんにLLMの概要説明をしてもらいました。 LLM概要説明 ChatGPTと社内向けツールの説明 今回のハッカソンでは、弊社AI戦略室で作成した社内向けツールを用いてハッカソンを行いました。 なお、社内ツールは以下の目的で作成されました。 プロンプトを入力しやすいGUIを作成してOpenAIのAPIを手軽に使えるようにすること。 プロンプト(コンテキスト)を共有できるようにしてノウハウが横展開されやすいようにすること。 後半では、谷山さんにChatGPTや社内ツールの使い方について説明してもらいました。 ChatGPTについて 社内ツールについて 第二部 ハッカソン 今回のハッカソンでは 「LIFEをFULLにするモノ」 をテーマにプロンプトを作成してもらいました。 先ほど説明した社内ツールを使用して2時間ほどの時間でテーマに沿ったプロンプトを作成してもらいました。 表彰作品 今回のハッカソンでは、投票による「ハッカソン優秀賞」と、弊社のCTOの長沢さん、取締役の山田さんに選んでもらう「長沢賞」「山田賞」の2つの特別賞を用意しました。 ハッカソン優秀賞 武田 裕子「発注したい」 〜選定理由〜 実際に運用できると思った。結構良い感じにほかのタスクにも適用できそう。 こんなに詳しく段階的に正確な返しができるようになるとは、と感動しました 業務支援で使えそうだから。社内のchatbotで使いたい etc.. 発注したい 長沢賞 二宮 健「タスク内容相談くん」 〜選定理由〜 どれも使ってみましたが、一番自然かつ使えそうな答えが帰ってきました、 タスクを進める際にどの観点を気を付ければ良いのか、はっきりさせておいたほうが良いところはないか?など、経験の浅い人にも良いメンターになりそうなためです。 タスク内容相談くん 山田賞 羽賀 崇史「振返り精度UP」 〜選定理由〜 対話botの基本的な使い方と言えるかもしれないが、実用的であり使い続けることで人間の成長にもつながるAIとの良い関係が作れそうと感じたため。 振り返り精度UP ここでは紹介しきれませんでしたが、表彰作品以外にもユニークですばらしい作品がたくさんありました。 ハッカソンを振り返って 今回のハッカソンの時間は短めだったにもかかわらず、ユニークでおもしろいプロンプトがたくさん出てきました。 また、エンジニア以外にもたくさんの方に参加いただき、ChatGPTを使ってどのようなサービスを作っていくかの発想の手がかりになったと感じています。 今後社会課題の解決に向けて、ChatGPTの大きな可能性を感じることができるハッカソンになりました。 最後に LIFULLでは、冒頭で紹介したAIホームズくんを始め、ChatGPTやLLMのサービス適用を広げるべく積極的に取り組みが進められています。 また、今回のハッカソン以外にも 熱海ハッカソン などさまざまなイベントを開催しています。 LIFULLに興味のある方、ぜひ一緒に働きませんか。 よろしければこちらのページをご覧ください。 hrmos.co