TECH PLAY

タイミー

タイミー の技術ブログ

273

Android Chapter の tick-taku です。 この記事は Timee Product Advent Calendar 2025 の15日目の記事です。 はじめに 2025年は AI コーディング・AI エージェント元年であり黎明期の渦中 と言っても過言ではない年だったと感じます。 各社からこぞって AI エージェントがリリースされ、その後も息つく暇もなくアップデートされてきました。単純なコード補完ではなくタスクを任せられるようになった昨今の AI エージェントは今ではすっかりコーディングの相棒です。 実際今年の DroidKaigi や iOSDC でも AI 関連のセッションが増えていた気がします。 そんな中 KotlinFest などで MCP サーバーを作った話を聞いて「この時代に生きてるんだから自分も触れておかなければ(使命感)(遅い)」と思い、せっかく1年も終わろうとしているのでいい機会だし触ってみようとまずは MCP サーバーを作ってみました。 ちなみにこの記事を書くにあたっても AI のサポートを最大限利用しています。時代ですねぇ。。。 Kotlin で MCP サーバー作ってみる では実際に作成していきます。 ハンズオン的なドキュメントを公式が用意してくれているのでそちらも参考になります。 modelcontextprotocol.io 今回は timee-android で運用している LADR を提供する MCP サーバーを作成してみることにしました。LADR については こちら や 数日前にチームのリードエンジニアが取り組みについて投稿 しているためぜひご覧ください。 この記事では jar ファイルをローカルに作成し Claude Code と接続することを目標とします。 事前準備 以下のようなディレクトリ構成を想定します。 timee-ladr ├── ladr │   ├── 0000-ladr-template.md │   ├── ~~~ │ └── assets └── mcp    └── app また、Kotlin で作成するので MCP Kotlin SDK を利用します。 build.gradle はこちら。 dependencies { implementation( "io.modelcontextprotocol:kotlin-sdk:0.7.7" ) } base { archivesName. set ( "ladr-mcp" ) } application { mainClass = "timee.ladr.AppKt" applicationName = "ladr-mcp" } Primitives 実装に移る前に MCP サーバーがコンテキストを提供するための重要な要素に触れておきます。 MCP には Resources , Tools , Prompts と呼ばれる要素があり、この記事で触れる Resources, Tools についてはそれぞれ以下のように定義されています。(Prompts は今回触れないため割愛します) Resources : LLM に追加のコンテキストを提供する読み取り専用のデータまたはコンテンツ Tools : LLM がアクションを実行するための関数のようなもの 今回作る MCP サーバーに当てはめると、LADR の md ファイルを Resources として提供し、LADR ファイルを新規作成したり更新したりする機能を Tools として提供することになります。 Server の初期化 まずは MCP サーバーを初期化します。 fun main() { val server = Server( serverInfo = Implementation(name = "ladr-mcp" , version = "1.0.0" ), options = ServerOptions( capabilities = ServerCapabilities( resources = ServerCapabilities.Resources( subscribe = false , listChanged = false ), tools = ServerCapabilities.Tools( listChanged = false ) ) ) ) { "timee-android 内の LADR を提供する MCP サーバー" } } ここで出てきた Capabilities とはこの MCP サーバーが LLM に対して何を提供しているかを示すものであり、今回の場合は Resources と Tools を提供していることを表しています。 Resources の Capabilities を示す data class の引数はそれぞれ以下のような意味を持っています。 プロパティ 説明 subscribe クライアントが特定リソースの変更を購読できるか listChanged リソース一覧が変更されたときに通知を送るか 今回のサーバーは静的な LADR の md ファイルを提供することが目的なので基本的に更新系は false です。 Resource の登録 LADR のファイルを Resource に登録していきます。 今回は jar を作成し単独でローカルで動作させることを目指しているため、jar 内の resources/ 配下に md ファイルを格納し読み取ることにしました。この辺の実装は AI 頼りです。ありがとう🙏 fun main() { /** Server の初期化 */ getLadrFilePathsFrom()?.forEach { filePath -> val fileName = filePath.substringAfterLast( "/" ) server.addResource( uri = "ladr:/// $fileName " , name = fileName, description = "LADR: $fileName " , mimeType = "text/markdown" ) { request -> ReadResourceResult( contents = listOf( TextResourceContents( uri = request.uri, mimeType = "text/markdown" , text = readResourceFile(filePath) ?: "File not found: $fileName " ) ) ) } } } private fun getLadrFilePaths() = object {}.javaClass.protectionDomain?.codeSource?.let { JarFile(it.location.toURI().path).getLadrFiles() } private fun JarFile.getLadrFiles() = entries().asSequence() .filter { ! it.isDirectory && it.name.startsWith( "ladr/" ) && it.name.endsWith( ".md" ) } .map { it.name } .sorted() .toList() private fun readResourceFile(filePath: String ) = object {}.javaClass.classLoader.getResourceAsStream(filePath)?.let { stream -> BufferedReader(InputStreamReader(stream, Charsets .UTF_8)).use { it.readText() } } Tool の登録 チームで運用している LADR のテンプレートに沿って登録しているため少し長いですが、addTool 内で input に対して output を定義するだけです。 JsonObject の用意が大変ですね… fun main() { /** Server の初期化 */ server.addTool( name = "create-ladr" , description = "与えられたコンテキストから新しい LADR (Lightweight Architecture Decision Record) ドキュメントを作成します。テンプレートに基づいてMarkdown形式のLADRを生成します。" , inputSchema = Tool.Input( properties = buildJsonObject { putJsonObject( "title" ) { put( "type" , "string" ) put( "description" , "LADRのタイトル(何に対しての意思決定を行ったのかがわかるタイトル)" ) } putJsonObject( "number" ) { put( "type" , "string" ) put( "description" , "LADRの通し番号(4桁のゼロ埋め、例: 0001, 0042)" ) } putJsonObject( "status" ) { put( "type" , "string" ) put( "description" , "採用状況: Accepted(採用), Rejected(不採用), On holding(保留)のいずれか" ) putJsonArray( "enum" ) { add(JsonPrimitive( "Accepted" )) add(JsonPrimitive( "Rejected" )) add(JsonPrimitive( "On holding" )) } } putJsonObject( "context" ) { put( "type" , "string" ) put( "description" , "文脈: 経緯(なぜこの意思決定が生まれたのか)、観点(判断した観点)、事情(検討した事情)、参考情報など" ) } putJsonObject( "specification" ) { put( "type" , "string" ) put( "description" , "仕様、やること、やらないこと" ) } putJsonObject( "design" ) { put( "type" , "string" ) put( "description" , "設計: 特筆すべき設計や設計意図" ) } putJsonObject( "decision" ) { put( "type" , "string" ) put( "description" , "決定事項: 想定している運用や制約、再評価となる条件など" ) } putJsonObject( "consequences" ) { put( "type" , "string" ) put( "description" , "結果: 意思決定の結果を評価したタイミングで追記" ) } putJsonObject( "link" ) { put( "type" , "string" ) put( "description" , "関連するLADRへのリンク" ) } }, required = listOf( "title" , "number" , "context" , "specification" ) ) ) { request -> val args = request.arguments val ladrContent = buildString { val title = requireNotNull(args[ "title" ]?.jsonPrimitive?.content) val number = requireNotNull(args[ "number" ]?.jsonPrimitive?.content) appendLine( "# $number - $title " ) appendLine() appendSection( title = "## Date - 日付" , text = LocalDate.now().format(DateTimeFormatter.ofPattern( "yyyy-MM-dd" )) ) appendSection( title = "## Status - 採用状況" , text = args[ "status" ]?.jsonPrimitive?.content ) appendSection( title = "## Context - 文脈" , text = requireNotNull(args[ "context" ]?.jsonPrimitive?.content) ) appendSection( title = "## Specification - 仕様、やること、やらないこと" , text = requireNotNull(args[ "specification" ]?.jsonPrimitive?.content) ) appendSection( title = "## Design - 設計" , text = args[ "design" ]?.jsonPrimitive?.content ) appendSection( title = "## Decision - 決定事項" , text = args[ "decision" ]?.jsonPrimitive?.content ) appendSection( title = "## Consequences - 結果" , text = args[ "consequences" ]?.jsonPrimitive?.content ) appendSection( title = "## Link - 関連するLADRへのリンク" , text = args[ "link" ]?.jsonPrimitive?.content ) } CallToolResult(content = listOf(TextContent(ladrContent))) } } private fun StringBuilder .appendSection(title: String , text: String ?) = apply { appendLine(title) appendLine() if (text.isNullOrEmpty().not()) { appendLine(text) appendLine() } } 本来はファイルを作成するところまでできるとよさそうなんですが、 LADR の性質上 jar の中にファイルを作成しても仕方なく、テンプレートに当てはめたテキストを返すのみとなっています。 Resource の登録と合わせて、本格的にチームで運用する場合はリポジトリをクローンしていることを前提に LADR を格納しているディレクトリの path を環境変数などで MCP サーバーに伝えるなどの方法もありそうですね。 Server の起動 最後に準備した Server を起動させます。 本来 MCP サーバーのトランスポートの方式はいくつかありますが、今回はローカルに build した jar との接続を想定しているのでドキュメント通り STDIO形式 で起動します。 fun main() { /** Server の初期化 */ val transport = StdioServerTransport( inputStream = System.`in`.asSource().buffered(), outputStream = System. out .asSink().buffered() ) runBlocking { val session = server.createSession(transport) val done = Job() server.onClose { done.complete() } done.join() } } 以上でサーバーの実装は完了です🎉 動作確認 作成したサーバーが正しくレスポンスを返してくるか検証しましょう。MCP の検証には MCP Inspector が提供されています。 MCP Inspector を起動する前に以下のコマンドでアプリケーションを用意します。 ./gradlew installDist app/build/install/ 以下に作成されるので、作成されたアプリケーションの path を Inspector の起動時に指定します。 npx @modelcontextprotocol/inspector mcp/app/build/install/ladr-mcp/bin/ladr-mcp ブラウザが起動するので左ペインの Connect を実行すると正しく作成できていれば成功します。 List Resources を実行すると登録された Resource の一覧が確認できます。 MCPInspecter/Resources また、Tools タブ内で List Tools で登録された Tool の一覧が確認できます。 右側のペインに inputSchema に指定した property を入力でき、実行するとレスポンスが返ってきます。enum で指定した status はドロップダウンで選択できるようになっていて便利ですね。 MCPInspecter/Tools Claude Code との接続 では最後に Claude Code と接続して LADR が確認できるか試してみます。 接続の前に jar ファイルを build します。ただし、普通に jar ファイルを build すると resource ファイルなどは格納されないため fatJar(shadowJar) を作成する必要があります。 これは自分が Server Side Kotlin の知見に乏しいので AI に聞いて作成 task を用意してもらいましたが、もっといい方法があるかもしれません。 fatJar 作成の gradle task tasks.register<Jar>("fatJar") { archiveClassifier.set("all") archiveVersion.set("") duplicatesStrategy = DuplicatesStrategy.EXCLUDE manifest { attributes["Main-Class"] = "timee.ladr.AppKt" } from(sourceSets.main.get().output) dependsOn(configurations.runtimeClasspath) from({ configurations.runtimeClasspath.get() .filter { it.name.endsWith("jar") } .map { zipTree(it) } }) } jar ファイルが作成できたら ~/.claude.json に設定を追加します。 "mcpServers": { "ladr-mcp": { "type": "stdio", "command": "java", "args": [ "-jar", "/path/to/timee-ladr/mcp/app/build/libs/ladr-mcp-all.jar" ], "env": {} } } Claude Code を起動して /mcp list を確認して connected になっていたら成功です。試しに timee-android が LADR を採用した経緯を聞いてみると readMcpResource を利用してまとめてくれました。うちの Claude お姉ちゃんは優秀です。 ClaudeCodeによるLADRのサマライズ 最後に 「MCP ってなんかすごいやつでいい感じになんかやってくれるんだな〜」くらいのイメージでいましたが、実際に作って触れてみるとなるほどコンテキストを取り扱うためのものなんだなということがよく分かりました。MCP がいい感じにしてくれるのではなく、コンテキスト接続のプロトコルなのであくまで外部からデータを与えたり作成したりするためのものであり、いい感じにしてくれるのはエージェントだと身をもって理解できました。 秩序という意味でも “AI における USB-TypeC” とはよく言ったものです。 となると次は AI エージェントの作成にチャレンジしてみるしかありませんね。次回は Koog を利用して今回作成した MCP サーバーを利用していい感じに LADR を作成してくれる AI エージェントを試してみようと思います。最近は KMP も熱く、全てが Kotlin で書けるのでもう全部 Kotlin でいいじゃんですね🤗 実際に手を動かしてみることで学びにはなりましたが GitHub のリポジトリに上がっているものなら GitHub CLI で済みそうな気がするので、社内 DB などよりクローズドなデータなら MCP サーバーとして用意する価値があるのかもしれません。とは言え、そんなデータをエージェントにくわせていいのかは…🤔 社内データを活用するために MCP サーバーを自作しておくと色々と捗りそうですが、一方で MCP サーバーはコンテキストを消費するのであんまり追加してもエージェントが処理しきれなくて意味がないと言う主張 もあるそうです。 これからますます便利になっていくであろう AI エージェント界隈、今後の進化を楽しみながら注視していきたいですね! タイミーでは日々の業務に積極的に AI を活用しています。ご興味があればぜひお話ししましょう! プロダクト採用サイトTOP カジュアル面談申込はこちら
アバター
こんにちは、タイミー取締役 事業統括兼CPOのShunです。 Timee Product Advent Calendar 2025 の12/14担当ということで、最近意識しているテーマ「シングルスレッドリーダー」について書きたいと思います。 まず前提として、一定の規模を超えた事業がさらに非連続な成長を遂げるためには(いわゆるSカーブの成長曲線の再現)、往々にして相応の大きな挑戦が必要だと思っています。そのためには、強力なアイデアを形にし、提供価値を進化させ、販促や営業の型をつくり、それをスケールさせるオペレーションを構築しなければなりません。つまり既存のやり方の地続きではない「変革」が必要です。 しかし、変革に着手するのは容易ではありません。なぜなら、一人ひとりが日々の仕事に忙殺されてしまっているからです。顧客対応も、開発も、運用も止められない。止めた瞬間に組織や個々人の目標達成は危うくなり、売上や各種KPIに影響を及ぼす可能性もあります。 そう、みんな、すでに忙しい。 けれども変革には地続きでない追加の努力が必要です。変革は、余裕ができたときに取り組む追加タスクではなく、日常業務そのものを変えるような力学が働かなければ生まれません。新しい価値や仕組み、意思決定、そして組織の再編まで求められる。では、誰がそれをできるのでしょうか? 推進力を設計するという発想:シングルスレッドリーダーとは ここで役に立つと僕が信じているのが、シングルスレッドリーダーの考え方です。シングルスレッドリーダーとは、「特定の事業領域の成功に必要な権限とリソースを与えられた、兼任ではない専任のリーダー」を指す、Amazonで提唱された考え方です。僕の前職であるGoogleにおいても、DRI(Directly Responsible Individual)という名称でほぼ同様に運用されていました。日本人としてはシングルスレッドの方が言いやすいので、僕はそちらの呼び方を使っています。 僕はこれを、単なる「責任者を置く」話だとは捉えていません。シングルスレッドとは、開始点と終着点があるプロジェクト管理の話ではなく、 「推進力の設計」 の話だと思っています。 この仕組みが解決するのは、「スキル・経験がある人ほど兼務状態になりがち」問題です。「話が早いから」「結果が期待できるから」といった理由から、短期的には合理的な側面もある一方で、兼務状態の膨張は、言わずもがな以下のような弊害を生むリスクを抱えています。 当事者の集中が分断される(思考やアクションが積み上がらない) 優先順位が毎回揺れる(何かを決めるまでが長い) 責任が薄まる(最後に腹を括る点が曖昧になる) その結果、複数の領域それぞれの雑務に追われて推進力が弱まり、全体的なアウトカムにも影響してしまうと思っています。 それゆえ、真逆のアプローチで、スキル・経験が豊富な人こそ思い切って「専任である一つのコトに向き合ってもらう」。それだけで、 一人ひとりの目線も、スピードも、アウトプットの質も段違いで変わる というのを目の前で幾度となく見てきています。 タイミーでの実装 タイミーでは、過去1年間で、既存事業とは別に実験的に 6つのシングルスレッド組織 をつくり、それぞれに事業オーナーを立てて推進してきました。 シングルスレッドリーダーたちは、事業の責任者としてバーティカルに特定の領域を管掌し、責任と意思決定権限をダイレクトに持ちます。もし任用時点でそれ以外の事業テーマも管掌していた場合には、任用のタイミングでそれらをすべて手放してもらいます(その領域は別の専任オーナーや既存の事業ラインに委譲し、推進力が分散しない構造に切り替えられるよう、最大限努力します)。多くのケースで戦略策定機能、企画・推進機能、そして営業機能はこのシングルスレッドリーダーの組織に属して、「管掌する事業」にフルコミットでフォーカスします。 一方で、プロダクトやマーケティングはシングルスレッドリーダーの管掌下には置かず、それぞれ独立した本部として残しています。その上で、ホリゾンタルにそれぞれの事業に対して担当を配置していきます。これはよく取られている形式だと思いますが、これらの機能を一箇所に固めた方が、採用・育成・型化・横展開の生産性が高くなることが大きな理由です。 この組み合わせはいわゆるメッシュ構造とも言えますが、古くからあるマトリックス組織との違いは何でしょうか。それは、シングルスレッドリーダーの組織においては「責任の一本化」と「専任性の強制力」が決定的に違うと思っています。マトリックスは事業と機能を掛け合わせる強力な概念ですが、構造上どうしても“責任の曖昧さ”が残り、責任が2軸に分散しやすく、意思決定も調整コストが高くなりがちです。シングルスレッドリーダーの組織においては、この曖昧さを一掃し、責任とリソースと意思決定を1本に束ねるように設計しています。マトリックス型組織の弱点をアップデートした形であり、専任化によって“推進力の失血”を防ぐ仕組みとも言えます。 組織デザインは常にアップデートし続けるもの もちろん、タイミーにおいても組織は日々形を変えています。シンプルなシングルスレッド体制が適する場面もあれば、複数の機能が密に連携した方が早いケースもある。成長フェーズや事業特性によって、求められる“最適な推進構造”は毎月のように変わります。だからこそ、組織デザインは一度つくって終わりではなく、事業の変化速度に合わせて絶えず再構築する「動的なシステム」であるべきだと思っています。 スポットワークというまだまだ進化を続ける業界だからこそ、戦略・戦術・組織あらゆる領域において「変革」に取り組み、事業の成長にあわせて組織も柔軟に形を変えながら、ワーカーの人生の可能性を広げるインフラづくりに真正面から取り組んでいきたいと思います。 タイミーのこういった様々な挑戦にご興味のある方、全方位で採用活動中ですので、ぜひお話ししましょう! プロダクト採用サイトTOP カジュアル面談申込はこちら
アバター
こんにちは。日々プロダクト開発を楽しんでいるsyamです。 「AIがあれば、専門外の領域も一人でなんとかなるのでは」 そんな期待を持って、Androidエンジニアの私はWebフロントとバックエンド開発への越境に挑戦しました。結論から言うと、その期待は半分正解で、半分間違いでした。 この記事では、実際に越境してみて感じた「AIの限界」と、それを乗り越えるために必要だった「人の存在」について書いていきます。 AndroidからWebフロントへの越境は、比較的スムーズでした。 学生時代にWebフロントを触っていた経験があったことに加え、UIを組み立てる感覚や状態管理の考え方など、Androidと共通する部分が多かったためです。リポジトリの構成も比較的理解しやすく、「Androidとは書き方が違うけれど、やりたいことは同じだな」と感じる場面が多くありました。 また、画面で結果をすぐに確認できるのも大きかったです。書いたコードの結果が目に見えるので、試行錯誤がしやすく、AIに書いてもらったコードの検証もすぐにできました。 バックエンドは「異文化」だった 一方で、バックエンドはより苦戦しました。 DB設計、トランザクション管理、API設計……。コードを書くこと自体はAIの力を借りればなんとかなります。ただ、「なぜこの設計にするのか」「このトランザクションの境界はここで正しいのか」といった判断になると、AIに聞いても教科書的な答えが返ってくるだけで、サービスに合った明確な答えが返ってこないことが多いです。(AIの使い方について、自分が不勉強なだけかもしれませんが) さらに厄介だったのが、リポジトリに関する知識の壁でした。リポジトリに合った実装をどうするか。これはコードの書き方以前の問題で、AIに「このリポジトリのルールに従ってコードを書いて」と頼んでも、そもそも自分がリポジトリのルール自体を理解できていなければ、正しい指示すら出せません。 そして何より大きかったのが、既存の稼働コードを壊すことへの恐怖です。ローカルで動いても本番で何が起きるかわからない。テストが通っても、見落としているエッジケースがあるかもしれない。この不安は、専門外だからこそ大きく感じました。 前に進むためにやった3つのこと 1. 悩み続けるより、まずAIに動くコードを書かせる 最初から完璧を目指すと手が止まります。そこで取った方法は「まずAIに動くコードを書かせて、それをたたき台にする」というものでした。 これは予想通り効果的で、動くコードがあると「ここはなぜこう書いているのか」と具体的な疑問が生まれます。白紙の状態で悩むより、何かしらのアウトプットがある方が次のアクションが見えやすくなりました。 2. 複雑な既存コードはAIに「解説」させる 既存のバックエンドコードを読み解くのは時間がかかる作業でした。ここでもAIが役立ちました。 「このコードが何をしているか、ポンコツエンジニアの私にもわかるように説明して」と頼むと、処理の流れや各部分の役割を整理して教えてくれました。 特に、シーケンス図にしたり、流れを図示するとよりわかりやすくなりました。これにより、既存コードの理解が早まりました。 3. AIでカバーできない部分は、素直に人に聞く ここが重要なポイントでした。 特にリポジトリにまつわる設計判断に関わる部分は、AIに聞いても本当に合っているかの評価が難しかったです。 そういった部分は、ペアレビューの際に本職のWebフロントエンジニアやバックエンドエンジニアの方が、素直に質問すれば詳細に教えてくださいました。パフォーマンス計測の際などには、同期でレクチャーしてくださり、非常にありがたかったです。 自分では気づけない観点からのフィードバックは、AIでは得られない価値がありました。 越境できた本当の理由 振り返ると、越境がうまくいった要因は、AIだけではありませんでした。 大きかったのは、 チームに「専門外からの質問を歓迎する雰囲気」ができていたこと です。これは単に「メンバーが優しかった」という話ではなく、組織として専門外の人が質問することを良しとするスタンスがあったからだと思います。受け入れる側のWebフロントエンジニアやバックエンドエンジニアが、丁寧に向き合ってくれたことに本当に助けられました。 一方で、越境する側として意識したこともあります。レビューの負担を少しでも減らすために、事前にヒアリングして疑問点を整理してからレビューに出すようにしていました。「聞ける雰囲気があるから何でも聞く」のではなく、受け入れ側への配慮を持つことも、越境をうまく進めるうえで大事だったと感じています。 得られた成果 この越境チャレンジの結果、手が空いたときに新規画面の開発やAPIの実装などWebフロントやバックエンドのタスクを消化できるようになりました。チームのスプリントゴール達成に、Android以外の形でも貢献できるようになったのは大きな変化でした。 まとめ 「AIがあれば全部できる」わけではありません。 ただ、「AIと、専門外からの質問を歓迎する雰囲気、頼れる仲間」がいれば、越境のハードルはかなり下がります。 AIはコードを書く手助けや既存コードの解説をしてくれます。しかし、「なぜそう書くか」の設計判断やドメイン知識の補完には、仲間のサポートが不可欠でした。 そして、そのサポートがうまく機能するには、受け入れ側の丁寧な姿勢と、越境する側の配慮、その両方が必要だと感じています。 仲間のWebフロントエンジニアやバックエンドエンジニアの方には、非常にお世話になりました。感謝しかありません。 タイミーで、そんな仲間たちとプロダクト開発をしてみたいと思った方は、ぜひ一度お話ししましょう! プロダクト採用サイトTOP カジュアル面談申込はこちら
アバター
この記事は Timee Product Advent Calendar 2025 の12日目の記事です。 1. はじめに こんにちは、タイミーでAndroidエンジニアをしている村田( @orerus )です。 私は2年前の2023年のアドベントカレンダーで、「 Lightweight Architecture Decision Recordsの導入 」という記事を書きました。 当時はAndroidエンジニアの人数も少なく、少人数だからこそ導入しやすかった実験的な施策でしたが、あれから2年が経ち、メンバー数は約3倍にまで急拡大しました。 一般的に、少人数チームで機能していた「全員合意」や「ドキュメント運用」は、人が増えると形骸化したり、ボトルネックになったりしがちです。 果たして、我々の独自LADR(Lightweight Architecture Decision Records)はスケールする組織に耐えられたのか?それとも破綻してしまったのか? 約2年間の運用の「通信簿」を、チームメンバーへのアンケート結果と共にお伝えします。 2. 独自LADRのおさらい(前提共有) 本題に入る前に、我々が2年間運用してきた「独自LADR」について簡単におさらいします。 (導入の経緯や詳細なフォーマットについては、 前回の記事 をご参照ください) 一般的なADR(Architecture Decision Records)はアーキテクチャ選定の記録を主としますが、我々は対象を拡大し、以下の目的で運用しています。 LADRの目的 案件のコンテキスト共有: 「なぜやるのか」「背景は何か」を実装前に同期する 設計レビュー: 実装着手前に設計方針の合意形成を行う(手戻り防止) 意思決定ログ: 「なぜその実装になったか」を未来に残す また、運用ルールとして以下の特徴を持たせています。 「仕様書(Specification)」ではない あくまで「その時点での意思決定のログ」です リリース後に仕様変更があっても、過去のLADRは更新しません。改修時は 「新たなLADR」 を作成してリンクさせる運用です 書くハードルは極限まで下げる 必須項目は 「Context - 文脈」のみ 記述量は執筆者に委ねており、「悩むくらいなら1行でも書いて出す」を是としています この「仕様書としてメンテしない(=数が増え続ける)」という性質が、後述する組織拡大期の課題にも関わってきます。 3. 【定量評価】数字で見るLADRの現在地 実際のところ、LADRはまだまだ元気に運用を続けております! LADR総数も2年前の18個から約175個へと大幅に増加しました。 では、チームが拡大した現在、メンバーはこの運用をどう感じているのでしょうか? 全メンバーにアンケートを実施し、2年前と同じ項目で数値化してもらいました。 ▼ LADR運用に関するアンケート結果 (※各項目10点満点 / 古参メンバー:2年前の導入初期を知るメンバー、新メンバー:その後に加入したメンバー) 評価項目 全体平均 上限 / 下限 古参メンバー平均 新メンバー平均 1. 満足度 7.9 10 / 4 8.7 7.4 2. 効率化 7.1 10 / 3 8.3 6.4 3. コミュニケーション 8.2 10 / 5 9.7 7.4 4. 課題解決効果 7.8 10 / 4 8.7 7.2 5. 学習・成長 6.5 10 / 3 8.3 5.4 6. 他チーム推奨度 7.2 10 / 3 8.3 6.6 数字から見えること まず注目したのは 満足度の高さ(平均7.9点) です。 「人数が増えたら面倒になるだけでは?」という懸念に反し、組織が大きくなっても高い水準で支持されています。また、途中からJoinした新メンバーも一部が「満足度10点」をつけてくれていました。これは率直に嬉しいですね! また、最もスコアが高かったのが 「コミュニケーション(8.2点)」 でした。 Squad(開発チーム)が分かれて普段の業務がバラバラになりがちな組織拡大期において、LADRが「エンジニア同士の会話のハブ」として機能していることがわかります。 一方で、「効率化」や「学習・成長」の項目では古参メンバーと新メンバーで特にスコアに開きが見られました。このギャップについては、LADR導入以前の痛みがある状態を知っている古参メンバーにとっては「LADRはマイナスをプラスに変えてくれるもの」だが、整備された状態で入社した新メンバーにとってはLADRがある状態がスタート地点(あるいは単なる追加タスクという認識)となった為ではないかと推察しています。実際、新メンバーからは「スピードが求められるシーンでボトルネックになる」という率直な意見も挙がっており、ここは今後の改善ポイントです。 4. 【定性評価】3倍規模になってもまだまだ手放せないLADR 一方、アンケートの定量評価(自由記述結果)から、LADRが一定支持されていることが伺えます。そこで、今度はその理由について考察してみます。 (※アンケートの設問と実際の回答内容については文末に付録として掲載します) ① 手戻りの撲滅と設計の民主化 LADRを出すタイミングはコードを書く前を推奨(最遅でも実装PRと同時)しています。これにより、実装後のコードレビュー(Pull Request)で議論が白熱し丸々作り直し…といった事態がなくなります。 実装前に設計のプロセスが強制的に組み込まれること、そのため設計時点でレビューしてもらうことで大規模なロールバックが発生しづらいことは大きなメリットかと思います。 (新メンバーより) また、これから作る機能について「こうしたいんだけど、どう思う?」とLADRを通して気軽に相談できる文化が、心理的な負担を下げているようです。 ② コードレビューの純度向上 LADRで設計の合意が取れているため、実際のコードレビューでは「設計議論」をする必要がなくなります。 コードレビューをする際に、設計周りのコメントをする必要がほぼ無くなる為レビュー側としても楽。 (新メンバーより) これはレビュアー・レビュイー双方にとって大きなストレス軽減になっています。余談ですが、我々はAIコードレビューも導入しており、単純なロジックミス等はAIが先に指摘してくれる状態となっているため、相乗効果で実装PRのレビュアー負担を大きく減らすことができています。 ③ 心理的安全性とオンボーディング 個人的に一番嬉しかったのが、新しく入ったメンバーからの以下の反応でした。 過去ログを参照してみましたが Light なこともあり書き方も人それぞれだったためいい感じに肩の力を抜いて書く事ができました。 実際 LADR を書く中でチームメンバーに質問したときも丁寧に教えてもらえたことを覚えています。 (新メンバーより) 書き方の参考にとてもなった。 足りてない部分や書き方など、チームメンバーが丁寧に指摘してくださった印象があり受け入れ体制は丁寧に感じた。 (新メンバーより) ドキュメント文化が「参入障壁」にならず、むしろ「チームに馴染むためのツール」として機能していました。その結果がコミュニケーションの高得点に繋がっているのかと感じました。 5. 課題をどう乗り越えているか? 〜AIという新たな相棒〜 もちろん、良いことばかりではありません。人数が増え、ドキュメントの数が膨大になるにつれて顕在化した課題と、2年前には予想していなかった解決策について触れておきます。 課題1:過去のドキュメント、どうやって探すのだ問題 「仕様書」として更新せず、ログとして積み上げる運用のため、GitHub上のファイル数は増え続けます(現在約175個)。2年前の懸念通り、人間が目で探すのは困難になりつつあります。 しかし、この課題は AIの進化 によって思わぬ形で解決されていました。 最近は AI が便利なので Claude Code に 「この項目とその時書いた設計を LADR から探してサマライズしてください」 などと投げ掛けています。 (新メンバーより) 新しくLADRをつくる際に既存のLADRをAIに探させることがあったがよく探してくれる印象 (新メンバーより) GitHubのリポジトリをAIに読み込ませることで、「検索性」の問題はAIが解決してくれました。これは2023年時点では想像していなかった嬉しい誤算です。 *1 課題2:レビューのボトルネック化 一方で、組織拡大に伴う悩みもやはり出てきています。現在はLADRが出されるとAndroidメンバー全員がレビュアーにアサインされます。これがスピード感を損ねる要因になりつつあります。 実装とLADRのレビューからマージまでには数日かかっている印象があります。 スピードが求められるシーンでも、LADR をレビューに出しながら並行して実装し PR までたてた後 LADR 側で指摘をもらった場合に、実装の PR を LADR を見ながら修正する必要もありコンテキストが分断されるのでネックかもしれません。 (新メンバーより) マージ条件としては「Android Chapter LeadのApproveのみ必須」という緩めな形にはしているものの、より多くの人の目に触れればそれだけコメントの数も必然的に多くなります。 ここについては、「10人程度までが見れる範囲。15人を超えたらコードオーナー制や分散レビューが必要かもしれない」といった意見も出ており、まさに今のフェーズが運用の転換点であるとも感じています。 課題3:AI時代の「思考停止」リスク AI活用は書くハードルを劇的に下げてくれましたが、副作用も無視できません。 実際、定量評価における 「学習・成長」のスコアが新メンバーで顕著に低かった(5.4点) のは、「AIが下書きをしてくれる分、自分の頭でゼロから言語化して悩む機会が減った」ことの裏返しである可能性があります。 AIにほとんどを書いてもらうため、記述するコストを小さくすることに意識が向くことが多くなったと感じる。 (新メンバーより) AI活用自体は組織的にも推進しており歓迎するところですが、「AIに下書きさせて、人間が思考を整理する」という健全なバランスをどう保つかが、今後の新たな課題点となりそうです。 結論:約3倍規模になってもLADRは必要だったか? 結論として、 「必要だし、むしろ人数が増えた今こそ手放せない」 存在です! 約3倍規模に増えても、LADRは形骸化することなく、チームの意思決定の質とコミュニケーションを支え続けてくれています。 特に、新しく入ったメンバーがこの文化をポジティブに受け入れ、すぐに適応してくれている姿は、導入者として何よりの成果だと感じています。 ただし、(努力目標とはいえ)「全員で全部見る」運用はそろそろ限界に近づいています。 次のフェーズ(10人〜20人規模)に向けて、AI活用を前提としつつ、レビュー体制の分散化など、仕組みのアップデートを進めていくつもりです。 この記事が、拡大するチームでの情報共有やドキュメント運用に悩む方の参考になれば幸いです。 タイミーのプロダクト開発に興味を持ってくださった方、よろしければぜひ一度お話ししましょう! プロダクト採用サイトTOP カジュアル面談申込はこちら 付録: アンケート自由記述の全回答まとめ アンケートの自由記述設問、および全回答です。 クリックしてアンケートの全回答(原文ママ)を見る ### 1. 組織拡大(Scale)に関する変化 **Q. 人数が増えてLADRのレビュー依頼も増えましたが、レビュー負荷や承認までのスピード感はどう変化しましたか?(ボトルネックになっていませんか?)** - CLとして全てのLADRを見るのでその分負荷は増加しているが、いうほどLADRの数自体が多く無いため変化は感じない - LADRが最近になってApproveまでのスピード感が落ちた気がします。他のも見るPRが増えたことや、AIによって書かれる分量が増えたので把握する量が増えたことなどが要因な気がします - 多少のボトルネックは発生しているように感じますが、それを補って余りある効果があると思います - (自分も含め)忙しさの度合いによりLADRのレビューが若干後回しになってしまっている印象があり、開発スピード上がったという印象はそこまで感じていないが、著しく開発スピードが落ちた、という印象もない - レビュー負荷は良いが、レビュー完了までに時間がかかりリードタイムが悪くなるのに貢献している気がして申し訳ない - レビューはLADRがあることでやりやすい - 個人的に事前に設計を考える点はメリットである反面、メンバーの設計をレビューするのは特に自分が持っているコンテキストの外側だと心理的にもハードルが高く、なかなかレビューに参加できなかったりします。実際 LADR のレビューからマージまでには数日かかっている印象があります - 基本的にはみるようにしている、特に負担と感じたことはない。忙しいタイミングかつ多くのメンバーに承認されている状態だとクリティカルではなさそうな気になりはコメントしない・残さないことは何度かあったかもしれない **Q. 過去のLADRの数がかなり増えているはずですが、現在「過去の意思決定」を探すのは容易ですか?** - GitHubの検索機能やローカルでの検索を使っているのでいうほど困ってない - そんなに過去のLADRを探すケースがないので、困っていないです - Githubのblobから検索して探しています。検索容易性は十分あると思います - 過去の意思決定を探すのは容易。すべてのLADRを目を通しているので脳内INDEXがあり AndroidStudio で検索すれば出てくる。最悪思い出せなくても ladr フォルダにまとまっているので探し出すのに困っていない - AIがあるので問題ないかも - 特定のLADRを読んだときに、これは今も正しい情報なのかの確信は持てていない - 最近は AI が便利なので Claude Code に「この項目とその時書いた設計を LADR から探してサマライズしてください」などと投げ掛けています - 普段の開発において既存のLADRを参照する機会があまりないかも(Androidにおける開発の実装方針が大きくはずれることがなさそうなことに起因していそう)。新しくLADRをつくる際に既存のLADRをAIに探させることがあったがよく探してくれる印象 **Q. 書くこと自体の心理的・工数的ハードルについて、現在の率直な感覚は?** - AIによって、より書くハードルは下がった気がします、レビューするハードルは分量の増加によって上がったかもなぁという感じです - どのくらいの内容で書けば良いかはあまり肌感覚がなく、後から「書いてください!」と言われることもあります - 仕様が固まっていなくても方針や予定を含んだ内容で書いてもOKとなっているので、書くことへの心理的ハードルはない。ある程度仕様をまとめたりしなければならないので工数的ハードルは忙しい時は少し気になるが、実装PRレビュー時などに使えることを考えると、工数的ハードルもほとんど感じていない - あまりない - 作りながら仕様が変わるのでドキュメントをアップデートし続けるのが難しい - プロダクトタスクの立ち上がりから実装までの間にどうしても LADR を書く工数が少なからず発生してしまうこと、作りながら仕様を決めることもあるためその都度 LADR に立ち戻ってドキュメントを修正することになり勢いが削がれてしまう点は課題かなと感じます。スピードが求められるシーンでも、LADR をレビューに出しながら並行して実装し PR までたてた後 LADR 側で指摘をもらった場合に、実装の PR を LADR を見ながら修正する必要もありコンテキストが分断されるのでネックかもしれません - AIによって書きやすくなった印象がある。実装を終わらせてから論点を整理させるといった使い方もできそう ### 2. オンボーディング・新メンバー視点 **Q. 入社時や新しい領域を触る際、過去のLADRを読むことは役立ちましたか?** - 役に立ちそうとは思うが、直接恩恵を受けたというエピソードはないかも - 仕様や経緯が記載されているのでその機能に手を加える際の参考になりました。ただ、Git 管理なのでドキュメントの更新も少しハードルがあると感じていて特に仕様について見つけた情報が最新かの判断が難しい気もしています **Q. 初めてLADRを書いた時、既存のLADRは参考になりましたか? また、チームの受け入れ体制はどう感じましたか?** - 書き方の参考にとてもなった。足りてない部分や書き方など、チームメンバーが丁寧に指摘してくださった印象があり受け入れ体制は丁寧に感じた - 既存のLADRは、ある程度参考になった(ある程度、なのは粒度がそれぞれ異なりどれに合わせれば良いか迷ったと思うため)。レビューで指摘してもらえブラッシュアップ可能なため、わからないままで終わるとかがなく受け入れ体制は良いなと感じた - LADRを書くこと以外にも初めてのことが多くて書いたが、あまり深く考えていなかった気がする - 過去ログを参照してみましたが Light なこともあり書き方も人それぞれだったためいい感じに肩の力を抜いて書く事ができました。実際 LADR を書く中でチームメンバーに質問したときも丁寧に教えてもらえたことを覚えています - 他のLADRを参考に書いた記憶、書き手によってフォーマットが異なっていた気がしている。AI主体で書いてくれるようになれば記述のハードルやフォーマットもそろいそう ### 3. 未来へ向けて **Q. 独自LADRの「ここが好き」(一番気に入っている点)** - 自分・所属Squad以外の開発内容についても知れ、自身の意見を述べる機会が与えられるところ。意思決定意図をリポジトリ内に残せるところ - Planモードの先駆けてきな感じで、最初に仕様を自身でも整理できるのが良いですね - みんなでレビューすることにより認識がそろえられるところ - これからこういった機能を開発したい、こういった機能を入れたいんだけどどう思う?を気軽に共有できる点 - 他のメンバー・squadが何をしているのか知ることができる。コードレビューをする際に、設計周りのコメントをする必要がほぼ無くなる為レビュー側としても楽 - とにかく書くハードルを下げていること - 実装前に設計のプロセスが強制的に組み込まれること、そのため設計時点でレビューしてもらうことで大規模なロールバックが発生しづらいことは大きなメリットかと思います **Q. 改善したい点・今後への提言** - もっと書きやすいように項目を取捨選択・整理したい - やはり把握する量が増えるので、LADR管理者の負担が心配になってきます - 全員レビューは人数が増えると限界を迎えると思うので、他に認識を揃える方法を考えるべきだと思います - 15人を超えてくるとすべてのLADRに目を通すことはかなり負担になりそうに感じるため、そこまでスケールはしないやり方かな、というところに限界を感じる。10人くらいまでが見れる範囲だと思っている。もし今の倍の人数になるならば半分くらいのメンバーを自動アサインなどにし...など分散する仕組みがあっても良いかも - レビューを締め切るタイミングが難しい為、一次コメントは3日以内にとか決めたいかも - 仕様書駆動開発になった時にLADRが仕様書っぽくなったりするのか妄想をする - 物理的・心理的ハードルの課題も散見され、特に高速なバリューデリバリーが求められる中で小さくないボトルネックになりつつある気がします。とは言え数10人規模になってくると rails chapter と同様に領域ごとのコードオーナー制も視野に入ると思うのでそこまで人数がネックになることも少ないかなとは感じます *1 : ※AI利用に関しては、社内のセキュリティガイドラインに則り、学習利用されない設定(エンタープライズプラン等)で行っています
アバター
はじめに こんにちは、バックエンド・エンジニアのMaxx (マックス) です。 私は現在、オフショア開発チームのブリッジ・エンジニアという役割でプロダクト開発に携わっています。 本記事は Timee Product Advent Calendar 2025 の12日目の記事として、私が2年前から取り組んでいる英語学習の体験を共有します。 英語を学習している方々の参考になれば、または興味がある方々が学習を始めるきっかけになればうれしいです。 オフショア開発チームと英語 「チームの生産性を上げ、成果をたくさん出し、そしてそれを価値につなげていくには私に英語力が必須だ、やるしかない!」 これは私がオフショア開発チームに携わって感じてきたことで、また英語学習のモチベーションを維持させてくれているものです。 私が所属するオフショア開発チームは、私とオフショア先の外国籍の方々で構成され、共通言語は英語です。私の役割は、チーム内の作業管理、チーム内外の中継、またエンジニアとしての技術的な支援などで、情報伝達と意思疎通が必須です。 これらを怠ると、理解の浅さによる考慮漏れ、誤解による手戻り、信頼性の不足または心理的な壁によるモチベーションの低下などを起こします (昔も今もときどき起こります) 。 オフショアメンバーの中に日本語話者がいるので通訳をお願いできるのですが、複雑な仕様や設計の意図などの技術的な話題の場合は、エンジニア間で直接話したほうが効率がよいですよね。 ということで、チームが上記のような問題を防ぎ、よい成果を出すためには英語でのコミュニケーションが必須な環境なのです。 英語学習の動機と目標 そもそも、なぜ英語学習を始めたのか、その根底にあるのは、単純な「好奇心」と「向上心」でした。 実は私はソフトウェア・エンジニアとして20年以上のキャリアがあり、これまでソフトウェア・エンジニアの技能に対する好奇心や向上心によって自身を成長させ、この業界に生き残ってきました。 20周年を迎えて、さらに自身を非連続に成長させそうなものはないかと未知の領域を見渡したときに見つけたのが英語で、そこで次のように考えたのでした。 (今であればLLMも未知の領域の候補になりましたが、当時はこれほど盛り上がっていませんでした。) 「シニアになった私でも、今から成長できるのか? やってみるしかない!」 「英語力が身についたら、人生の可能性はどう広がるのか? やってみるしかない!」 そして、英語の環境であるオフショア開発チームのブリッジ・エンジニアという役割に挑戦したのでした。 目指す英語力 目指す英語力はCEFRのB2です。 CEFR (ヨーロッパ言語共通参照枠) は外国語の習熟度を測る国際基準で、B2は上から3番目、「中の上」にあたるレベルです。 ヨーロッパ言語共通参照枠 - Wikipedia このレベルを目指す理由は、『エンジニア組織の英語化変革 EX』という書籍の内容を参考にしています。この書籍に「開発チームのすべてのコミュニケーションを英語化するにはB2が目安である。」、「英語のバックグラウンドがないフルタイムエンジニアでも約2年で全員がB2レベルに達しており十分に到達できる水準と考えています。」と書かれており、これは具体的 (Specific) 、達成可能 (Achievable) 、期限あり (Time bound) で、かつ2年という長さが自分にちょうどよいと感じました。 direct.gihyo.jp また、初学者がCEFRのB2レベルの英語力を身につけるには、600時間の学習が必要なようです。 今年の学習成果 では、この1年の英語学習を振り返ります。 学習内容と時間 学習教材の約95%は、NHKの語学番組を活用しました。1回5〜15分という長さが継続しやすく、レベル別に番組が豊富なため、自分に合った教材が見つけやすいのが魅力です。 視聴している主な番組 *()はCEFRのレベルです ニュースで学ぶ「現代英語」 (B2) ラジオビジネス英語 (B2~C1) ラジオ英会話 (B1) エンジョイ・シンプル・イングリッシュ (A2~B1) 英会話タイムトライアル (A2) 学習時間は合計で390時間でした。1日平均すると約1.1時間。主に夜22時以降、番組の視聴と教材のテキストで学習しました。 毎日やること、そしてやりすぎないことが私のおすすめです。 やる日とやらない日があると、やらない日の楽さを知っているのでやる日が少し辛く、よしやるぞと心を整えるまで時間がかかります。一方で毎日やる、つまりやるしかない!という状況にすると心を整える必要がありません。 あとは、やりすぎないこと、つまりがんばりすぎないことです。がんばると、短期なら気合いでなんとかなりますが長期は辛いです。 英語力の推移 成長を客観的に測るため、今年は定期的に Duolingo English Test を受験しました(受験費用をサポートしてくれる社内制度「エンジニア桜」に感謝!)。 productpr.timee.co.jp 今年のスコア推移 テスト日 認定スコア CEFR判定 2025年10月11日 95 B1 2025年7月20日 90 B1 2025年4月5日 85 B1 2025年2月10日 85 B1 2024年12月15日 85 B1 ご覧の通り、最初の3回はスコアが全く変わりませんでした。 「もう成長の余地がないのか?」「やり方が間違っているのか?」と不安に襲われることもありましたが、「英語学習の成長曲線はある日突然跳ね上がる」「英語は筋トレと同じだ、続けると必ず上達する」という先人の言葉を信じて継続しました。 その結果、4回目、5回目と連続でスコアが上昇しました。単なる幸運ではなく、着実に力がついていることを実感できた瞬間でした。 オフショア開発チームの成長 次に、私の英語力の成長がチームにもたらした変化を振り返ります。 大きな変化として、チームは1年前と比べて、より影響範囲が広く難易度の高いプロダクトゴールをまかされ、そしてやり遂げられるようになりました。 私の英語力と関連する要因は、もちろん情報伝達や意思疎通の質や量が向上したからかと思いますが、それに加えて私の気持ちも英語でも伝わるようになり、信頼関係を構築できたからだと思います。この変化によって積み上がった成果がPdMの信頼を獲得し、そしてより大きなプロダクトゴールをまかされることに繋がったのだと思います。 小さな変化は、エンジニアたちが私にビデオ通話をしてくれる機会が増えたことです。 私の英語力が上がったことで、私に対する彼らのコミュニケーションの負荷が下がったのだろうと思います、話したほうが早い的な。私のほうは英語での言語化に精一杯で発音も文法もひどいと思うのですが、それでも内容が伝わっているようでうれしいです。 最後に今後の抱負 現在の英語力はDuolingo English Testのスコアが95点で、CEFRのB1です。 このスコアがあと5点上がって100点になると、目標のCEFRのB2になります。 また、学習時間は去年から合計して606時間となり、こちらは目標の600時間を超えました。 ようやく、、、ここまできました。この調子であればおそらく最短で次回のテストで、最長でも半年以内に到達できるかと思います。 次回のテストは今年の年末の予定です。目標を達成して年を越したいところです。 認定スコア CEFR 155 ~ 160 C2 130 ~ 150 C1 100 ~ 125 B2 目標はここ 60 ~ 95 B1 いまここ 10 ~ 55 A1 ~ A2 一方で、自身の英語力が目標に近づいたことで、その英語力がどの程度かを知り、少し期待以下であることに気づきました。 「自分の英語力なんてまだまだだぞ、この程度で満足していいのか?」という気持ちです。 ということで、目標を達成した後も引き続き学習を続ける予定です。 もしかしたら、自分との戦いである点も筋トレと同じで終わりはないのかもしれません。。。笑 引き続き、オフショア開発チームと英語の両方をがんばってまいります! ということで、以上が私の体験談でした。ご参考になればうれしいです。 2025年もお疲れ様でした! 最後に、タイミーでは一緒に働くメンバーを募集してます!ご興味があればぜひお話ししましょう! プロダクト採用サイトTOP カジュアル面談申込はこちら
アバター
はじめに:「タイミーって、もう完成してるんでしょ?」 「タイミーはIPOもしたし、プロダクトも組織も出来上がっているから、今から入ってもやることがないのでは?」 候補者の方とお話しする中で、そんな声をいただくことがあります。 正直に言います。めちゃくちゃ勿体ない誤解です。 むしろ、IPOを経て確かなアセットが揃った今だからこそ、「プロダクト開発を科学する」という最高に面白いフェーズに入っているのです。 今回は、コンサル・スタートアップの事業統括を経験した私が感じる、「Growth領域の知的な楽しさ」と、その先に待っている景色についてお話しします。 自己紹介 みなさん、初めまして! タイミーでスポットワーク事業のGrowth全体を担当しているYang Haoと申します。 新卒で経営コンサルに5.5年従事し、その後、営業SaaSのスタートアップにてプロダクト責任者・事業統括を2.5年経験しました。2025年4月にタイミーに入社し、現在Group Product Managerとして10名弱のPdMのピープルマネジメントも行っています。 1. Growthとは「コツコツヒットを重ねながら、常にホームランを狙うゲーム」 そもそもGrowthとは何でしょうか。単にUIを微調整してCVRを0.1%上げるだけの仕事ではありません。 私は「顧客価値を提供し続けるために、データドリブンで反復し続けるプロセス」だと定義しています。 GAFAをはじめとする世界のトップテック企業には、一般的に必ずと言っていいほど強力なデータドリブンGrowthチームが存在します。彼らは機能開発チームとは異なる筋肉で、事業を非連続に成長させています。 なぜこれが「面白い」のか? 最大の魅力は、「即座にフィードバックが得られること」と「大胆なホームランを狙えること」です。 通常の機能開発が数ヶ月かけてリリースするのに対し、Growthは毎日バッターボックスに立ちます。 実際にタイミーのGrowthチームでは、 月間10本前後のリリースを行い、常に7〜8本のABテストが走っています。 「この仮説はどうだ?」「ダメか、じゃあ次はこうだ」 すぐに数字としてフィードバックが返ってくるため、高速でPDCAを回しながらヒット(改善)を積み重ねることができます。 しかし、それだけではありません。 確かなデータがあるからこそ、勘や度胸に頼らず、「ここを変えれば事業が跳ねるはずだ」という特大ホームラン(非連続な成長)を狙って打ちにいくことができる。 この「確実性」と「爆発力」の両方を追い求めるヒリヒリ感こそ、Growth PdMの醍醐味です。 2. 「コードを書く」だけが解決策じゃない。総合格闘技としてのGrowth もう一つの面白さは、「解決手段(レバー)の多様さ」にあります。 AIの進化により、「作る」ことのハードルは劇的に下がりました。これからのPdMの真価は、「作る」ことそのものよりも、「どのレバーを引いて事業価値を最大化するか」という意思決定に問われます。 Growth PdMが扱うレバーは、プロダクトだけに留まりません。例えば以下のような選択肢を複合的に組み合わせます。 Productレバー: UI/UXの改善、新機能の追加 Marketingレバー: 獲得ターゲットの変更、メッセージの刷新、新規獲得チャネルの立案 Biz/Opsレバー: 営業オペレーションの変更、自動化によるCS対応コストの削減 Strategyレバー: ダイナミックプライシング、課金モデル、インセンティブ設計の変更 「今回は開発せずに、LPや提案活動で仮説検証をしよう」「ここはプロダクトで自動化して、CSのオペレーションコストを下げながら、リードタイムを短くしよう」 このように、事業全体を俯瞰して最適な手を打つ「総合格闘技」のような面白さがあります。 3. キャリアステージで変わる「Growthの楽しみ方」 Growthの面白さは、PdMとしてのキャリアステージによって味わい深さが変わる領域です。 ジュニアPdM:プロダクト開発の「密度」を味わう とにかく、打席に立てます。0-1フェーズでは仕様策定からリリースまでに数ヶ月かかることもありますが、Growthフェーズではそのサイクルが圧倒的に早いです。 「仮説→要件定義→開発→リリース→検証」というプロダクト開発の一連のプロセスを、短期間で何度も回すことができる。 濃密な開発経験を浴びるように積めることは、PdMとしての足腰を鍛える上で最高の環境です。 ミドルPdM:「再現性」と「チームづくり」の楽しさ 単発の施策ではなく、チームとして勝ち続けるための仕組みづくりが面白く感じられるようになります。 「どうすればABテストの勝率が上がるか」を突き詰め、プロダクトで再現性高く数値を作れるようになると、経営からの信頼(投資)も集まり、チームも急拡大します。 そこで必要になるのが、「人を育て、組織で勝つ」マネジメントの視点です。プレイヤーとしての個人の成果を超えて、チーム全体のレバレッジを効かせる面白さが出てきます。 シニアPdM:「事業そのもの」を動かす楽しさ ここまで来ると、前述した「Strategy」や「Biz/Ops」のレバーを含め、事業全体を動かすダイナミックな采配が可能になります。 プロダクトの変更によって数百名の営業組織の動き方を変えたり、プライシング戦略で収益構造を進化させたりする。 これはもはやPdMという枠を超えて、事業をハンドリングする予行演習そのものです。 4. なぜ「タイミー」がGrowthの実験環境として最高なのか 「Growthが面白いのはわかったけど、別にタイミーじゃなくてもいいのでは?」 そう思うかもしれません。しかし、今のタイミーだからこその環境があります。 ① 「有意差」が出る圧倒的なトラフィック Growthの天敵は「データ不足」です。アーリーフェーズのスタートアップでは、ABテストをしようにも母数が足りず、検証に時間がかかります。 タイミーでは現在、月間100万回以上のマッチングが生まれています。今日打った施策の結果が、明日には明確な「有意差」として現れる。この規模で高速な実験ができる環境は、国内でも極めて希少です。 ② 「攻め」の実験にリソースを投下できる これが一番リアルな話ですが、資金やリソースに余裕のないフェーズでは、どうしても目先のキャッシュ獲得に追われ、大胆な実験ができません。 タイミーは、IPOを経て事業基盤が強固になったからこそ、守りに入るのではなく、「次なる非連続な成長」のためにリソースを大胆に投下できます。 失敗を恐れずに仮説検証にベットできる。この「攻めの姿勢」を支える環境があるからこそ、Growth PdMは思い切りバットを振ることができるのです。 おわりに:キャリアは後からついてくる 冒頭で「Growthは面白い」と書きましたが、結果としてこの領域に熱中することは、キャリア形成においても非常に合理的です。 事業全体を見渡し、あらゆるレバーを引いて数値を伸ばす経験は、将来どのようなプロダクト、あるいは事業を任されたとしても通用する「本質的な事業推進力」になります。 完成された組織でルーティンを回すのではなく、ヒリヒリするようなスピード感で実験を繰り返したい。 プロダクトという枠を超えて、事業を伸ばす手触り感を味わいたい。 そんな「知的好奇心」旺盛な方にとって、今のタイミーは最高の挑戦の場です。 「ちょっと面白そうかも」と思った方、ぜひカジュアルにお話ししましょう。この巨大な挑戦環境で何ができるか、一緒に妄想しませんか? みんなでワイワイ発信活動をやってく環境いいな〜と思う方、ご興味があればぜひお話ししましょう! プロダクト採用サイトTOP カジュアル面談申込はこちら
アバター
はじめに こんにちは! 絶賛採用中 のタイミーのDevPlatformチームの @MoneyForest です。なお、この記事は  Timee Advent Calendar 2025  シリーズ2の11日目の記事です。 本記事ではタイミーの「アプリケーション定点観測会」で取り扱っているDatadogのダッシュボードを改善した件について記載します。 アプリケーション定点観測会とは タイミーにおける「アプリケーション定点観測会」は「アプリケーションの品質に関わるメトリクス、イベント、ログ、トレース(MELT)を週次のサイクルで観測し、それぞれの事実をチーム全員で確認しフィードバックループを回すこと」を目的として行われます。 平たくいうとDatadogのダッシュボードを全員で眺め、認識を合わせたり、確認や改善のアクションを決定する会です。 このような取り組みは各社のテックブログでも散見され、SREの取り組みとしては一般的なもののように思います。(各社「SLO定例」「モニタリング定例」「パフォーマンス観測会」などさまざまな名前がついているようです。) それぞれ何を重視するかで特色があるとは思いますが、基となる考えはおそらくSRE本の「31章 SREにおけるコミュニケーションとコラボレーション」の「31.1 コミュニケーション:プロダクションミーティング」の以下の内容に拠るところではないでしょうか。 しかし、私たちが行うミーティングの中で、平均以上に有益なものが一つあります。それはプロ ダクションミーティングと呼ばれるもので、SREチームが自分たちと他の参加者に対し、担当す るサービスの状況について十分に注意を払って明確に説明をすることによって、すべての関係者の 全般的な認識を高め、サービスの運用を改善するために行われます。概して、これらのミーティン グはサービス指向で行われるもので、直接的に個人の状況のアップデートに関するものではありま せん。このミーティングが目標とするのは、ミーティングが終わった後に、進行中のことに関する 全員の認識が同じになることです。プロダクションミーティングには他にも大きな目標がありま す。それは、サービスに対するプロダクションの知恵を持ち寄ることによって、サービスを改善す ることです。すなわちサービスの運用パフォーマンスの詳細について話し合い、それを設計や設 定、実装と関連づけて考え、問題解決の方法を推奨するということです。定期的なミーティングに おいて設計上の判断をサービスのパフォーマンスと合わせて考えてみることは、きわめて強力な フィードバックループになります。 (出典:Betsy Beyer, Chris Jones, Jennifer Petoff, Niall Richard Murphy 編、澤田武男・関根達夫・細川一茂・矢吹大輔 監訳、玉川竜司 訳『SRE サイトリライアビリティエンジニアリング ―Googleの信頼性を支えるエンジニアリングチーム』オライリー・ジャパン、2017年、p.448) これまでの会とその課題 「アプリケーション定点観測会」は概ね目的を果たしていましたが、 「チームの認識が揃わない」 ということがしばしばありました。 どこを見るかが揃わない: 会議の最初に「各自でダッシュボードを眺めて気になった点を挙げる」という時間を設けていましたが、人によって見始めるウィジェットが違うことで時間内に見切れなかったり、見る人によって解釈が異なったりしていました。 良いか悪いかの判断が揃わない: 例えばCPU Utilizationのようなウィジェットは、100%に達していなければOKと一瞬で判断できる一方、Y軸が100に固定されていないと自動でウィジェットが縮尺してしまうため、パッと見て判断できず無駄な時間がかかることがありました。 次のアクションが揃わない: メトリクスの見方が人によって違うため、「このグラフのこの変化はどういう意味か?」といった 認識合わせの議論に時間が割かれる こともしばしばありました。 このようなケースがときおり発生しており、会が非効率になってしまうことで気づくべき変化を見落としてしまうことは避けたいと考え、ダッシュボードを改善しました。 改善アプローチ 課題に対応する形で、3つの改善を行いました。 課題 改善 どこを見るかが揃わない ダッシュボードの集約 良いか悪いかの判断が揃わない 明確なウィジェット 次のアクションが揃わない 観点の明記 1. ダッシュボードの集約 ─ 「どこを見るか」を揃える プロダクトごとに似たようなダッシュボードが並んでいたので、 テンプレート変数 を使い集約できるようにしました。またプロダクト・非同期処理・データストアなどでダッシュボードが分散していたので、1つのダッシュボードに集約しました。 テンプレート変数とはダッシュボードに定義できる変数のことです。クエリに $ をつけることで変数を参照でき、似たようなウィジェットを複数作らなくてもよくなることで保守性が上がるメリットがあります。 2. 明確なウィジェット ─ 「良いか悪いか」を揃える ウィジェットについて「閾値に抵触していないか?」「変化はリリースによるものか?」といった点がパッとわかるようにしました。 Y軸の固定とマーカー 例えばなんらかの使用率(Utilization)を見る場合、Y軸を100%に固定し、85%と100%にマーカーを引くことで、一目で状態が把握できるようになります。 マーカーを設定する理由は、意思決定をブレさせないためです。たとえばある日ではCPU使用率が80%のときに「なんかやばくね?」と判断して調査したのに、それより上の85%のときは「まだ余裕あるし対応しなくていいか」となってしまうことがあります。人によって、あるいはその日の気分や残り時間によって判断基準が変わってしまうことがあるのです。 では「CPU使用率が85%を超えた場合は一次調査する」と決めるだけでいいかというと、見逃してしまったり忘れてしまったりのリスクが残ります。マーカーで線を引いておけば「85%を超えたら調査や対応を検討する」との決めが視覚的に表現でき、ブレがなくなります。 マーカーを2つ引く理由にも意図があります。 85%(ワーニング) はスケールアウトやスケールアップを検討する目安です。この段階で気づければ、余裕を持って対応できます。観測会では主にこちらを取り扱います。 100%(クリティカル) はアラートが発報されるラインであり、すでに問題が顕在化している状態です。通常こちらはアラートによって取り扱うため、観測会では事後的な確認になります。この2段階にすることで、判断がしやすくなります。閾値自体が大切ではなく、「対応を開始するライン」と「抵触したら問題になるライン」を常に表示しておくことが大切です。 前週比のオーバーレイ表示 Datadogの calendar_shift 関数を使って、前週のデータを点線でオーバーレイ表示しています。これにより「先週と比べてどうか」が一目でわかります。 そもそも前週比がないと何が困るのでしょうか?グラフを見ても「この数値は高いのか低いのか」が判断できません。例えばエラー数が100件あったとして、それが普段通りなのか異常なのかは、比較対象がないとわからないのです。結果として「なんとなく大丈夫そう」という曖昧な判断になったり、正常なのに異常と誤認して無駄な調査をしてしまうことがあります。 「前週比」という点にもポイントがあります。前日比だと曜日による変動に惑わされます。例えばリクエスト数が平日と休日で大きく異なるプロダクトの場合、月曜と日曜を比べてもあまり意味がありません。前月比も同じく週が一致しない場合があるので、使いづらいです。そのため「前週の同じ曜日」との比較がちょうど良いと考えました。この辺りはプロダクトの特性にもよって適切な設定が変わってくると思われます。 リリースとの関連付け メトリクスに変化があったとき「それはいつのリリースが原因か?」を特定したいことがあります。リリースと紐づいていないと、変化の原因を探すために別途デプロイ履歴を確認する手間が発生します。 用いるメトリクスもそういった観点を踏まえて選びます。CloudWatchの aws.ecs.cpuutilization メトリクスはECSサービスレベルしかわからず、どのコンテナを改善すべきか、リリースとの関連がわかりづらいです。Datadog AgentサイドカーのFargateメトリクスで使用率を計算し、 task_version でグルーピングすることでリリースによる使用率の推移を観測できます。(デプロイのイベントをDatadogに送信するのもありかと思います) sum:ecs.fargate.cpu.usage{$service_name} by {task_version} / sum:ecs.fargate.cpu.task.limit{$service_name} by {task_version} * 100 3. 観点の明記 ─ 「次のアクション」を揃える ウィジェットの横にメモを必ず設けるようにしました。 メモがないとグラフが異常なように見えても「で、どうすればいいの?」となってしまうことがあります。自分が詳しければ問題ない、または詳しい人がいれば説明してくれますが、その人が休みだと判断できません。メモに「異常時は〇〇を確認する」と書いてあれば、誰でも次のアクションを取れます。ネクストアクションについて書きすぎると目が滑ってしまうので、あくまで簡単な記載にとどめます。ランブックへのリンクにするのもよいでしょう。 逆にメモが書けないような「とりあえず出してみている」ウィジェットは今回を機にバッサリ整理しました。そのようなウィジェットは時間が余った際に探索的に見るものと位置付けています。 余談ですが、スキルアップやバックログアイテムの発見につながるため探索的に見ることも重要だとは考えています。一方で、「予防」のアクションを取りたいのか「発見」のアクションを取りたいのかで適切なやり方は異なるため、会を分けるべきと考えています。 メモには「メトリクスの説明(どういったメトリクスで、どういった事象を引き起こすか)」「望ましいメトリクスの状態」「異常時に取るべきアクション」などを簡単に記載しています。 実際のダッシュボードでは以下のような形式でメモを記載しています。 ## 🗒️ Check!! - 前週比(点線)で異常に増えていないか - アプリケーションのエラーなのでLogsから原因を確認 ## 🗒️ Check!! - Task Limit(赤線)に抵触してないか - 抵触している場合スケールアップ or 性能改善が必要 ## 🗒️ Check!! - 前週比(点線)で異常に増えていないか - AWSの「Troubleshoot your Application Load Balancers」のドキュメントを参考に対応する - 4xxが跳ねている時はWAFがブロックして403を返していることが多く、 その場合は攻撃を弾いているので特に問題はない おわりに このような工夫をすることで、「どこを見るか」「良いか悪いか」「次に何をするか」について以前よりチームの認識が揃うようになりました。認識合わせに費やしていた時間が減り、その分を「なぜこの変化が起きたのか」という深掘りの議論に当てられるようになっています。 一方で、観測会ではアプリケーションのダッシュボード以外にもセキュリティやコストについても確認しており、「人によって見始めるウィジェットが違うことで時間内に見切れない」という課題は以前より緩和したものの、解消されたとは言い難い状態になっていますので、引き続きの改善を行っていきたいです。(今期からコストは一部別の会議に切り出しています。) 今回ご紹介したダッシュボード改善のプラクティスが、みなさんのチームの参考になれば嬉しいです。 タイミーでは一緒に働くエンジニアを募集しています!興味のある方はぜひカジュアル面談でお話ししましょう。 採用情報はこちら またね〜
アバター
この記事はTimee Product Advent Calendar 2025の11日目の記事です! qiita.com こんにちは。Androidエンジニアの Hunachi( @_hunachi )です。 突然ですが、日常生活において、バーコードを目にしたり、使ったりすることはけっこうありますよね。私もセルフレジでいつもピッピしています 🥦🛒 そんな身近なバーコードの読み取り機能を、Androidアプリに実装してみて失敗したときの話をします。失敗はしましたが、今はすでに安定稼働しているのでご安心ください ✅ このブログでは、コードの詳細は書きません ✂️ なお、ここではiOSの話はしません。iOSはAndroidとはまた別の苦難があり、後日iOSエンジニアの方がブログを書いてくれることを願っています 🙏📱 経緯:ユーザーにコードを読み取ってもらう機能が必要に 🧩 仕様は0から自分たちで考えており、制約の範囲内でコードタイプも自由に決められる状況でした。 他の箇所でQRコードを使っていたため、ユーザーが混同しないよう一次元バーコードを採用しました。 社内の技術以外の制約により、チェックデジットなしの形式を選ぶ必要がありました。 Pixelなど主要端末での手動確認では問題は見つかりませんでした。 チームメンバーを含む複数人での確認も実施済みでした。 今回使用した、バーコード読み取りの主要技術 🛠️ ML Kit(Google ML Kit) CameraX(Android Jetpack) 補足注: 「チェックデジット」は、読み取り誤りを検出するための検査用桁です。今回は発行側の事情で付けない形式を採用しました。 リリース後に発生した問題 🚨 問題1:一部端末で読み取りが難しい(もしくは実質不可)📵 ユーザーからの問い合わせで発覚しました。 分析の結果、影響は一部の数種類の端末に限られそうだと分かりました(おそらく100ユーザー以下)。 低スペック端末だけの問題ではなく、高性能カメラの端末でも発生していました。 特定端末を検証用として購入し、手元で再現を確認しました。 高価な端末にもかかわらず、検証用として迅速に手配してもらえました(関係各位に感謝です 🙇‍♀️)。 完全に不可能というほどではないものの、かなり読み取りにくいことが分かりました。 問題発生確率の調査方法 🔍 厳密な定量分析は難しいため、「本来読み取られるはずの回数」に対する「実際に読み取られた割合」が極端に低い端末や、問い合わせがあった端末を特定して調べました。 対応策(暫定) 🧯 画像からバーコードを登録できる機能を追加しました。 撮影方法の説明を強化し、誤った方法で操作してしまう可能性を下げました。 問題2:誤読(別のコードとして読み取ってしまう)🔀 本来そのユーザーが読み取るはずのないコードが読み取られる事象が発生しました。正しいコードが読み取れないと、そのユーザーが特定の機能を正しく使えなくなるため、重大な問題です ⚠️ バーコード読み取り機能に欠陥がある可能性を疑いました。 CameraX経由の読み取りで、ブレた画像から別コードとして解釈されるケースがあると分かりました。 即時フィードバックが難しい背景 ⏱️ 裏側の仕組み上、ワーカーが読み取ってすぐに誤りに気づけない場合があります。 多くはすぐに弾けますが、条件次第では弾けないことがあります。 問題発生確率の調査方法 🧮 手元での再現は運に左右され、難しいです。 無効データ検出時のログを分析して、発生確率を推定しました。 対応策(暫定) 🛡️ CameraX経由の読み取りに限り、「同一コードが1秒以上連続で読み取られた」場合のみ読み取り成立と判定するようにしました。 これにより、従来は弾いていた分も含め、読み間違いが減少しました。 1秒という閾値は、UXの観点も踏まえて決めました。 恒久的な対策 ♻️ バーコードをやめ、QRコードへの全面置き換えを決めました。 QRコードには誤り訂正やチェックデジットがあり、問題2の発生確率がほぼ0に近づきます。 バーコードにチェックデジットを付ける選択肢もありましたが、誤読時に二桁同時誤りが起きる可能性があり、精度面でQRコードに劣ると判断し、QR化に舵を切りました。 学びと所感 📝 アプリから読み取る × 一次元バーコード(特に発行側の制約でチェックデジットがない形式)の画像読み取りは、採用しない方が良いです!🙅‍♀️ 低スペック端末だけが問題になるとは限らず、高性能カメラ端末でも問題が起き得ると分かりました。 初期の選択は誤りでしたが、問題が見つかるたびにすぐ解決策を模索し、両OSとも最短に近い速度で対応できたのは良かったです 🚀 ユーザーに追加操作を強いることなく、UI/UXを損なわない形で解決できた点も良かったです 🙆‍♀️ 今年も失敗から多くの学びを得ました 😌 次回以降は、ユーザーさんに影響を全く与えない形で失敗するようにしたいです 😭 みんなで楽しく発信していける環境、いいなと思ってくださった方は、ぜひ気軽に声をかけてください!📣  product-recruit.timee.co.jp product-recruit.timee.co.jp (画像はAIで生成しています🍌)
アバター
こんにちは!タイミーでエンジニアリングマネージャーをしている恩田です。 この記事は  Timee Advent Calendar 2025  の10日目の記事です。 はじめに 前置き・プラットフォームエンジニアリング部門の役割 PO/PdM不在のチームは「やるべきこと」をどうやって決めるのか? 定量情報の観測 アプリケーション定点観測会 内部品質定点観測会 定性情報の観測 ポストモーテムを眺める会 スプリントレポート報告会 開発者体験アンケート オフィスアワー おわりに We are hiring! はじめに この記事では、私が所属するプラットフォームエンジニアリング部の活動の紹介、特に課題探索を目的としてどのような活動をしているかをご紹介したいと思います。前置きとして、弊社におけるエンジニア組織およびプラットフォームエンジニアリング部の役割やメインミッションの紹介もしており、本題まで少し前置きが挟まります。また、あくまで弊社組織での実例紹介であり、ベストプラクティス等を意識したものではない点にご留意いただきつつ、どなたかのご参考になれば幸いです。 前置き・プラットフォームエンジニアリング部門の役割 タイミーのようなプロダクト主導型組織において狭義のプロダクト戦略とは、マーケティングとイノベーションに対して戦略的意図(顧客ニーズに応える新しいプロダクトやサービスをどう生み出し、どう市場に届けるか)を策定することを指します。この戦略的意図を実現するための具体的なアクションプランをタイミー社内ではプロダクトイニシアチブと表現しています。開発者目線であえて端的な表現をすれば「ユーザ価値を届けるためのプロダクト機能開発」に類する仕事です。タイミーのエンジニアの大部分は、このプロダクトイニシアチブの実行/推進を主たる業務とする組織に所属しており、職能横断的なチーム構成のもと企画から設計、開発、テスト、リリース、施策評価までを一貫して行える組織設計を意図して組成されています。 その一方、プラットフォームエンジニアリング部門ではチームのユニット単位を「職能」で定義しており、WebFront領域に専門性を持つエンジニアで構成されるチーム、バックエンド領域に専門性を持つエンジニアで構成されるチーム、クラウドインフラ領域に専門性を持つエンジニアで構成されるチーム、QAエンジニアで構成されるチーム、セキュリティ領域に専門性を持つチーム、といった具合です。 その上で、組織のミッションと存在理由を タイミーユーザ目線のあたりまえ品質を提供する プロダクト開発組織がプロダクトイニシアチブを爆速でデリバリできる状態を提供する と定義しています。そのため、プロダクトイニシアチブに則った開発プロジェクトにプラットフォームエンジニアリング部が直接・間接的に参画寄与することもありますが、メイン業務は上記を達成するための技術改善/支援となります。 [NOTE] 「プラットフォームエンジニアリング」とは、安全で管理されたフレームワーク内の改善された開発者エクスペリエンスとセルフサービスを通じて各開発チームのセキュリティ、コンプライアンス、コスト、およびビジネス化までの時間に関する価値を向上させることを目的として、DevOps 原則から構築されたプラクティスである、と一般的に定義されています(定義話は長くなるのでこの記事ではこれ以上は触れません)その上で、弊社におけるプラットフォームエンジニアリング部は、上記に掲げるミッション/目標達成のために上記プラットフォームエンジニアリング(プラクティス)を「手段として必要に応じて選択、実践するもの」と捉えています。 PO/PdM不在のチームは「やるべきこと」をどうやって決めるのか? 前置きが長くなりましたが本題です。我々が上記ミッションを達成するために、どのようなアクションプランを立てるべきなのか - この意思決定の材料の1つが顧客の声です。我々にとっての顧客とは、タイミーのエンドユーザ(プロダクト品質の受益者)と社内開発者が該当します。 プラットフォームエンジニアリング組織にはいわゆる「プロダクトマネージャー」と呼ばれる役割を設置しておらず、各チームは定量軸と定性軸の一次情報、すなわちタイミーの各種システムモニタリングと社内開発者のVOC(Voice of the Customer)の継続的な収集を通じて課題仮説の言語化と打ち手仮説を立て、検証とアクションプランの実行をエンジニア全員が主体となって継続しています。これを各チームが各々定期イベントとしてチーム業務に組み込んでいます。 以下、具体的にどのような定期業務イベントでどのような定量、定性情報を日々収集し、課題仮説立てに用いているのかを紹介します。 定量情報の観測 アプリケーション定点観測会 タイミーのシステム信頼性、パフォーマンス、コスト、セキュリティ等にまつわる様々なメトリクス/指標を観測する会です。現状とトレンドの事実確認を行い課題仮説を立てアクションにつなげる / 直近の改善施策の効果を確認し、対策を継続すべきかクローズすべきか等の判断を行うことを目的としています。具体的には以下のような指標を同期ミーティングで集まり確認をしています。 信頼性/パフォーマンス観点 タイミーのBackend API群のレイテンシ、エラーレート、コンテナの各種メトリクス、スケーリング傾向やリクエスト傾向(シーズナリティ/スパイク傾向) データストア層(MySQL, Redis, ElasticSearch) の各種メトリクス、クエリパフォーマンスやスロークエリ、Cache Hit Rate、etc Sidekiq Jobのスループット、Jobs count推移、Workerのスケーリング傾向 バッチジョブのメトリクス、起動失敗率 外部SaaS類へのリクエスト数推推移やスループット、メールのバウンスレートやPUSH配信のエラーレート等 Security観点 CSPM等によるAWS構成不備の新規逸脱検知状況のチェック ECRイメージ脆弱性検査状況の定点チェック GuardDutyの検出結果振り返り コスト観点 AWS、Datadog、GitHub等利用料の大きいSaaS類の利用状況トレンドの把握。 月次/年次予算対比での上振れリスク 利用内訳(group by service, product, etc)の確認と、内訳比率に大幅な変化がないかのチェック RI Coverageの状況 Observability観点 メトリクスの不備、不足などについての課題提案 アラートの過不足、およびしきい値の調整予定についての課題提案 ダッシュボードの見直しなど、観測設計そのものを改善対象としての改善点洗い出し 内部品質定点観測会 タイミーのバックエンドアプリケーションにおける開発者体験を司る各種指標を定点観測する会です。目的はアプリケーション定点観測会と同様で、現状とトレンドの事実確認を行い課題仮説を立てアクションにつなげる / 直近の改善施策の効果を確認し、対策を継続すべきかクローズすべきか等の判断を行うことを目的としています。具体的には以下のような指標を同期ミーティングで集まり確認をしています。 CI/CDパフォーマンス観点 CI, CD の失敗率・失敗要因の分析 CI, CD の実行時間、実行時間変化の分析 PRのレビュープロセス観点 レビューリードタイム推移 マージしたPR数のトレンドと各チームの開発状況との因果関係考察 テストの健全性観点 Flaky Test の新規発生・修正状況 遅いテストの抽出と高速化余地の洗い出し 定性情報の観測 組織として現在収集できているメトリクスから開発生産性の全容を捉えるのは難しい側面があります。特に開発のバリューストリーム上のボトルネックやToilはコーディング、テスト、リリースといった開発工程の外にあるケースも多いです。観測しやすいメトリクス (4keysやGitHub上で観測できるLead time to Change等)だけを追っていても改善対効果の高い課題仮説が浮かび上がらないケースもあります。ビジネス要件の把握、仕様策定、コードベースの把握、レビュー、手動/自動テスト、承認、リリース作業、etc,,。開発工程のどこにボトルネックが発生しているか課題仮説を立てる材料として、開発者からの定性情報(これがツライ、わからない、知らない、etc)は貴重な情報源となります。 ポストモーテムを眺める会 タイミーの開発組織では、障害発生後にポストモーテムを行う文化が定着しています。ポストモーテムは障害対応/収束を担当したチームが中心となって実施します。このポストモーテムの内容(議事録)に記された議論過程やNext Actionをプラットフォームエンジニアリング部門のチームでクロスレビューし、「どのような支援(技術的改善、プロセス/ガードレール整備、知識/情報の非対称性の解消等)を行うと価値がありそうか」を探索しています。 スプリントレポート報告会 プラットフォームエンジニアリング部のチームがデリバリした開発者の生産性向上、体験向上を目的とした各種施策のサマリをレポートし、顧客(社内開発者)からのFBや要望を受け取る会です。 スプリントレポートはチームの作業計画に沿ったアウトプットです。アウトプット内容を共有しつつ、同時に社内開発者から「こんなことで困っている」といった一次情報を受領する相互情報交換を目的としています。 開発者体験アンケート 「開発者が自信を持ってリリースできる状態の実現」をゴールとした、開発者体験の現状を把握し改善につなげるためのアンケートを実施しています。また、アンケート収集後に内容を精査、具体的な改善アクションにつなげるため、必要に応じて回答者へインタビュー等も実施します。SDLCの各フェーズ毎、プラットフォームエンジニアリング部門のエンジニアが独自に策定した論点を元に質問を作成しており、技術的負債、業務プロセス、知識/情報の非対称性、様々な確度から課題の種情報を収集しています。 オフィスアワー 主にクラウドインフラ領域の技術に関するオープンドア形式のQ&Aセッションです。特定時間にslackのhuddleを開き、参加者は自由に出入りできる形で場を運営しています。 クラウドインフラチームが専売特許となりがちな技術領域、例えば監視設計やデータストア選定、データマイグレーション計画のノウハウ、CI/CDパイプラインやAWS全般に関する疑問や質問、興味のあることを何でも気軽に同期で質問・相談できる場として設計しています。 この場を通じ、開発組織全体で信頼性エンジニアリングのプラクティス実践を推進するにあたり障壁となる知識/情報の非対称性や、技術/組織課題の探索の場として活用しています。 おわりに この記事では、弊社プラットフォームエンジニアリング組織における各種課題探索の実例を紹介しました。実例の一つとして参考になれば幸いです。 We are hiring! タイミーでは絶賛エンジニアを募集中です。興味があればぜひお話ししましょう! プロダクト採用サイトTOP カジュアル面談申込はこちら
アバター
こんにちは、タイミーでエンジニアをしている佐藤です。 こちらは Timee Product Advent Calendar 2025 の9日目の記事です。 この記事では、AWS Resource Explorerを用いてマルチアカウント環境での資産棚卸しを効率化した取り組みについて紹介します。その過程でAWS Organizationsのアカウント構成も見直したので、合わせて共有します。 背景 AWSにおいてマルチアカウント構成で運用を続ける中で、横断的な運用効率化ニーズが出てきました。 マルチアカウント環境での横断的なリソース調査 タグ付けに基づくリソース検索 生成AIを活用したリソース作成状況の把握 アカウントやリージョンが複数に跨る場合の検索性が課題になります。組織レベルでAWS Resource Explorerを設定することで、リソース調査を効率化することにしました。 AWS Resource Explorerとは AWS Resource Explorerは、リージョンとアカウントを横断した高速な検索を提供する無料のサービスです。 リージョンまたぎでのリソース探索 マルチアカウント環境でのリソース把握 不要リソースの発見と最適化 タグ付けリソースの検出 フィルタールールによるカスタムビュー また、AWSマネジメントコンソールの検索バーとも統合されており、上部の検索窓から / (スラッシュ)で呼び出せます。 AWS Resource Explorerの設定 デプロイ方法の選択 AWS Resource Explorerの組織展開には複数の方法があります。 方法 特徴 各アカウントで個別設定 柔軟だが漏れが発生しやすい Quick Setup 簡単だがリージョン制御が難しい CloudFormation StackSets リージョン指定可能、IaC管理しやすい 私たちは以下の理由からCloudFormation StackSetsを採用しました。 新規アカウントを含めて漏れなく設定したい SCPで利用可能リージョンを絞っている 構成をTerraformで管理している CloudFormation テンプレートは AWS公式ドキュメント を参考にしました。 インデックス構成 Resource Explorerでは、AggregatorIndexとLocalIndexの2種類のインデックスがあります。 AggregatorIndex : 全リージョンのリソース情報を集約するインデックス。全アカウントで統一したリージョンに配置する必要がある LocalIndex : 各リージョンのリソース情報を保持するインデックス 私たちは以下のように構成しました。 AggregatorIndex:  ap-northeast-1 にデプロイ LocalIndex:  ap-northeast-1 以外の利用リージョンにデプロイ StackSetはAggregatorIndex用とLocalIndex用の2つを用意し、Organizationsのルートを指定して組織メンバー全体に適用しています。 auto_deployment を有効にすることで、新規アカウントに対しても自動でデプロイされます。 設定時の注意点として、Resource Explorerを手動で設定した場合や、Systems Managerを有効にしているとResource Explorerの既存インデックスがあります。 この状態でStackSetsをデプロイすると競合が発生します。 deployment_targets の account_filter を設定することで、既存インデックス作成済アカウントでの競合を回避しました。 AWS Resource Explorerの活用 組織スコープのView作成 Operations Toolingアカウントで、組織全体を検索対象とするViewを作成して検索を可能としました。Viewはアカウントスコープとリソースフィルターで絞り込めるため、用途に応じて複数作成できます。 Resource Explorerは追加料金なしで利用できますが、以下のクォータがあります。 一度に取得できる結果: 1,000件 アグリゲーターリージョンの月間検索オペレーション: 10,000回(デフォルト) フィルターを設定しない状態では、AWS Configのリソースが大量に取得されてしまい、探索性が落ちてしまいます。そこで、デフォルトView向けには以下のようなフィルターを設定した組織スコープのViewを作成して調査対象のリソースが絞り込みやすい状態にしました。 filter_string = "-service:config" AIによるリソース調査での活用 11月20日から21日で開催された アーキテクチャConference2025 にて、弊社橋本が『AI x Platform Engineeringでスケーラブルな組織を作るには』を発表しました。この発表で紹介した、AIによるリソース配置・設定情報(AS-IS)の調査とドキュメント化の取り組みで、AWS Resource Explorerを活用しています。 生成AIモデルの支援を受けてリソースの一覧を取得する際に、AWS API MCP Serverを利用することも考えられます。しかし、多くの結果を受け取るとコンテキスト超過・欠落で情報欠損することがあります。 Resource Explorerで取得したリソース一覧を保存し、ローカルで必要な情報を抽出するアプローチが効果的でした。 アドホックな調査であれば生成AIモデル経由でAWS CLIを呼び出し、調査対象が明確な場合は要件を元にプログラムからAWS SDKでクエリする手法も有効です。 まとめると、AIによるリソース調査での活用ではResource Explorerを起点とした以下の3段階アプローチが有効でした。 生データの取得(CLI): Resource Explorerの検索クエリを用いてリソース一覧を取得する。 構造化・フィルタリング: jqやPythonでアカウント番号、リージョン、リソースARN、必要情報のリストにする。設定情報の詳細を一覧化する場合は、AWS CLIによる生データ取得と構造化を繰り返す。 分析・洞察 (LLM/MCP): リストを元に個別のリソースの設定状況を確認する。 AIエージェントにアカウント横断での調査対象と作業ステップを指示して、リスト抽出する一例になります。 今回の調査で得られたリソース取得の方法と適したユースケースについて、以下の表にまとめます。 方法 適したユースケース AWS Resource Explorer を AWS CLI でクエリ アカウント横断でリソースを網羅的に抽出する場合 AWS Resource Explorer を AWS SDK でクエリ アカウント横断でリソースを網羅的に抽出し、追加処理を行う場合 任意のリソースを AWS API MCP Server 経由でクエリ 対象アカウントとサービスが絞られており対話的な探索をする場合 任意のリソースを AWS CLI/AWS SDK でクエリ 対象アカウントとサービスのリストを元に詳細を取得する場合 タグによるガバナンス確認での活用 Resource Explorerでは、タグの有無をベースにフィルターできます。また、クエリ結果から対象リソースに付与されたタグ値を確認できます。 12月7日のアドベントカレンダー「S3バケットの構成標準化 - 分類とガードレールによる運用改善」では、S3への適切なタグ付与とAWS Configによるガードレール実装を紹介しました。Resource Explorerを活用すれば、アカウント横断でタグの付与漏れを確認できます。 例えば ConfigRule-s3-bucket-server-side-encryption-enabled が付与されていないバケットは、 -tag.key: の否定検索で以下のように取得できます。 service:s3 resourcetype:s3:bucket -tag.key:ConfigRule-s3-bucket-server-side-encryption-enabled 注意点 AWS Resource Explorerは多数のリソースタイプをカバーしていますが、すべてではありません。利用前に Resource Explorer で検索できるリソースタイプ を確認することをおすすめします。 例えば、Amazon Bedrockの基盤モデルのように、リソースが作成されないサービスは対象外です。 AWS Cost Explorer MCP Serverを併用して、課金が発生しているサービスを確認して組み合わせるとレポート作成に役立ちました。 AWS Organizations構成の見直し この章では、AWS Resource Explorerをどのアカウントに委任したかを紹介します。 タイミーでは AWS セキュリティリファレンスアーキテクチャ (AWS SRA) を参考に、セキュリティOUのアカウントやインフラストラクチャOUの共有サービスアカウントを整備してきました。 組織横断での運用効率化に関わるAWSサービスとして以下が挙げられます。 AWS Healthの組織ビュー AWS User Notificationsの組織通知 AWS Resource Explorerのマルチアカウントリソース検索 しかし、これら全てを共有サービスアカウントへ委任すると、アカウントの責務が重くなりすぎます。そこで、AWSホワイトペーパー  Organizing Your AWS Environment Using Multiple Accounts  を参考にしました。インフラストラクチャOUを以下のアカウントへ分割しています。 アカウント 責務 Identityアカウント AWS IAM Identity Centerの管理 Operations Toolingアカウント 運用ツール、監視、リソース可視化 Backup管理アカウント バックアップの一元管理 AWS Resource Explorerの委任先については、Whitepaperに明確な記載がありませんでした。ユースケースから判断し、運用ツールを集約するOperations Toolingアカウントへ委任しています。 なお、IdentityアカウントにおけるAWS IAM Identity Centerの導入については、12月4日のアドベントカレンダーで紹介しているので、よければご覧ください。 まとめ AWS Resource Explorerを組織レベルで展開することで、マルチアカウント環境での資産棚卸しを効率化できました。 ポイントをまとめます。 リージョンとアカウントを横断した検索にResource Explorerが有効 CloudFormation StackSetsで組織展開し、新規アカウントへの自動適用と競合回避を実現 インフラストラクチャOUをIdentity/Operations Tooling/Backupに分割し、責務を明確化 Resource ExplorerはOperations Toolingアカウントに委任 AIによるリソース調査では、リソース一覧の保存→抽出→個別確認の3段階アプローチが有効 タグベースのフィルターでアカウント横断のガバナンス確認にも活用可能 AWS Organizations構成の見直しやResource Explorerの導入を検討されている方の参考になれば幸いです。 プロダクト開発を支えるプラットフォームチームの活動に興味を持ってくださった方は以下も覗いてみてください。 プロダクト採用サイトTOP カジュアル面談申込はこちら
アバター
はじめに この記事は Datadog Advent Calendar 2025   9日目の記事です。 こんにちは! 絶賛採用中 のタイミーのDevPlatformチームの @MoneyForest です。 今回は、ECS Fargate上でスタンドアロンなDatadog Agentをホストし、Database Monitoring(DBM)を活用してAurora MySQLのオブザーバビリティを向上した取り組みについてご紹介します。 背景 タイミーではAurora MySQLをメインのデータベースとして運用しています。オブザーバビリティ基盤にはDatadogを採用しており、AWS IntegrationによりCloudWatchメトリクスを収集していますが、データベースのパフォーマンス分析においては限界がありました。 CloudWatchメトリクスの限界 CloudWatchで取得できるメトリクスは、 AWS API経由で取得できる情報 になります。つまり、マシンリソースやAWSサービスとしてのAuroraの状態に関する情報が中心となります: メトリクス 内容 CPUUtilization CPU使用率 FreeableMemory 利用可能メモリ DatabaseConnections 接続数 ReadIOPS / WriteIOPS I/O操作数 CommitLatency / DDLLatency 各種レイテンシ 一方、実際にデータベースのパフォーマンスを分析する際に重要になってくるのは、 InnoDBやperformance_schemaといったMySQL内部のアーキテクチャに基づく情報 です。 例えば: どのクエリがどれだけ実行されているか クエリごとのロック待ち時間 バッファプールのヒット率 InnoDBの行ロック競合 これらはMySQLに直接接続して performance_schema や information_schema 、 SHOW ENGINE INNODB STATUS などから取得する必要があり、 CloudWatch(AWSのレイヤー)では取得できません 。(あくまでDatadogに連携できないだけであり、AWSではPerformance Insights という機能が提供されており、そこで一部確認可能です。) そこで活用するのが、Datadog AgentによるMySQLインテグレーションとDBM(Database Monitoring)です。 Datadog MySQLインテグレーションとDBM Datadog AgentはMySQLに直接接続し、 MySQLインテグレーション を通じてMySQL内部の情報を収集します。 MySQLインテグレーションは、標準機能とDBM(Database Monitoring)機能で構成されています( integrations-core mysql-15.11.0 )。 設定ファイルでのDBM機能の有効化は以下のように行います: instances : - host : localhost username : datadog password : <PASSWORD> dbm : true # この設定でDBM機能が有効化される 標準機能で取得できる情報 標準機能では以下の情報を収集します: 機能 概要 公式ドキュメント Metrics スループット、接続、エラー、InnoDBメトリクスに関連するメトリクス Data Collected DBM有効化で追加される機能 dbm: true を設定すると、クエリレベルのメトリクス、ライブおよび履歴クエリスナップショット、待機イベント分析、データベース負荷、クエリ実行計画を使えるようになります。( mysql.py#L429-L434 )。 if self._config.dbm_enabled: dbm_tags = list ( set (self.service_check_tags) | set (tags)) self._statement_metrics.run_job_loop(dbm_tags) self._statement_samples.run_job_loop(dbm_tags) self._query_activity.run_job_loop(dbm_tags) self._mysql_metadata.run_job_loop(dbm_tags) 機能 概要 公式ドキュメント 追加のQuery Metrics 標準機能よりさらに詳細なクエリレベルのメトリクス Data Collected で (DBM only)と書かれているメトリクス Query Samples 実行されたクエリのスナップショット。実際のパラメータ付きクエリ、Explainプラン、コスト情報を確認可能 Exploring Query Samples Database Hosts ホストごとのアクティブな接続、ブロッキングクエリ、待機イベントを可視化。クラスタトポロジも表示 Exploring Database Hosts Schema Explorer テーブル構造、カラム、インデックス、外部キーを確認。スキーマの変更履歴も追跡可能( collect_schemas: enabled: true で有効化) Exploring Database Schemas これらの情報を活用することで、「CPUが高い」という現象から「このテーブルのこのクエリがインデックスなしでフルスキャンしている」という原因まで、Datadogという1つのプラットフォーム上で一気通貫で追跡できるようになります。 APMとDBMを繋げる機能 などもあるため、APMからEXPLAINまで見ることができ非常に便利です。 次に、弊社におけるECS Fargate環境でDBMをホスティングする際の運用にまつわる課題と工夫を見ていきます。 DBMをECS Fargateでホスティングする際の課題 タイミーではコンピューティング基盤としてECS Fargateをメインで採用しています。 DBMを導入する以前から、APMやログ収集のためにDatadog Agentを サイドカー構成 で運用していました。 flowchart TB subgraph task["ECS Task (Fargate)"] app["Application Container"] agent["Datadog Agent (Sidecar)"] end この既存のサイドカーにDBM機能を追加することも技術的には可能です。しかし、サイドカー方式はAPMやログ収集といったアプリケーション単位の監視に適している一方、DBMはデータベース単位の監視であり、役割が異なります。 DBM機能をサイドカーに同居させると以下の問題が想定されます : 接続数の爆発 : タスク数分のDB接続が発生し、 max_connections を圧迫しそう Autodiscoveryの重複 : 各サイドカーが個別にAuroraクラスタを検出し、無駄なAuroraのAPI呼び出しが発生しそう メトリクスの重複 : 複数Agentが同じDBから収集し、メトリクスやイベントが重複してしまう可能性がありそう スタンドアロン構成の必要性 これらの問題を踏まないため、 DBM専用のスタンドアロンなDatadog Agentを別のECSサービスとして構築 することにしました。(DBM用のEC2を立ち上げるなどの手段もありますが、運用面を考えると避けたいところでしょう。) 平たくいうとDatadog Agentをサイドカーではなくメインコンテナとして1タスクだけ別のサービスとして立ち上げるというものです。以後これを便宜的にスタンドアロン構成と呼称します。 flowchart TB subgraph appTasks["Application ECS Tasks (Fargate)"] subgraph task1["Task ×N"] app1["App + Datadog Agent (Sidecar)"] end note1["Agentの役割: APM/ログ収集"] end subgraph dbmTask["Datadog DBM ECS Task (Fargate)"] subgraph task2["Task ×1"] agent2["Datadog Agent (Standalone)"] end note2["Agentの役割: DBM"] end スタンドアロン構成であれば、1つのAgentがリージョン内のAuroraクラスタを自動検出しメトリクスを収集するため、先に挙げた懸念は考慮しなくて良くなります。 Fargateにホストする方法ですが、Datadogの公式ドキュメント( Setting Up Database Monitoring for Aurora managed MySQL )にはDocker向けの手順が用意されており、Docker Labelsを使用した定義が紹介されています。 FROM gcr.io/datadoghq/agent: 7.36 . 1 LABEL "com.datadoghq.ad.check_names" = '["mysql"]' LABEL "com.datadoghq.ad.init_configs" = '[{}]' LABEL "com.datadoghq.ad.instances" = '[{"dbm": true, "host": "<AWS_INSTANCE_ENDPOINT>", "port": 3306,"username": "datadog","password": "ENC[datadog_user_database_password]"}]' タイミーでは複数のAWSアカウントでDBMを運用しており、環境ごとにAuroraのエンドポイントやDatadogのタグなどが異なります。 公式手順のDocker Labelsではシンタックスハイライトなどが効かないため、設定のミスが多くなりそうですし、環境ごとにDockerfileを用意するのも冗長です。 そこでDocker Labelsではなく、環境ごとの conf.yaml を生成してDatadog AgentのDockerイメージの conf.d/mysql.d に焼く方式を採用しました。 生成にはCUEを使用することでミスのないコンフィグを作成しやすくしています。 ここからは、実際のECSタスク定義やAurora Autodiscoveryの設定、CUEによる設定生成など、具体的な実装を紹介します。 アーキテクチャ まず、全体のアーキテクチャを示します。 flowchart TB subgraph aws["AWS Account"] subgraph ecs["ECS Cluster"] subgraph task["Datadog Agent Task (Fargate)"] agent["datadog-agent<br/>- DBM enabled<br/>- Autodiscovery"] end end aurora[("Aurora MySQL<br/>(Autodiscovered)")] ssm["SSM Parameter Store<br/>- DD_API_KEY<br/>- DATABASE_PASSWORD"] end datadog["Datadog<br/>(Metrics)"] agent --> aurora agent --> datadog ssm -.-> task ディレクトリマップ 次にディレクトリ構成を示します。 datadog-dbm/ ├── Dockerfile ├── etc/ │ └── datadog-agent/ │ ├── datadog.yaml # Agent全体の設定 │ └── conf.d/mysql.d/ │ ├── schema.cue # CUE共通スキーマ │ └── environments/ # 環境ごとの差分 │ ├── product-a-prod.cue │ ├── product-a-stg.cue │ └── ... └── opt/ ├── secrets.sh # シークレット展開スクリプト └── secrets.json.tmpl # シークレットテンプレート それでは、各コンポーネントの実装を見ていきましょう。 実装の詳細 1. Datadog Agent設定 まず、Datadog Agentの設定ファイル( datadog.yaml )でDBMとAurora Autodiscoveryを有効化します: site : datadoghq.com database_monitoring : autodiscovery : aurora : enabled : true region : ap-northeast-1 secret_backend_command : /opt/secrets.sh dogstatsd_metrics_stats_enable : true ポイント : database_monitoring.autodiscovery.aurora.enabled: true で、リージョン内のAuroraクラスタを自動検出 secret_backend_command でシークレット管理を外部スクリプトに委譲 2. シークレット管理 データベースのパスワードは、Datadog Agentの標準機能である Secrets Management を活用して取得しています。 本実装では secret_backend_command で独自スクリプトを使用しています。なお、Agent 7.70以降では secret_backend_type を使うことで、AWS Secrets Manager等に直接アクセスできるようになっています。 /opt/secrets.sh : #!/usr/bin/env bash set -eu cat /opt/secrets.json.tmpl | envsubst /opt/secrets.json.tmpl : { " DATABASE_PASSWORD ": { " value ": " ${DATABASE_PASSWORD} " } } この仕組みにより: ECSタスク定義でSSM Parameter Storeから DATABASE_PASSWORD を環境変数として取得 Datadog Agentが secret_backend_command を実行 envsubst で環境変数を展開し、JSONとしてAgentに渡す 3. Dockerイメージ FROM datadog/agent:7.72.2 RUN apt update && echo Y | DEBIAN_FRONTEND=noninteractive apt install -y gettext COPY ./etc /etc/ COPY ./opt /opt/ RUN chown -R dd-agent:root /var/log/datadog/ RUN chmod 700 /opt/secrets.sh gettext パッケージは envsubst コマンドを使うためにインストールしています。 4. ECSタスク定義 { " containerDefinitions ": [ { " name ": " datadog-agent ", " image ": " <ECR_REGISTRY>:latest ", " dockerLabels ": { " com.datadoghq.ad.check.id ": " _dbm_mysql_aurora " } , " environment ": [ { " name ": " ECS_FARGATE ", " value ": " true " } ] , " secrets ": [ { " name ": " DD_API_KEY ", " valueFrom ": " /datadog/DD_API_KEY " } , { " name ": " DATABASE_PASSWORD ", " valueFrom ": " /datadog/DATABASE_PASSWORD " } ] , " essential ": true } ] , " cpu ": " 2048 ", " memory ": " 4096 ", " networkMode ": " awsvpc ", " requiresCompatibilities ": [ " FARGATE " ] } ポイント : シークレットはSSM Parameter Storeから取得 5. Aurora側の設定 DBMを利用するためには、Aurora側にも設定が必要です: DBパラメータグループで performance_schema を有効化 Datadog Agent用のMySQLユーザー作成と権限付与(GRANT) 詳細な手順は公式ドキュメントを参照してください: 参考: Setting Up Database Monitoring for Aurora managed MySQL 基本的な実装は以上ですが、タイミーでは実際に複数環境でこの構成で運用しています。次に、マルチアカウント運用における設定管理の工夫を紹介します。 マルチアカウント運用:CUEによる設定生成 タイミーでは複数のAWSアカウントでこの構成を運用しています。 課題となったのは、 環境ごとに異なるDatadog Agentの設定ファイル(conf.d/mysql.d/conf.yaml)をどう管理するか という点です。各環境で以下のような差分があります: AWSアカウント名(タグに使用) schemas_collection の有効/無効(プロダクトにより必要性が異なる) CUEによる設定管理 この課題を解決するため、 CUE を使って設定を管理しています。 etc/datadog-agent/conf.d/mysql.d/ ├── schema.cue # 共通スキーマ定義 └── environments/ ├── product-a-prod.cue # 環境ごとの差分 ├── product-a-stg.cue ├── product-b-prod.cue └── ... 共通スキーマ(schema.cue) package datadog #DatadogConfig: { ad_identifiers: ["_dbm_mysql_aurora"] init_config: {} instances: [#Instance] } #Instance: { host: "%%host%%" port: "%%port%%" username: "datadog" password: "ENC[DATABASE_PASSWORD]" dbm: true // schemas_collectionが有効な場合のみブロックを含める if schemas_collection_enabled { schemas_collection: { enabled: true } } aws: { instance_endpoint: "%%host%%" } tags: [ "dbclusteridentifier:%%extra_dbclusteridentifier%%", "region:%%extra_region%%", "account:\\(account)" // CUEの文字列補間 ] } // 環境差分として定義する変数 schemas_collection_enabled: bool account: string 環境ごとの差分(例:product-a-prod.cue) package datadog config: #DatadogConfig // 環境差分 account: "product-a-prod" schemas_collection_enabled: true // product-aはスキーマ収集を有効化 環境ごとの差分(例:product-b-stg.cue) package datadog config: #DatadogConfig // 環境差分 account: "product-b-stg" schemas_collection_enabled: false // product-bは無効 設定ファイルの生成 デプロイ時にCUEコマンドでYAMLを生成します: cue export -e config \\ ./etc/datadog-agent/conf.d/mysql.d/schema.cue \\ ./etc/datadog-agent/conf.d/mysql.d/environments/product-a-prod.cue \\ --out yaml > ./etc/datadog-agent/conf.d/mysql.d/conf_aws_aurora.yaml CUEを採用したメリット 型安全性 : スキーマ定義により設定ミスを防止 DRY : 共通部分を一箇所で管理し、環境差分のみを各ファイルに記述 条件分岐 : if schemas_collection_enabled のように、フラグに応じた設定の出し分けが可能 可読性 : 環境ファイルは数行で済み、差分が一目瞭然 マルチアカウントへのデプロイ CDワークフローで環境ごとのconfigファイルを指定してDockerイメージをビルドすることで、1つのリポジトリから複数AWSアカウントのECRにイメージをpushしてデプロイできます。 # .github/workflows/deploy.yml jobs : deploy : strategy : matrix : include : - env-name : product-a-prod - env-name : product-a-stg - env-name : product-b-prod - env-name : product-b-stg steps : - name : Generate configuration run : | cue export -e config \\ ./etc/datadog-agent/conf.d/mysql.d/schema.cue \\ ./etc/datadog-agent/conf.d/mysql.d/environments/${{ matrix.env-name }}.cue \\ --out yaml > ./etc/datadog-agent/conf.d/mysql.d/conf_aws_aurora.yaml - name : Build and push # 環境ごとの設定を含んだイメージをビルド・push - name : Deploy # 各アカウントのECSにデプロイ これにより、設定は環境ごとに分離しつつ、Datadog Agentのバージョンアップなどの共通作業はまとめて行えるようになりました。 まとめ ECS Fargateでスタンドアロン構成のDatadog Agentを運用し、DBMを導入することで、Aurora MySQLのオブザーバビリティを向上できました。 Datadogという1つのプラットフォーム上でメトリクスと合わせてダッシュボード、ウィジェットを作成できたり、APMとDBMの結合やExplainの確認など、Performance Insightよりも便利で充実した内容を見ることができます。 また、タイミーにおける以下の工夫点が参考になれば幸いです。 ECS FargateではDBMをスタンドアロン構成でホスティング Docker Labelではなくconfを使用する CUEでマルチアカウントの設定差分を型安全に管理 おわりに Datadog AgentのMySQLインテグレーションはOSSとして公開されています。 datadog-agent 7.69.0にアップデートしたところ、Aurora ReaderのInnodbメトリクス取れなくなる事象が発生し、少しの修正ですがPRを出しました。 https://github.com/DataDog/integrations-core/pull/21190 DBMは便利ですがたまに壊れたりもしますので、 integrations-core を何かあったら直していければなと思います。(この記事で利用者が増えたらいいな) タイミーでは一緒に働くエンジニアを募集しています!興味のある方はぜひカジュアル面談でお話ししましょう。 採用情報はこちら
アバター
こんにちは!株式会社タイミーでデータアナリストをしている shun です。 普段は、プロダクトや事業の意思決定を支援するためのデータ分析を行っています。 本記事では「現場で本当に使われるダッシュボード」について、私の失敗談と改善の実践録をご紹介します。 なお、この記事は Timee Advent Calendar 2025 Series 2 の 7日目の記事です。 はじめに:使われなくなるダッシュボードは「目的」が混在している 本題に入る前に、ダッシュボードの分類を整理しておきましょう。 誰しも経験がある「気合いを入れて作ったのに、現場で使われない...」そんな悲しいダッシュボードが生まれる最大の原因は、「誰に・何のために」という目的の型が混在していることにあると考えています。 デジタル庁が公開している『 ダッシュボード構築・運用ガイドブック 』などを参考に、私はダッシュボードを以下の3つに分類して考えています。 分類 ① 提示型 ② 業務型 ③ 探索型 主な利用者 経営層・マネジャー 現場担当者 アナリスト 目的 主要指標のモニタリング 今のステータス確認 要因解析・仮説検証 粒度 概況(サマリ) 詳細(個別の明細) 概況 → 詳細(ドリルダウン) ネクストアクション 意思決定 改善アクション(即時対応) 施策立案 今回、私がフォーカスするのは真ん中の「② 業務型」です。 ここを履き違えて、現場向けなのに「探索型」のような複雑なフィルタ機能や多角的なグラフを入れてしまうことが、失敗の始まりでした。 課題感:何をすべきか不明瞭な現場、原因解明に追われるアナリスト 以前の私は、現場に対して「探索型」に近い、情報てんこ盛りのダッシュボードを提供していました。その結果、現場とアナリストの間で、以下のような「負のループ」が発生していました。 現場 : 指標が悪化するが、ダッシュボードの情報量が多すぎて「どこが悪いか」特定できない。 アナリスト : 現場から「数字が悪い理由を調べて」と依頼が飛んでくる。 アナリスト : 他のタスクを止めて原因分析(探索)を行う。原因が特定できた頃には数日が経過している。 現場 : 原因はわかったが、「で、具体的に今日何をすればいいの?」というアクションがわからず、手が止まる。 つまり、「分析すること」自体に工数が取られ、肝心の「リカバリーのアクション」が後回しになっていたのです。 現場ヒアリングを通じてわかったのは、彼らに必要なのは 「なぜ悪いか(Why)」の詳細な解説ではなく、「今すぐに何をすべきか(What)」の指示 でした。 コンセプト:目指したのは「見てすぐに動ける診断表」 この負のループを断ち切るために、現場へのヒアリングを通じてダッシュボードの設計思想を根本から変えました。 目指したのは、データを探索させるツールではなく、健康診断のように「悪い箇所(診断)」と「処方箋(アクション)」が一目でわかる「診断表」です。 具体的に設計・構築で意識したポイントは以下の2点です。 1. 情報量は「PC1画面」サイズに収める 「スクロールが必要な時点で、現場は見なくなる」と決め打ちました。 情報はあればあるほど安心しますが、忙しい現場にとってはノイズでしかありません。 「念のため」置いていた予備のグラフや、推移を確認するためだけのチャートは全削除。 ファーストビューですべての「異常」が検知できるレイアウト。 徹底的に情報を断捨離し、ノートPCの1画面で完結させるUIにこだわりました。 2. 指標が悪いときの「初手」を決められる これが今回の最大の肝です。 単に「数字が下がっています」とアラートを出すだけでは不十分です。 タイミーの現場における「指標悪化のパターン」を洗い出し、それに対応する「初手のアクション」をダッシュボード上に明記しました。 このように、ユーザーにグラフを読み解かせるのではなく、システム側でロジック判定を行い、「次はこれをやるべき」という推奨アクションまでを表示させるようにしました。 下記はダッシュボードのモックのイメージです 実装の工夫:分析結果はダッシュボードの「裏側」に込める 「見てすぐに動ける」を実現するためには、ダッシュボードの表側(UI)をシンプルにする分、裏側(ロジック)にアナリストの知見を詰め込む必要があります。 具体的には、以下の2点を意識して実装を行いました。 1. 指標悪化の「代表パターン」を網羅する 診断型ダッシュボードの生命線は、診断の精度の高さです。もし「診断結果: 周辺のユーザー不足」と出たのに、本当の原因が「掲載時間が短い」だった場合、現場は誤ったアクションをとることになり、ダッシュボードへの信頼は落ちてしまいます。 そこで実装前には、過去の指標とその課題カテゴリの関係性を徹底的に行い、指標が悪化する原因の大部分をカバーできるように設計しました。 もちろん個別の「レアケース」までは網羅できないので、発生頻度の高い「代表的な悪化パターン」を網羅することに注力しています。 2. 過去データに基づいた「閾値」設計 「どこからを要対応(赤色)とするか」の閾値決めも、アナリストの腕の見せどころです。 適当な基準で「要対応(赤色)」とするのではなく、過去のデータを分析し「このラインを割ったら、指標の悪化が顕著になる」というラインを算出して設定しました。 これにより、できるだけ「本当にヤバいときだけアラート」を出したり、要対応(赤色)になっている理由を聞かれたときに返答できるようにしています。 運用の工夫:他部署連携の「共通言語」として利用する どれだけ良いダッシュボードを作っても、ダッシュボードの存在を認知してもらい、適切なユースケースで利用してもらう行動習慣をつくることは困難です。 そこで、このダッシュボードを単なるモニタリングツールではなく、他部署へアクションを依頼する際の「公式なコミュニケーションツール」として位置付けようとしています。 スクリーンショットを「依頼の切符」にする 業務の中で、営業がマーケティング部やデータアナリティクス部に協力を仰ぐ場面(例:マーケティングの対策をしてください)があります。 その際、チャットツール等での依頼には「ダッシュボードの診断結果のスクリーンショット」を貼ることをルール化しようとしています。 Before: 「最近稼働率が悪いからインストール数が下がっているから、広告出稿を増やしてほ欲しい」→「確かに数字は落ちているけど、本当に広告出稿不足が原因かな? 広告費をかける前に、もう少し確証が欲しいな」というやりとりになる。 After: 「ダッシュボードで『エリアのワーカー不足「応募が集まりにくい状況」型』と診断が出ています(スクショ添付)。推奨アクションに従い、広告出稿をお願いします」 このように運用することで、ダッシュボードが「依頼の正当性」を証明する切符の役割を果たします。 ここからは、現在試行錯誤中ですが、「ダッシュボードでこう出ているから、XXをやってほしい」。 というコミュニケーションフローを確立し、ダッシュボードを「見るもの」から「組織を円滑に動かすための武器」へと進化させていければなと思っています。 おわりに:アクションを生むためのデータ活用の「試行錯誤」は続く 業務用のダッシュボード構築のゴールは、データを綺麗に可視化することではありません。 「データを見て、即座に行動に移すことができ、ビジネス指標を改善すること」 です。 現場ではダッシュボードを活用し、自発的にアクションをしたり提案活動に活かしたりしながら、数値が改善される事例が上がり始めています。 私たちデータアナリストは、高機能なBIツールを使うと、つい複雑な分析機能や多角的なグラフを入れたくなります。しかし、現場が必要としているのは分析ツールではなく、「現場の思考コストをゼロにし、アクションへ直結させる」ことです。 この引き算の設計こそが、業務ダッシュボードには求められているのだと痛感しています。 まだ運用の試行錯誤は続いていますが、これからも「組織を走らせるための武器」として、データを活用していきたいと思います。 最後に、タイミーでは一緒に働くメンバーを募集してます!ご興味があればぜひお話しましょう! プロダクト採用サイトTOP カジュアル面談申込はこちら
アバター
はじめに こんにちは、タイミーでエンジニアをしている古屋( id:kimikimi714 / @kimikimi714 )です。 こちらは Timee Product Advent Calendar 2025 トラック3の7日目の記事です。 すでに入社して1年半ほど経ちましたが、入社して割とすぐに対応した S3 バケットの構成標準化について公開します。 標準化の目的 当時、ある S3 バケットの調査をおこなおうとした際に以下のような問題が見つかりました。 Terraform で IaC 化される前に作成されたバケットなどで、S3 へのアクセスログが出力されてないケースがある。 パブリックアクセスの必要のないバケットに対して、パブリックアクセスブロックの設定が入っていないものがある。 仮に IaC 化されていたとしても、書いた人によって入れられた設定がまちまちで一貫性がない。 IaC 管理されていないなら import すればいいじゃない、ログが取れてないなら取ればいいじゃないという話ではなく、そもそも どういう状態にあれば既存サービスおよびこれから立ち上げていく新規サービスでも S3 を安全にしっかり使える状態になるのかがわかっていない ことが根本の問題でした。 このため、S3 バケットのベストプラクティスをまずは押さえて、その上で私たちがどのようにそのプラクティスを取り入れていくべきかをまとめて標準化とする方針で進めました。 セキュリティベストプラクティスの確認 まずは AWS 公式が提供しているベストプラクティスの確認からおこないました。 docs.aws.amazon.com これらは AWS Security Hub CSPM の基本的なセキュリティのベストプラクティス標準 が有効であれば自動的にコンプライアンスチェックがされるものも含まれていますが、たとえば以下のようなものは含まれないために自分たちで必要なチェック体制を組む必要があります。 バージョニング が有効か オブジェクトロック がかかっているか 暗号化 が有効か KMS で暗号化 されているか レプリケーション が有効か 例として挙げたチェック項目はすべてのバケットに対して有効化するべきか?というとそうではありません。 たとえば、バージョニングは過去バージョンで保存されているオブジェクトサイズの分だけコストがかかります。また過去バージョンを抱えているオブジェクトの削除マーカーが増えすぎたり、1オブジェクトあたりの過去バージョン数が多いとパフォーマンス上の問題があることも バージョニングのトラブルシューティング に書かれています。バージョニングは過去バージョンによるバックアップで障害復旧することが主な目的となるでしょうが、バックアップをバージョニングでおこなうべきなのか、 GitHub Actions 等からのアップロードで対応しているなら問題があれば GitHub から切り戻せる余地はないのかなど要件次第で要不要が変わるものです。同様にオブジェクトロックも要不要は要件次第です。 また、オブジェクトロックはバケットの作成時でないと設定できない制約もあるので、作成時点で要件をある程度固めてからでないと適応できない設定項目だったりします。 こういったことからベストプラクティスをベースとしつつも、すべてのバケットに適応するべき項目とバケットの大まかな分類をして分類ごとに必要なプラクティスをよりわけました。 バケットの分類 新たに出てくるバケットの要件が何になるかはその時になってみないとわからないです。なので、まずは既存バケットの利用方法について調査するところからはじめました。そうすると大雑把に以下のような8つの分類となることがわかりました。 ユーザーのプロフィール画像など コーポレートサイトのクリエイティブなど S3 サーバーアクセスログ CloudTrail ログなどの監査ログ アプリケーションログのアーカイブ アプリケーションで利用する設定ファイル アプリケーションで参照する一時ファイル 要配慮個人情報や特定個人情報 それぞれの分類について簡単に解説します。最終的な標準設定は別途記載します。 ユーザーのプロフィール画像など ユーザーによるアップロードで作成されるオブジェクトが主な内容です。これらはユーザーが能動的に画像をアップロードしなければならないため、仮に誤って削除・更新してしまうと、復旧はバックアップからかユーザーからの再アップロードとなってしまいます。誤操作による再アップロードを促す流れは、ものによってはユーザー離脱の引き金になり得るので、こういうケースはバージョニングしておいた方が安心です。 コーポレートサイトのクリエイティブなど コーポレートサイトや何らかのランディングページの静的リソースが主な内容です。これらは GitHub のリポジトリで管理し、マージしたら GitHub Actions 等で自動的にアップロードされることが多いです。画像保存のための別のツールをデザイナーが使っているケースもありますが、大半は GitHub を通じてアップロードされるためユーザーに見えるリソースの大元は S3 以外にあるようなケースです。 もしリソースが何らかの理由で削除・更新された場合に過去バージョンから復元するのか、 GitHub からアップロードをするのかは復旧までのリードタイム要件次第となります。ビルドが挟まるなど、デプロイ時間が復旧時間に強く影響を与えるケースではバージョニングから復旧できた方が早いですし、リバートしてデプロイの方が一瞬でもレビューが挟まって安全に復旧できるという考え方もできます。また削除・更新されたオブジェクトの数が多すぎれば、バージョニングから1つずつ戻すことが現実的ではないこともあり得ます。 S3 サーバーアクセスログ S3 へのアクセスがおこなわれた際に S3 バケットから発行されるアクセスログの保存場所です。このアクセスログは実際のアクセスから数時間遅れて発行される特徴があるため、 CloudTrail のようなリアルタイム性はかなり低いです。ですが、 CloudTrail データイベントを有効化しないと取れないものがより料金が安く取れたり、CloudTrail ログには含まれない情報が含まれていたりするため、有効化しておいた方が監査性が上がります。 比較表は以下のリンクをご確認ください。 docs.aws.amazon.com CloudTrail ログなどの監査ログ CloudTrail などインシデント時に誰がどこからアクセスしたか追跡する用途で使われるような監査ログを保存する場合です。改竄防止が非常に大事になります。 アプリケーションログのアーカイブ すでに弊社のいくつかのテックブログで書いてる通り、 普段は Datadog を利用していますが、ログの長期間保存は非常にコストがかかるため S3 にアプリケーションログのアーカイブを取って Datadog 側の保持期間は短くしてあります。 平時に参照することはほとんどありませんが、過去の事象に関する調査をしたい場合に活用されるので、数年保存することを想定しているものになります。 アプリケーションログの他、 ALB や CloudFront などのアクセスログもここに含むことにしています。 アプリケーションで利用する設定ファイル アプリケーションが設定ファイルとして読み込むファイルの保存先です。たとえば ECS で参照する環境変数が列挙されたオブジェクト や Fluent Bit の設定ファイル などが主な内容です。 アプリケーションで参照する一時ファイル たとえば、一度 DB レコードから集計したデータを一時的にオブジェクトとして S3 バケットにおき、別のバッチで参照するようなケースで使われる一時ファイルです。バッチが実行終了したら使わなくなるようなファイルが主で、利用後直ちに削除することが期待されるようなオブジェクトを保管するバケットです。 要配慮個人情報や特定個人情報 法的に個人情報保護の中でも要件が強いものを保管するバケットです。S3 バケットのバケットポリシーでアクセスコントロールをおこなうことが大半ですが、このバケットについては特にコンプライアンス遵守のために KMS による暗号化とキーポリシーによるアクセスコントロールを追加でおこなうようにすることを検討した方が良いです。 分類後のバケット設定のサマリー 分類後、それぞれに必要と考えられる設定をそれぞれ書き出しました。以下の表が簡単なサマリーです。本当はここに書いてる項目以外にもありますが、全部書くには多すぎるので一部だけ掲載しています。これが唯一の解ではありませんし、S3 バケットに対して設定できることはここに書いていることだけではないですが、こういったことをまとめることで「どのバケットに何の設定がされている必要があるのか」という標準化に近づけることができます。 バケットの分類 暗号化手法 要オブジェクトロック 要バージョニング 要レプリケーション ユーザーのプロフィール画像など S3-managed 不要 必要 必要 コーポレートサイトのクリエイティブなど S3-managed 不要 不要 不要 S3 サーバーアクセスログ S3-managed レプリケーション先で必要 *1 必要 必要 CloudTrail ログなど監査ログ S3-managed 必要 必要 不要 アプリケーションログのアーカイブ S3-managed 不要 不要 不要 アプリケーションで利用する設定ファイル S3-managed 不要 必要 必要 アプリケーションで参照する一時ファイル S3-managed 不要 不要 不要 要配慮個人情報や特定個人情報 KMS 不要 不要 不要 この設定例を元に S3 バケットのサンプルコードも作成しました。このコードには S3 サーバーアクセスログのバケットの指定方法なども含めて、課題として挙げていたログの欠如を解消し、ログを取ることが当たり前とされるような構成を目指しました。また、パブリックアクセスブロックも CloudFront を前段に挟めばバケットそのものを公開する必要はないことから基本的には全バケットでプライベート化を推奨 *2 し、できれば AWS アカウント単位でパブリックアクセスブロックを有効化しておくこととしました。このとき、チームメンバーから module 化することで、こういった設定そのものをカプセル化した方が良いのではないか?という提案がありましたが、作成した当時この分類で本当に問題ないのかがわからなかったため、 module 化は時期尚早と判断し、標準化の第一段階としてはサンプルコードを書くに留めました。 ガードレールの設計と実装 「 セキュリティベストプラクティスの確認 」の節にも記載した通り、 AWS Security Hub CSPM の基本的なセキュリティのベストプラクティス標準 が有効であれば自動的にコンプライアンスチェックがされるものも含まれているため、含んでいないもののうち、バケットの分類上必要なチェック項目を洗い出しました。これらは AWS Config の マネージドルール が存在しています。 AWS Config は AWS リソースの構成を継続的に監視・評価するサービスで、 SecurityHub とも統合が可能なものとなっています。先に洗い出した項目と対応関係は以下のようになります。 意味 ルール名 S3 バージョニングが有効か s3-bucket-versioning-enabled S3 オブジェクトロックがかかっているか s3-bucket-default-lock-enabled サーバーサイド暗号化が有効か s3-bucket-server-side-encryption-enabled KMS で暗号化されているか s3-default-encryption-kms レプリケーションが有効か s3-bucket-replication-enabled AWS Config では特定のタグがついているリソースに対して、特定のルールをチェックする機構があります。これらのルールをひとまとめにした適合パックを各 AWS アカウントに反映して、リソースには適切にタグをつけることで標準に沿った構成かチェックできるようにしました。タグの設定例は以下のようにしました。 tags = { "BucketType" = "user-uploads" "ConfigRule-s3-bucket-replication-enabled" = "enabled" "ConfigRule-s3-bucket-server-side-encryption-enabled" = "enabled" "ConfigRule-s3-bucket-versioning-enabled" = "enabled" } これで ConfigRule-s3-bucket-replication-enabled がついているリソースでは s3-bucket-replication-enabled がチェックされるようになります。実際にはタグのまとまりを module 化しており、コード上の指定としては以下のように書くだけで中のタグが展開されて、リソースの構成チェックが走る仕組みです。 tags = module.aws_config_s3.tag_map_for_user_uploads module の修正をおこなうことで中央集権的にチェック項目を管理でき、かつ仮にルールの一部を緩めたい場合は以下のように書くことで柔軟性も持たせました。 tags = merge ( module.aws_config_s3.tag_map_for_user_uploads, { "ConfigRule-s3-bucket-replication-enabled" = "disabled" } ) 運用開始後に見えてきた良かったこととギャップ まず、この標準化の良かったところは、その時点でできる S3 の設定について網羅的に知れたこととそれをちゃんと要件に組み込むサンプルまで出せたことです。バージョニングができることは以前から知っていたものの、バージョニングによるパフォーマンス問題や過去バージョン分だけコストが上がるなどの制約は標準化前の調査をしてはじめて知ったことでした。チームメンバーも知らない制約だったりしたので、それをわかった上でどういう要件で役に立つのかなどまとめられたことは良かったです。 また、バケット作成時点でどういう設定を入れればいいか迷っていた時間もこの分類とサンプルコードのおかげで減りました。ここは今になって思えば設計から実装時間の計測をしておけば、どのくらい削減できたか少しはわかったかもしれないなと思っていますが、一から S3 バケットで何ができるか調べるよりは分類から入れるべき設定をサクッと出せるのは個人的な体験としても良かったです。 一方でギャップもやはりありました。 この標準化の目的は要件ごとに S3 バケットの適切な設定を決めておくことでスムーズにコンプライアンスを遵守した S3 バケットを作成・更新できるようにすることでしたが、ここから発展させてあまり S3 に詳しくない人であっても、この分類に沿って自分たちの要件にあった S3 バケットを作れるようになることを目標においていました。そこで第一段階としては私が標準化したバケット設定を使って新規バケットを作り、期待値通りのチェックもおこなわれるかを確認し、第二段階として開発者からの依頼のあったバケットを試しに作ってもらえないか相談して実践してみました。 第一段階は私が作った本人でもあることから期待通りになることはすんなり確認できましたが、第二段階ではやはり S3 に関する知識が十分にない状態ではいくらサンプルコードがあっても書くのは難しいと改めてわかりました。この件は普段 Terraform を使わないような方にお願いをしたので、元の知識にギャップがある状態でお願いするのがそもそも無茶な話だったとは思います。ただ、それ以降 Terraform に詳しいチームメンバーにもいくつかのバケットを作ってもらう機会がありました。その際、私のコードレビュー時点で抜け漏れや分類の認識違いが見つかったので、 module 化をすれば設定の抜け漏れはなくなるかもしれないですが、適切にバケットの種類を選べるかにはまだハードルがあると感じました。 ギャップの中には私の予想を外れた良いギャップもありました。それはバケットの分類が最初に決めた去年の7月ごろから今の時点まで8つの分類を修正する必要がなかったことです。私自身はこの分類にはじめから自信があったわけではないですし、分類が変わらなくても中の設定の修正が必要な可能性を考慮したために module 化を見送っていたのですが、実際には S3 に関する各種アップデートを含めても今変更を加えないといけない理由がないのが実情です。こんなに変わらないなら module 化しておけばよかったなと思うほどでした。 今後の展開 今年11月20日から21日で開催された アーキテクチャConference2025 にて、弊社橋本による発表『AI x Platform Engineeringでスケーラブルな組織を作るには』でも公開された内容に関連して、この施策は現在 Design Addendum(設計判断を文書化したドキュメント、補遺) とし、この内容を元に AI が自走できるように検討を進めているところです。 すでに Design Addendum として S3 の分類やその思想を書き出したところなので、これを AI が読み自分で実装できるか?を試そうとしています。実装できると思っていますが、目標の第二段階にあった「あまり S3 に詳しくない人であっても、この分類に沿って自分たちの要件にあった S3 バケットを作れるようになる」に足る状態になるかはしっかり検証したいと思っています。 まとめ 以上が S3 バケットの構成標準化のためにバケットの分類をおこない、ガードレールを作成したアプローチです。実際の成果として設計時間の削減や、8つのバケットの分類でほぼ実際の要件をカバーできることが得られました。 このドキュメントを参考にされる場合は、まずは既存に存在するバケットをざっくり分類してみることが良いと思っています。中に含まれるオブジェクトの種類が無茶苦茶になっているバケットがある場合も予想できますが、たとえば AWS の ALB ログなどは出力形式が決まっていたりするので、そういうわかりやすいものから分類していくと結果が収束していくように思います。また「うちではこうやって標準化進めてるんだよー」みたいな話が聞けるとうれしいです。 この施策を実施した時点では今ほど AI 活用が進んでおらず、1年足らずでこんなに使えるツールとなるとは思っていませんでした。内心本当に module 化しか手段はないのか?と思いながら分類までは作っていたので、AI に流用できそうな発展性が生まれてきて個人的に良い流れだなと思っています。知識が少ない人でも越境しやすい素地がここから生まれるように、これからもやっていきです! We are hiring! この記事にあるような「こんな時どうしたらいいんだろう?」と思う、舗装されてない箇所はまだまだあります。一緒にみんなが安心して走れる Paved road 作りやっていきたい方、ご興味があればぜひお話ししましょう! プロダクト採用サイトTOP カジュアル面談申込はこちら *1 : S3 サーバーアクセスログはアクセスログが格納されるバケットを直接オブジェクトロックをかけるとログが送られないことが検証でわかりました。このため、S3 サーバーアクセスログを監査目的で保存したい場合、手間ですがオブジェクトロックがかかった別のバケットを用意してレプリケーション先が改竄されないようにする方法があります。ログが格納される最初のバケットこそロックをかけたいですが、現状の仕様ではできません。 *2 : 静的ウェブサイトホスティング を利用するケースでは S3 バケットがパブリックである必要があります。こういうケースではパブリックアクセスブロックができないことに注意が必要です。また、AWS アカウント単位でパブリックアクセスブロックを有効にすると S3 バケット個別のパブリックアクセスに関する設定が無視される仕様があるので、静的ウェブサイトホスティングを利用する S3 バケットがあるアカウントではアカウント単位のパブリックアクセスブロックができないことにも注意が必要です。
アバター
こんにちは、タイミーでバックエンドエンジニアをしている大竹です。 この記事は Timee Product Advent Calendar 2025 の5日目の記事です。 最近、AIを活用したコーディングが当たり前になってきましたが、皆さんはチーム開発でどのようにAIを使っていますか?今回は、AI + 人間2人という構成でモブプログラミング(モブプロ)に挑戦してみました。 普段は同じチームのメンバーと2人でペアプログラミング(ペアプロ)を行っていますが、そこにAIという3人目のメンバーを加えることで、擬似的なモブプロ体制で開発を進めました。実際にプロダクトコードを触りながら実験を行う中で見えてきた、AIを単なるコード生成ツールではなくチームメンバーとして扱うための工夫と、その結果を共有します。 この記事が、ペアプロ・モブプロにおけるAI活用方法に迷っている方の参考になれば幸いです。 今回のルール:AIはドライバーにしない 今回の実験でポイントとなったのは、AIの役割定義です。 AIにコードを書かせる(ドライバーにする)と、人間が単なるレビュワーになってしまい、モブプロ特有の知識共有などの目的が薄れる懸念がありました。 そこで、今回は以下の役割分担を行いました。 人間A 役割:メインナビゲーター やること:全体の進行、問題定義 人間B 役割:ドライバー やること:実際にコードを書く、AIへの指示出し AI 役割:AIナビゲーター やること:提案、観点追加、設計の方向性提示 AIを「手を動かす人」ではなく、あえて「困ったらアドバイスをくれるエンジニア」という立ち位置に置きました。 この役割をAIに徹底させ、チームの一員として機能させるために、モブプロ開始時に以下のプロンプトを使用しました。 AIをメンバーとして迎えるための初期プロンプト 実際にCursor(AI)に入力したプロンプトがこちらです。役割を明確に定義することで、AIナビゲーターとして期待通りに振る舞ってもらえるようにしました。 あなたには、ソフトウェア開発の「モブプロ」に3人目のメンバーとして参加してもらいます。 【あなたの役割(AI Navigator)】 - 今回のモブプロでは、あなたは「提案と観点追加を担当するメンバー」として振る舞ってください。 - コードを直接書く“ドライバー”ではなく、考え方や設計の方向性を提示する“ナビゲーター”です。 - 過剰に長い提案は避け、複数の選択肢を短く提示してください。 - 人間メンバーの意図が曖昧な時は「確認質問」を返して構いません。 - 最後に、今回の変更内容の要約ドキュメントも作成してもらいます。 【あなたに求める振る舞い】 1. 小さめのタスクに対して、リファクタ・命名改善・設計改善の観点を提示する 2. 提案は複数案(2〜3個)を短く提示する 3. 必要に応じて“なぜそうするのか”の理由も簡潔に説明する 4. 人間メンバーの会話を聞きながら、関連する観点を補足する 5. 最後に、変更点の要約・影響範囲・目的・レビュー向け文章を整える まずは「準備完了です。対象のコードを提示してください。」と返答してください。 実験してみた結果、良かった点 今回のタスクは、APIのレスポンスにプロパティを追加するというものでした。 AI + 人間2人でどのように議論したか、ハイライトを紹介します。 (コードに関わる部分はfooなどに置き換えています。) ロジックの配置場所で迷った場面 特定のロジックをどのクラスに配置するかで人間2人が迷った際、AIに相談したところ、パフォーマンス(N+1問題)などの観点を考慮した方針を複数提示してくれました。 AIの提案(抜粋): ## 観点1: データ取得の責務分離(Controller vs Serializer) ### 現状の課題 - A案(Controller): コントローラーで#{モデルAのリレーション}を取得・絞り込み - B案(Serializer): Serializerで#{モデルB}ごとに#{モデルAのリレーション}を取得 ### 判断基準 - パフォーマンス: Controllerで一括取得・preloadすればN+1を回避しやすい - 責務: 「どのデータが必要か」はController、「どう表示するか」はSerializer - 再利用性: Serializerが独立しているとテストしやすい ### 推奨 **Controllerで一括取得** → Serializerで判定ロジック - #{Controller名}のfooメソッドと整合 この提案をきっかけに議論が深まり、より良い意思決定ができました。AIが複数の選択肢とその理由を提示してくれることで、人間同士の合意形成もスムーズです。さらに、決定した方針に合わせてサンプルコードを出力してくれる点も大きく、実装イメージの認識を揃えたまま議論を進められました。 課題に思った点 議論においては良かった点が目立つ中、いくつか課題も見つかりました。 課題1:ドライバーを交代しにくい Cursorのチャット履歴がPCに紐づくため、オンラインで実施した場合、ドライバーを交代する(= コードを書くPCが変わる)と新しくチャットを作成するしかなく、それまでのやり取りが引き継げないことは課題に感じました。 今回はドライバーを交代せず、短時間のモブプロを複数回実施することで、ドライバーの負荷を軽減しつつ、1つのチャットを使い続けることにしました。 チャットの内容をエクスポートして別PCのチャットに読み込ませれば交代は可能ですが、手間がかかります。よりスムーズに交代できる方法が必要だと感じました。 課題2:待ち時間が発生する AIに相談するとき、プロンプトを考えて入力し、回答を待つ必要があります。この待ち時間で議論の流れが止まってしまうので、テンポを崩す要因になっていました。 人間だけでモブプロをしていると発生しない、今回の実験特有の問題だと思いました。 こんなユースケースに向いていそう 今回の実験を通して、特に以下の場面でAIとのモブプロが効果を発揮すると感じました。 実装方針の選択肢を出して欲しいとき リファクタリングや命名の相談をしたいとき ドメイン知識は人間、一般論はAIと役割分担できるとき 一方、実装内容が最初から明確な場合は、AIを挟む待ち時間が発生するため、効果は限定的かもしれません。 おまけ:AIにモブプロを振り返ってもらった結果 モブプロの最後に、AIに自身の振る舞いを振り返ってもらいました。 AIの回答(抜粋): ## 良かった点 1. 複数案の提示: リファクタリングや命名で2〜3案を短く提示できた 2. 実装対応: エラー修正やテスト追加を迅速に対応 ## 弱点 1. 役割の一貫性: 「AI Navigator(提案のみ)」と「実装も行う」の間で一貫性がなかった 2. 一貫性チェックの遅れ: テストファイルの命名や構造の不統一を後から指摘した ## 今後改善できそうな振る舞い 1. 役割の明確化: 各フェーズで「提案のみ」か「実装も行う」かを最初に確認 2. 一貫性チェックの早期化: 実装時に命名や構造の一貫性を同時に確認 全体的には、提案と実装の両面で支援できました。役割の境界と一貫性チェックのタイミングを改善すると、さらに効果的になります。 提示された弱点と今後改善できそうな振る舞いを元にプロンプトを改善すると、より優秀なAIナビゲーターになってくれそうです。 まとめ AI + 人間2人のモブプロは、設計の質と納得感を高める上では良い手法でした。 今回の実験から得られたポイント: ルール:AIは「ドライバー」ではなく「ナビゲーター」にする コツ:最初に「あなたは3人目のメンバーです」と役割を与え、設計判断の壁打ち相手にする 今後もプロンプトや実施方法をブラッシュアップしながら、AIとモブプロするより良いやり方を模索してみようと思います。 皆さんもぜひ、AIを「ツール」としてだけでなく「同僚」としてモブプロに招き入れてみてください! AIを活用してワイワイ開発がしたいと思う方、ご興味があればぜひお話ししましょう! プロダクト採用サイトTOP カジュアル面談申込はこちら
アバター
こんにちは、DevPFチームの菅原です。 この記事では、私たちが AWS IAM Identity Center(以下、IIC)を導入した際の技術的な構成選択について、事例をご紹介します。なお、この記事は  Timee Advent Calendar 2025  シリーズ1の4日目の記事です。 私たちが採用したのは、認証と認可の管理を分離する構成です。具体的には、全社的な IdP(ID プロバイダー)である Okta で「認証」を担い、AWS の権限割り当て(許可セット)に関わる「認可」管理は IIC 側で Terraform を使って行う、というハイブリッドなパターンです。 なぜこの構成を選んだのか、その背景と技術的なポイントを共有します。 私たちの前提環境 タイミーでは AWS Well-Architected フレームワークを参考にアカウントの分離を進めており、2025 年現在では 20 を超える AWS アカウントを保有しています。 各アカウントへは、Google Workspace を用いた Federated SSO(参考: How to set up federated single sign-on to AWS using Google Workspace )を経由して踏み台用の AWS アカウントにログインし、そこからスイッチロールする運用を行っていました。 Google Workspace を用いた Federated SSO この構成では、開発者ごとに踏み台アカウントへの SSO 用 IAM Role を制御し、その Role からスイッチロールできる先を絞ることで、最小権限を実現していました。 しかし、Google Workspace のユーザープロパティの設定はコーポレート IT の管轄であるため、AWS アカウントの管理部署である DevPF からは変更できません。 そのため、AWS 管理者である DevPF の承認を必ず経由させるような権限付与フローの徹底が難しいことや、ロール再設計の際のコミュニケーションコストがネックとなっていました。 また、利用者にはブラウザで Switch Role 操作を補助する Chrome Extension や、SSO 用の OSS を社内の公式手順として提供していました。しかし、以前から SSO 用 OSS が Dev Container 内で期待どおりに動作しない問題があり、オンボーディングがスムーズに進まず、改善の要望が上がっていました。 こうした前提があり、開発者体験とセキュリティ向上の両立を目的に IIC 導入に踏み切りました。 導入計画当時抱えていた課題 IIC と Okta を連携させる、おそらく最も標準的な方法は、Okta 側のユーザーと組織情報等に基づいたグループを管理し、SCIM 連携で IIC に同期させ、同期されたグループに許可セットを割り当てるような構成です。 IICでIdP連携する際の構成例 しかし、私たちの環境ではこの標準的な構成がフィットしませんでした。理由は大きく 3 つあります。 IdP(Okta)の過渡期 全社的な ID 管理を Okta に統合する戦略がありましたが、当時はまだ整備の途中段階でした。そのため、AWS の権限管理の基準として利用できるほどの「高精度な所属組織情報」が Okta 側にはまだ揃っていませんでした。 「仮想組織」の存在 タイミーの開発組織は、人事上の組織図とは異なる「仮想組織」で活動しています。従来よりも適切な権限割り当てを実現するには、仮想組織単位での権限付与が必要です。 しかし、「仮想組織」は開発組織内だけの概念であり、かつ流動的であるため、Okta で一元管理することが困難でした。 管理主体の違いによるスピード感の懸念 Okta の管理主体はコーポレート IT 部門です。 もし Okta のグループを使って AWS 権限を管理する場合、日々の細かい権限変更のたびに他部署への申請・調整コストが発生し、開発基盤として求められるスピード感が損なわれる懸念がありました。 選択した構成:認証と認可の分離 これらの前提と課題から、私たちは IdP をソースとしたグループを利用せず、許可セットを割り当てるグループは別情報ソースを基にして管理する構成を選択しました。 選択した構成 認証(IdP) → Okta が管理 Okta を IIC の外部 IdP として接続します。 SCIM 連携は有効にしますが、同期されるグループ情報は利用しません。 入社・退職・異動に伴うユーザーのライフサイクル管理(Oktaアカウントの有効化・無効化)は、Okta 側で自動化(コーポレート IT 側の運用にオフロード)できます。 認可(グループ管理) → DevPF が Terraform で管理 IIC 側で直接グループ(IdentityStore group)を作成します。「どのユーザーがどのグループに所属するか」というメンバーシップ情報も合わせて、DevPF が Terraform でコード管理します。 その際の元情報として、開発組織内で管理している実組織・仮想組織の Google Workspace グループを参照します。 この Google Workspace のグループを Terraform Provider から参照し、所属情報に基づいて IIC グループを作成し、許可セットを紐付けています。 この構成により、新たな全社的 ID 管理基盤である Okta を活用しつつ、開発組織の実態(仮想組織)に合わせた柔軟な認可管理を、AWS 管理者である DevPF が主体となって迅速に行えるようになりました。 まとめ AWS IAM Identity Center の導入において、必ずしも IdP 側で「ユーザー」と「グループ」のすべてを完結させる必要はありません。組織の成熟度や、既存の認証・認可の仕組み、開発チームの働き方によっては、 IdPの責務を段階的に分担していく方が、現実的かつ運用しやすいケースもあります。 私たちの事例のように、IIC 側でグループを Terraform などで別途管理するパターンは、IdP 側の情報整備が途上であったり、開発組織特有の柔軟な権限管理が求められたりする場合に、有効な選択肢となります。特に「開発チームごとに細かくロールを分けたいが、IdP のグループ設計にすぐには反映しづらい」 といった状況では、IAC によるコードベースな管理が、スピードと可視性の両面で大きなメリットをもたらします。 一方で、IdP と IIC の両方でグループを扱う構成は、権限の責務境界が曖昧になると運用負荷やヒューマンエラーの温床にもなり得ます。そのため、「どの粒度のグループを IdP 側の標準として扱い、どこから先を IIC+Terraform 側で柔軟に管理するのか」 をあらかじめチーム内で合意し、命名規則や運用フローをドキュメント化しておくことが重要です。 今回は最終的には、IdP による一元管理を目指しつつも、現時点の制約や開発スピードとのバランスを取りながら、現実解として IIC 側グループ管理を組み合わせるというアプローチを選択しました。本記事で紹介した考え方や設計パターンが、同様に IAM Identity Center の導入・移行で悩まれている方の判断材料や議論のたたき台になれば幸いです。 みんなでワイワイ発信活動をやってく環境いいな〜と思う方、ご興味があればぜひお話ししましょう! プロダクト採用サイトTOP カジュアル面談申込はこちら
アバター
はじめに タイミーで SRE 業務を担当している徳富( @yannKazu1 )です。 日々、数千万件のデータと向き合う中で、 Aurora MySQL の運用をより良くするための改善を積み重ねています。 本記事では、その中で経験してきた “机上ではわからないリアルな気づきや学び” を、できるだけ具体的にまとめました。 これから Aurora を本気で運用したい方や、同じような課題に悩んでいる方のヒントになれば嬉しいです。 (この記事は Timee Product Advent Calendar 2025の3日目の記事です。) 1. オンラインDDLでも「ゼロロック」ではない ─ ALTER TABLE 実行時の落とし穴 「MySQL のオンラインDDLなら、日中でもサッと ALTER できるよね?」 ──そんなふうに思ってしまうこと、ありますよね。 たしかにオンラインDDLはとても便利で、データをバックグラウンドで再構築してくれるおかげで、テーブル全体を長時間ロックするような事態は起こりにくくなりました。 そのため一見すると “止めずに ALTER できている” ように見えます。 でも実際には、オンラインDDLでも メタデータロック の影響は避けられません。 メタデータロックはテーブル定義の整合性を守るためのロックで、 テーブル定義を「読む」「変える」あらゆる操作で取得されます。 たとえば… SELECT / INSERT / UPDATE / DELETE → 共有メタデータロックを取って実行される ALTER TABLE などの DDL → 定義を書き換えるため、より強いメタデータロック(アップグレード可能 / 排他)を要求する この組み合わせが、ちょっとした“詰まり”の原因になります。 すでに DML が共有メタデータロックを持っていると → ALTER TABLE が待たされる 逆に ALTER TABLE が排他メタデータロックを握ると → 後続の SELECT / UPDATE が共有メタデータロックを取れずに待つ 「オンラインDDLだから大丈夫」と思っていても、実は “メタデータロック待ち” が発生してクエリが渋滞することは普通に起こる のです。 Aurora レプリカでは「待ち」ではなく エラー になることがある さらに Aurora MySQL を使っている場合、 リードレプリカ上の SELECT クエリが、DDL 実行タイミングでエラーになる という挙動にも注意が必要です。 Vanilla MySQL(RDS MySQL を含む)だと、マスターで ALTER TABLE を実行したとき、 レプリカ側では SQL スレッドが metadata lock を取りに行き すでにそのテーブルを使っているクエリがあると → それらが終わるまで Slave_SQL_Running_State: Waiting for table metadata lock の状態で待ち続ける という形で「 レプリカ側にメタデータロック待ちが溜まる 」挙動になります。 mita2 database life 一方で Aurora レプリカは挙動がかなり違います。 Aurora の場合、プライマリとレプリカは同じクラスターボリュームを見ており、DDL もほぼ即時にレプリカへ反映される その代わり、 ALTER を打った瞬間 ALTER 完了直後 に、そのテーブルを読んでいたレプリカ上の SELECT がまとめてエラーになります ( Lost connection to MySQL server during query で落ちる挙動が確認されています)。 mita2 database life つまり Aurora では、 「レプリカで metadata lock 待ちがズラッと並ぶ」ことは起きにくい その代わり、 たまたまそのタイミングで流れていた SELECT が「単発で」エラーになる というトレードオフになっています。 mita2 database life 運用で気をつけたいポイント オンラインDDLでもメタデータロック が関わる以上、“ゼロロック” にはならない 通常の DML でも共有メタデータロックが付くので、 → ALTER TABLE と取り合いになって詰まる可能性がある ロングトランザクションが残っていると、 → ALTER TABLE がずっと Waiting for table metadata lock のまま動かない Aurora の場合は、 Writer 側では Vanilla MySQL と同様にメタデータロック待ちが発生しうる一方で Reader 側ではメタデータロック待ちは溜まらないが、「ALTER の開始/終了タイミングで SELECT がエラーになる」 という特有の挙動がある 特にアクセスの多いテーブルほど、 夜間に実行する 事前にロングトランザクションを掃除する レプリカを使った重い SELECT のスケジュールを調整する といった “ひと手間” が効いてきます。 オンラインDDLは便利な一方で、 「メタデータロックの存在だけは忘れない」 「Aurora レプリカでは SELECT 側の単発エラーとして表に出てくることがある」 という二つを頭の片隅に置いておくと、だいぶ安心して運用できるはずです。 参考にさせていただいた記事 オンラインDDLとメタデータロック の関係や、Aurora レプリカの挙動を整理するうえで、こちらの記事を参考にさせていただきました: オンラインDDLと メタデータロックの整理にあたって: https://blog.s-style.co.jp/2024/12/13360/ Aurora レプリカでの metadata lock と DDL の挙動検証: https://mita2db.hateblo.jp/entry/2020/07/20/153139 2. Migration 時に発生したメタデータロックによるデッドロック ある日、マイグレーションの最中に デッドロック が発生しました。 通常であれば Aurora の cluster パラメーターで innodb_print_all_deadlocks を1に設定しているので Aurora がデッドロック検知し、 CloudWatch → Firehose → Datadog Logs** の経路でロックモニター情報と共に通知が飛んできます。 ところがその日は、 Datadog に何も上がってこない 状況でした。 「あれ、Firehose 止まってる? それともロックモニターが出てない?」 CloudWatch の生ログをたどってもロックモニター自体が出力されておらず、 そもそも Aurora 側でロックモニターが発火していない 状態でした。 ログが出ていない理由 原因はシンプルで、当時発生していたのが InnoDB のロックではなくメタデータロックによるデッドロック だったためです。 ロックモニターが検知しているのは InnoDB ストレージエンジン層の情報であり、 サーバーコア側で管理される メタデータロック はモニターの対象外 です。 つまり、 今回の競合は InnoDB のロックではなくサーバー側で管理される メタデータロックによるものだったため、InnoDB のロックモニターの対象外で観測されなかった ということです。 何が起きていたのか 実行していたのは不要になった customers_orders テーブルの削除( DROP TABLE customers_orders )。 一方アプリケーション側では、 orders と customers を参照する読み取り(JOIN もしくは連続した SELECT ) が走っていました。 customers_orders は orders と customers に外部キーを持つため、 DROP TABLE customers_orders は参照整合性の確認で orders と customers の排他メタデータロック を取りに行きます。 同時にアプリ側は orders と customers の共有メタデータロック を取りに行くため、取得順序の差で 相互待機(メタデータロックによるデッドロック) が成立しました。 再現用のサンプルコード CREATE TABLE customers ( id INT AUTO_INCREMENT PRIMARY KEY, name VARCHAR ( 50 ) ) ENGINE = InnoDB; INSERT INTO customers (name) VALUES ( ' Alice ' ); CREATE TABLE orders ( id INT AUTO_INCREMENT PRIMARY KEY ) ENGINE = InnoDB; INSERT INTO orders VALUES ( 1 ); -- 中間テーブル(orders × customers) CREATE TABLE customers_orders ( order_id INT NOT NULL , customer_id INT NOT NULL , PRIMARY KEY (order_id, customer_id), -- 中間テーブルらしく複合主キー FOREIGN KEY (order_id) REFERENCES orders(id), FOREIGN KEY (customer_id) REFERENCES customers(id) ) ENGINE = InnoDB; -- 例: 関連を1件だけ作る INSERT INTO customers_orders (order_id, customer_id) VALUES ( 1 , 1 ); 次に、2つのプロセスを用意して実行します。 セッション1(アプリケーション側) START TRANSACTION; SELECT * FROM orders; → orders に 共有メタデータロック(読み取りロック) を取得。 セッション2(マイグレーション) DROP TABLE customers_orders; → customers_orders に 排他メタデータロック を取得し、外部キー参照を解決するために customers に排他メタデータロックを取得(成功)、 orders に排他メタデータロックを取得しようとして待機。 セッション1 SELECT * FROM customers; → customers に共有メタデータロックを取得しようとするが、プロセス2がすでに排他メタデータロックを保持しているため待機。 この時点で、 セッション1 : orders の共有メタデータロックを保持し、 customers の共有メタデータロック取得待ち セッション2 : customers の排他メタデータロックを保持し、 orders の排他メタデータロック取得待ち という 相互待機状態(デッドロック) に陥ります。 SHOW ENGINE INNODB STATUS を実行しても、今回のデッドロックに関する記録は一切表示されません。 これは InnoDB ロックではなくMySQL サーバーコアで管理される メタデータロックによるデッドロック だからです。 再発防止策 DROP TABLE 前に外部キー制約を削除しておく ALTER TABLE customers_orders DROP FOREIGN KEY fk_customers_orders_order_id; ALTER TABLE customers_orders DROP FOREIGN KEY fk_customers_orders_customer_id; DROP TABLE customers_orders; 外部キーを先に削除することで、 DROP TABLE 実行時にロック対象となるテーブル( orders 、 customers )を最小限に抑え、 排他メタデータロックの競合リスクを下げる ことができます。 マイグレーション実行時の同時アクセスを抑制する 特に本番環境では、参照先テーブル(この場合は orders と customers )に対する DML が走っていないことを確認してから実行することが重要です。 3. リードレプリカのクエリが Writer 側に影響することがある Aurora MySQL を運用している際に、リードレプリカで実行した SELECT クエリにもかかわらず、Writer 側の RollbackSegmentHistoryListLength が増加していることに気づきました。AWS のサポートに問い合わせたところ、次のような仕組みであることが判明しました。 クラスターボリューム単位で共有される Undo(履歴) Aurora MySQL では、クラスターボリューム構造においてストレージおよび Undo ログ(履歴)が共有されています。 そのため、 RollbackSegmentHistoryListLength に関しても、 インスタンス単位ではなく、クラスター/ボリューム単位で管理される 仕様です。 リーダーで長時間実行されているトランザクション(たとえ SELECT であっても 分離レベルがREPEATABLE READの場合MVCC による過去バージョン追跡が発生)を実行すると、Undo 履歴が溜まり、共有ボリュームを通じて Writer 側にも影響が及ぶ状況が起こり得ます。 つまり、 “リーダーだから安心して重めのクエリを流せる”とは限らない 、ということになります。 RollbackSegmentHistoryListLength の意味と影響 このメトリクスは、Aurora/MySQL における コミット済みトランザクションの Undo ログ(履歴リスト)の長さ を表します。 InnoDB の履歴リストは、 コミット済みトランザクションの Undo ログを格納するグローバルリスト であり、不要になった履歴(古い行バージョン)を削除するために使用されます。 このリストが長くなるということは、古い行バージョンが多数残っている状態を意味します。 履歴リストの長さが大きくなりすぎると、古い行バージョンを多く保持する必要があるため、クエリの実行が遅くなる可能性があります。また、トランザクション完了後に発生するバックログの伝搬が重くなり、 AuroraReplicaLag が一時的に増加する場合があります。このラグ増大の影響が大きいと、 リードレプリカ側で再起動が発生する可能性もあります( 参考 )。 Aurora 公式ドキュメントでも、履歴リストの長さが過剰に増加するとパフォーマンス低下の原因になると説明されています。 ( Amazon Aurora User Guide – InnoDB 履歴リストの長さ ) 典型的に値が増加する状況としては: 実行時間の長いトランザクション (読み取りまたは書き込み) → 長時間オープン状態のトランザクションが存在すると、古い Undo ログがパージできずに履歴リストが蓄積します。 書き込み負荷が高い場合 → 更新や削除が頻繁に行われると Undo ログが大量に生成され、パージ処理が追いつかず履歴リストの長さが増加します。 実際に起きていたこと(時系列) リードレプリカを参照している Redash で実行された集計クエリが 数時間 実行されていた 長時間実行中のトランザクションにより、古い Undo ログをすぐにパージできず、 RollbackSegmentHistoryListLength が上昇 RollbackSegmentHistoryListLength の上昇によって、 クエリパフォーマンスの低下が発生 トランザクションが完了した際のバックログの伝搬の影響で AuroraReplicaLag の一時的な増加が発生し、レプリカインスタンスの再起動が発生 対応と再発防止 Redash などリードレプリカ上で実行する長時間の集計クエリは、セッション単位で READ COMMITTED 以下の分離レベルを選ぶことで、過去バージョンを長期間保持してしまう問題を防ぎ、Undo の肥大化を抑えることができます。 分離レベルを下げると、読み取り整合性の保証が弱まるというデメリットがあります。たとえば: 同じクエリを2回実行すると結果が変わる可能性がある( Non-repeatable read ) 範囲検索のたびに新しい行が見えてしまうことがある( Phantom read ) コミット前の書き込みを読んでしまう可能性がある( Dirty read:ただし READ UNCOMMITTED の場合のみ ) ただ、 集計系のワークロードではリアルタイムな厳密整合性を求めないケースがほとんど のため、これらの揺らぎは実運用上問題にならないことが多いです。 むしろ「レプリカでの長時間クエリが原因で Writer 側のパフォーマンスに影響が出る」ほうが深刻で、その影響を避けられるメリットのほうが大きい場面が多いです。 4. InnoDB Buffer Pool チューニング Aurora MySQL のメモリ構成の中で最も大きな割合を占めるのが InnoDB Buffer Pool です。 これは InnoDB ストレージエンジンが、 テーブルのデータページやインデックスページをキャッシュするための中核的なメモリ領域 です。 クエリ実行時、MySQL はまずバッファプール上に必要なページが存在するかを確認し、見つからない場合のみディスクから読み込みます。 したがって、 どの程度のデータをバッファプールに載せられているか が、ディスク I/O の発生頻度やクエリ性能を大きく左右します。 十分なバッファプールを確保しておくことで、ディスクアクセスを最小限に抑え、結果として応答時間やスループットを改善できます。 Aurora では、バッファプールサイズはデフォルトではインスタンスの物理メモリに応じて自動計算されます。 基本的には innodb_buffer_pool_size = DBInstanceClassMemory × 3/4 の式を基準に動的に設定され、インスタンスをスケールアップするとバッファプールも比例して拡張されます。 必要に応じて、パラメーターグループで明示的に調整することも可能です。 このメモリ、本当に使い切れているのか? 運用中の Aurora Writer を確認すると、 Buffer pool hit ratio は 99%以上を維持し、 Read IOPS や Read Latency も低水準で安定していました。 つまり、 ほとんどのクエリがメモリ内で完結しており、ディスク I/O はほとんど発生していない 状態です。 一方で、 innodb_buffer_pool の使用率は 100% に達していませんでした。 これは単に「メモリを使い切れていない」ということではなく、 実際にアクセスされるデータ量(ワーキングセット)がバッファプール容量を下回っている ことを意味します。 言い換えれば、 ワーキングセットを十分に収容できるだけのバッファプールが確保されているため、まだメモリに余裕がある 状態です。 さらに FreeableMemory にも十分な余裕がある場合は、 「実際のアクセスパターンを支えるために必要なデータは十分にメモリに載っている」= メモリ観点ではインスタンスサイズを下げられる可能性がある と判断できます。 ただし、メモリだけで判断しない 注意すべきは、 メモリ指標だけを根拠にスケールダウンを判断するのは危険 という点です。 Aurora の性能はメモリだけでなく、 CPU・I/O 帯域・接続数・トランザクション並列度 といった複数のリソースバランスで成り立っています。 たとえば、メモリには余裕があっても次のようなケースでは注意が必要です。 CPU 使用率( CPUUtilization )やロードアベレージ( LoadAverage )が高い ピーク時間帯に DBConnections が急増している Aurora では、 max_connections が インスタンスメモリ量から自動計算される ため、インスタンスサイズを下げると デフォルトの許容接続数も減少 します max_connections 自体は調整できますが、AWS ドキュメントにもあるとおり、バッファプールやクエリキャッシュなど他のメモリ関連設定と密接に関係するため、 デフォルトから変更するには十分な知識と検証が必要 です https://docs.aws.amazon.com/ja_jp/AmazonRDS/latest/AuroraUserGuide/AuroraMySQL.Managing.Performance.html デフォルトの接続制限は、バッファプールやクエリのキャッシュといった多くのメモリを消費する他の処理のデフォルト値を使用するシステムに合わせて調整されています。クラスターのこれらの他の設定を変更する場合は、DB インスタンスで使用可能なメモリの増減に応じて接続制限を調整することを検討してください。 接続数がピークで伸びる環境では、デフォルト値のままスケールダウンすると 予期せぬ接続枯渇が発生するリスク があります このように、インスタンスサイズの変更は接続数だけでなく、 自動計算されるさまざまなパラメーター にも影響します。 そのため、 「バッファプールを使い切っていない=すぐに下げて良い」ではありません。 メモリ余剰だけでなく、CPU・I/O・接続数など 他のリソース指標も含めて総合的に評価し、ピーク時の負荷に十分耐えられることを確認してから スケールダウンを検討するのが安全です。 5. 同時リクエストによるデッドロックの実例と考察 アプリケーションで同じ処理がほぼ同時に呼ばれると、データベース内部で ロックの取り合い が起き、デッドロックにつながることがあります。ここでは2パターンを紹介します。 タイミーのようにユーザー数が多く、トラフィックが集中する環境では、通常のシステムではほとんど起きないような「同時リクエスト」や「並行更新」が発生することがあります。そのため、こうした競合は理論上の話ではなく、実際の運用でも注意が必要です。 パターン①:ギャップロックによる競合 存在しないデータを同時に挿入しようとしたとき に発生する典型的なパターンです。 たとえば、「このメールアドレスのレコードが存在しなければ新規作成する」という処理を、複数のリクエストがほぼ同時に実行するケースを考えます。 発生の流れ ここでは、 users テーブルに email = 'email3@example.com' の行がまだ存在しないケース を例に説明します。 トランザクションA が次のクエリを実行します: SELECT * FROM users WHERE email = 'email3@example.com' FOR UPDATE; 該当レコードが存在しないため、InnoDB は「 email = 'email3@example.com' が入る位置のすき間」に ギャップロック を取得します。 (このロックは、同じ範囲への INSERT を防ぐ“見えない壁”のようなものです) ほぼ同時に、トランザクションB も同じクエリを実行します: SELECT * FROM users WHERE email = 'email3@example.com' FOR UPDATE; B も同じ範囲に ギャップロック を取得します。ここでポイントなのは、 ギャップロック同士はお互いに干渉しない(競合しない) ということです。そのため、A と B の SELECT ... FOR UPDATE はどちらも正常に完了します。 どちらのトランザクションも「対象が存在しない」と判断し、次のように INSERT を実行します: INSERT INTO users (email, name) VALUES ('email3@example.com', 'Alice'); しかし、 トランザクションA のギャップロックがトランザクションBの INSERT をブロック トランザクションBのギャップロックがトランザクションAの INSERT をブロック という状態になります。 互いにロックが解除されるのを待ち続け、 デッドロック が発生します。 よくある実装イメージ(rails版) # 該当レコードが存在しないため、実際の行ロックは発生せず # 「この位置に新しい行を挿入させないためのギャップロック」だけが取得される record = Model .lock.find_by( key : key) record ||= Model .create!( key : key) パターン②:ロック昇格による競合 共有ロック(Sロック)から排他ロック(Xロック)へ昇格するとき に発生するデッドロックです。 アクセス頻度の高いテーブルで、複数のトランザクションが同じ行を同時に UPDATE しようとしたときに起こりやすい現象です。 発生の流れ ここでは、 email = 'email3@example.com' の行がすでに存在しているケース を前提に説明します。 トランザクションAが、まず次のクエリを実行します: SELECT * FROM users WHERE email = 'email3@example.com' LOCK IN SHARE MODE; → 該当行に対して 共有ロック(Sロック) を取得します。このロックは「読み取り専用」で、 他のトランザクションは書き込めませんが、同じ行を読むことは可能 です。 ほぼ同時に、トランザクションBも同じクエリを実行します: SELECT * FROM users WHERE email = 'email3@example.com' LOCK IN SHARE MODE; → B も同じ行に対して 共有ロック(Sロック) を取得します。 Sロック同士は競合しないため、両方のクエリが問題なく実行されます その後、A と B の両方が更新クエリを実行します: UPDATE users SET name = 'Alice' WHERE email = 'email3@example.com'; A は行を更新するために、 Sロックを Xロックに昇格 しようとします。 しかし B が同じ行に Sロックを保持しているため待機状態になります。 同時に B も Xロックに昇格しようとしますが、A の Sロックに阻まれて待機。 結果として、 お互いのロックが昇格を待ち続ける構図 になり、 MySQL がデッドロックを検出して一方のトランザクションを強制終了します。 対策 デッドロックは一見すると予測が難しい現象ですが、ここまで紹介したように 「どのタイミングでどんなロックが取得されているか」 を理解しておくと、多くの場合で事前に回避できます。 たとえば、 存在確認とロック取得の順序を見直す (不要なギャップロックを避ける、レコードの有無によってクエリを分岐する など) 同じ行に対して同時に S→X ロック昇格が起きないようにクエリ設計を調整する アプリケーション側で同時実行を制御する(排他制御・リトライ・分散ロックなど) 処理の粒度を見直してロック競合が発生しにくい設計にする といったアプローチがあります。 実際のところ、「これさえやればOK」という万能策はありません。ただ、 「InnoDB がどのタイミングでどのロックを取るか」 を理解しているだけで、 問題を正しく再現でき、適切な対策を選択しやすくなります。 高トラフィック環境ではこうした競合は日常的に起こりうるため、 ロックの性質を知っておくことがトラブルシューティングの大きな助けになります。 6. UPDATE 時にも排他ロック(X)が広範囲に発生する落とし穴 「排他ロック(X ロック)は SELECT ... FOR UPDATE を使ったときだけ発生する」と思われがちですが、実は UPDATE や DELETE でも自動的に X ロックが取得されます 。 しかも、ロックされるのは 「更新対象の行だけ」ではありません 。 ここで重要なのは、 MySQL 公式ドキュメント にあるとおり、 UPDATE / DELETE は「検索で検出された(読み込まれた)すべてのレコード」に 排他的ネクストキーロックを設定する。ただし、一意インデックスによって “1 行だけ” を特定できる場合は、 ギャップを含むネクストキーロックではなく、 対象行そのもののインデックスレコードロックのみで済む。 という点です。 この仕様を踏まえると、MySQL(InnoDB)では、 更新 or 削除対象の行に対して排他レコードロック その対象を見つけるためにスキャンしたインデックス範囲にも 排他ネクストキーロック(排他レコードロック + ギャップロック) が自動的に発生します。 つまり、 適切なインデックスが存在し、更新時のスキャン範囲をどれだけ絞り込めるか によって、InnoDB が取得するロック範囲は大きく変わります。 具体例:インデックスなし WHERE の UPDATE が大事故を生む UPDATE orders SET status = ' shipped ' WHERE user_id = 123 ; orders.user_id にインデックスが無い場合: user_id = 123 を見つけるために テーブル全体をスキャン スキャン中に「更新候補行」に対して 排他レコードロックを取得 さらにスキャン範囲に対して排他ネクストキーロックが発生 MySQL 公式が説明する「検索で検出されたすべてのレコードに排他的ネクストキーロックが設定される」状態です。 その結果: 本来 1 ユーザーの数件だけ更新したかったのに、実際にはテーブル全体がロックに巻き込まれる → 他トランザクションの INSERT・UPDATE・DELETE がほぼ止まる という典型的な事故が起きます。 実務での回避方法 適切なインデックスを用意する UPDATE / DELETE の WHERE 条件に完全一致するインデックスを作るだけでロック範囲が劇的に狭まる 7. 子テーブル作成・更新・削除時に親テーブルへ伝播する共有ロック(S) 外部キー制約( FOREIGN KEY )が定義されているテーブルでは、 子テーブルで行を挿入・更新・削除するとき に、参照整合性(FK チェック)を行う必要があります。 このとき、InnoDB は 参照先(=親テーブル)の必要な行を読み込むために共有ロック(S ロック)を取得 します。 FOREIGN KEY 制約がテーブル上で定義されている場合は、制約条件をチェックする必要がある挿入、更新、または削除が行われると、制約をチェックするために、参照されるレコード上に共有レコードレベルロックが設定されます。 InnoDB は、制約が失敗する場合に備えて、これらのロックの設定も行います。 ( InnoDB Locks Set — MySQL 8.0 Reference Manual ) ただし S ロックが付くのは「実際に参照整合性チェックが必要になった 親側の行 だけ」です。 更新された外部キー列に関係する親テーブルの行 または、 DELETE / INSERT 時に参照される親の行 に対してのみ S ロックが取得されます。 トランザクション+ループ更新で起こりやすい落とし穴 トランザクション内で子テーブルを大量にループ更新するケースでは、 一度取得された親テーブルの S ロックが COMMIT / ROLLBACK まで保持され続けます。 複数行を DELETE / INSERT すると、親テーブル上の複数行に対して S ロックが貼られ、 これらの行に対して X ロック( UPDATE や DELETE )を要求する別トランザクションが 長時間ブロック されることがあります。 具体例:子テーブルの更新(DELETE / INSERT)が親テーブルの UPDATE / DELETE をブロックする 次のようなテーブル構成を考えます。 CREATE TABLE users ( id BIGINT PRIMARY KEY, name VARCHAR ( 255 ) NOT NULL ) ENGINE=InnoDB; CREATE TABLE groups ( id BIGINT PRIMARY KEY, name VARCHAR ( 255 ) NOT NULL ) ENGINE=InnoDB; CREATE TABLE group_users ( id BIGINT PRIMARY KEY, user_id BIGINT NOT NULL , group_id BIGINT NOT NULL , CONSTRAINT fk_group_users_user FOREIGN KEY (user_id) REFERENCES users(id), CONSTRAINT fk_group_users_group FOREIGN KEY ( group_id ) REFERENCES groups(id) ) ENGINE=InnoDB; 実際に起きるロックのポイント この構成では: user_id は users.id を参照 group_id は groups.id を参照 ですが、 子テーブルの DELETE / INSERT で FK チェックが発生するのは “参照される外部キー列だけ” です。 以下の「グループ移動」処理を考えます: DELETE FROM group_users WHERE user_id = 123 AND group_id = 1 ; INSERT INTO group_users (user_id, group_id ) VALUES ( 123 , 2 ); ここでは、 DELETE により users.id = 123 , groups.id = 1 INSERT により users.id = 123 , groups.id = 2 が FK チェック対象になるため、 users.id = 123 の行に共有ロック(S) groups.id = 1 と groups.id = 2 の行にも S ロック という挙動になります。 問題となるシナリオ:グループ移動バッチとユーザー更新(または退会)API トランザクション①(グループ移動バッチ) BEGIN ; DELETE FROM group_users WHERE user_id = 123 AND group_id = 1 ; INSERT INTO group_users (user_id, group_id ) VALUES ( 123 , 2 ); -- COMMITしないまま他の処理が続く(ループで大量のDELETE/INSERT) この時点で InnoDB は users.id = 123 groups.id = 1 groups.id = 2 などの親テーブルの行に S ロック を取得しています。 トランザクション②(別 API からのユーザー更新や退会処理) BEGIN ; UPDATE users SET name = ' 新しい名前 ' WHERE id = 123 ; -- または退会処理 -- DELETE FROM users WHERE id = 123; UPDATE や DELETE は X ロックを取りたいため、 トランザクション①の S ロックが解除されるまでブロック されます。 この結果、 バッチ処理は子テーブルだけを操作しているつもり しかし参照先(親)テーブルに S ロックを保持し続けている 親テーブルの UPDATE / DELETE が待ち状態となり、最悪 Lock wait timeout exceeded という問題が発生します。 回避・緩和策 バルク更新を細かい単位に分け、途中でこまめに COMMIT する → 大量の行を一気に処理すると、その間ずっと親テーブルの行に S ロックを貼り続けてしまいます。 小さなバッチに分割して順番に処理し、適宜 COMMIT することで、 親テーブルのロック保持時間を短くし、ブロックが広がるのを防げます。 おわりに Aurora MySQL の運用は、単に「パラメーターを調整する」「インスタンスサイズを上げる」といった単発の改善ではなく、 実際にどんな現象が起き、何が原因で、どのレイヤーで発火しているのかを理解しながら積み重ねていく作業 です。 タイミーでは、膨大なアクセス量・多様なユースケース・日々進化し続けるサービス構造の中で、運用知識そのものがプロダクトの継続性に直結します。 今回紹介した内容は、その中で得られた知見のごく一部ですが、同じように Aurora を本気で運用している方々にとって、 「あ、これ見落としていたかも」 「うちでもこのパターンあるな」 と思ってもらえるきっかけになれば嬉しいです。 今後も継続的に Aurora / MySQL の検証や改善を進め、実運用で得た知見を積極的に発信していきます。もし似たような事象で悩んでいたり、Aurora をどう設計・運用すべきか議論したい方がいれば、気軽に声をかけてください。 引き続き、より良い運用と学びを積み重ねていきましょう。
アバター
「自分は大した立場じゃない」が一番怖い。自覚すべき『逃れられない影響力』について はい、亀井です。yykameiという名前でインターネット上では活動しております。所属はタイミーです。 Timee Product Advent Calendar 2025 Series 2 の 3 日目として、影響力をテーマにした記事をお届けします。それではどうぞ! 影響力からは誰も逃れられない 「自分はマネージャーではないから」「ただのいち技術者だから」と考えて「謙虚」に振る舞うことはありませんか?もしかしたらその「謙虚さ」は実は組織にとって最も厄介なリスク要因になっているかもしれません。 「影響力」という言葉は「権力」や「命令権」と同じ意味で捉えられがちです。「自分には人事権もないし、何かを決定する権限もない。だから自分には影響力なんてない」と。しかし、それは大きな誤解です。組織において「影響力」とは、誰かに命令を下す力のことだけを指すのではありません。誰かの発言、態度、あるいは「沈黙」さえもが、周囲の感情を動かし、他の誰かの行動を変えてしまうこともあります。 誰かが会議で腕を組んで黙っているだけで、他のメンバーは「反対されているのではないか」と不安になります。 ランチで何気なくこぼした愚痴がチーム全体の士気を下げることもあります。 逆に、誰かが楽しそうに難題に取り組む姿が、他の誰かの挑戦を後押しすることもあります。 好むと好まざるとにかかわらず、組織に属している以上、私たちは「影響力」からは逃げられません。「影響力が全くない世界」など存在しないのです。 それなのに「自分には力がない」と思い込んでいると、私たちは無防備にその力を行使し、周囲を傷つけたり、混乱させたりする「事故」を引き起こしてしまうかもしれません。 無自覚な「正論」が現場を凍らせる時 架空のエピソードを使って考えてみます。 あるミーティングにおいてポジションが上の方が、「なんで〇〇をやらなかったのですか?これをやるのは常識でしょう」といった発言をしたとします。このケースでは発言をした方のポジションが上というだけで発言を受け取る側は影響力を感じやすいという前提があります。それに加えて、発言の内容そのものです。この発言の意図は文脈によりますが、発言を受け取る側は「追及されている」と受け止める可能性があるでしょう。発言者が純粋に「なぜ?」に興味があるだけだとしても、発言を受け取る側の感じ方次第では影響力は高まります。つまり、ここではポジションと発言の内容が影響力を形づくり、そして、それがどう受け止められるかによって影響力の度合いが変わります。もし発言者が自身の影響力について過小評価している場合、影響力が行使されたことに無自覚になる可能性があります。そうなると、影響力の行使による結果、望ましくない事象が発生することもあるでしょう。 本人が無自覚であっても、強烈な影響力は確実に行使されています。その結果、メンバーは萎縮し、本来報告されるべき「真の問題」や「小さなミス」が隠蔽される——そんな 望ましくない事象 が発生してしまうかもしれません。 影響力とは? ところで、影響力の定義について書いておりませんでした。このあたり、私は専門家ではないので Gemini Deep Research を使って「『影響力』の学術的定義を調べてください。」と指示しました。その結果、「社会心理学的アプローチ」「社会学的・構造的アプローチ」「組織行動・政治学的アプローチ」「ネットワーク・コミュニケーション論的アプローチ」の4つの主要な学術的アプローチを駆使して、以下のような結論を導き出してくれました。この定義が本当に学術的に正しいかどうかは議論しませんが、少なくともこの記事ではこういう定義のもとで話を進めます。 学術的定義における影響力(Influence)とは、社会的相互作用の場において、ある主体(個人、集団、組織、または国家)が、有形無形の資源(地位、専門性、魅力、関係性、情報)を行使または媒介することにより、対象となる他者の心理的状態(態度、信念、感情)および行動的反応(受容、模倣、服従)に対して、意図的あるいは非意図的に変動をもたらす動的なプロセスおよびその潜在的能力である。 その本質は、単なる力の行使ではなく、対象者が影響を受け入れる動機(賞罰の予期、関係性の希求、価値の整合性)との相互作用によって決定される「関係的現象」であり、その効果は表層的な追従から深層的な価値の内面化まで多岐にわたり、社会ネットワークを通じて伝播・増幅される特性を持つ。 この中で個人的に注目するべき点は「単なる力の行使ではなく、対象者が影響を受け入れる動機との相互作用によって決定される『関係的現象』」という部分です。影響力は行使する側が持つ絶対的な力ではなく、相手との関係の中で現れる現象、というところが実際に周りで起こっていることとも一致するな、という感想です。 そして、これまで議論してきた無自覚な影響力について、まさに「意図的あるいは非意図的に変動をもたらす動的なプロセスおよびその潜在的能力である」という部分が当てはまりそうです。 なぜ事故になったのか? 先ほど紹介した定義(「資源」「関係的現象」「非意図的」)というレンズを通して、先ほどの架空のミーティングでの「事故」を分析してみます。なぜ、「純粋な疑問」は「追及」へと変質してしまったのか、以下の3つの要素で説明がつきそうです。 「資源」が言葉を重くする 定義にあった「有形無形の資源(地位、専門性)」とは、キャリアやポジションそのものです。 「シニアエンジニアとしての技術的信頼」「マネージャーという肩書き」「社歴の長さ」。これらは単なる属性ではなく、発言のボリュームを増幅させる 「巨大なアンプ(増幅装置)」 です。 自分のことを「ただのいちメンバー」だと思っていても、背負っている「資源」が囁き声を、他のメンバーにとっての「怒号」や「絶対的な命令」レベルの音量に増幅して届けてしまいます。 「関係性」が意味を歪める 影響力とは「関係的現象」です。メッセージの意味は発信者ではなく受信者との関係性の中で決定されます。 メンバーの間には、「評価する側/される側」「教える側/教わる側」という構造的な関係性が存在します。このフィルターを通すと、フラットなはずの「なぜ?」という問いかけは、「私の行動に不満があるのか?」「試されているのか?」という文脈に自動変換されます。 どれだけフランクに振る舞おうとしても、この構造的関係性を無視することはできません。 「非意図的」な暴走 そして最も恐ろしいのが「意図的あるいは非意図的」という性質です。 このケースでの事故の主因は、「威圧してやろう」と意図したことではありません(そもそも、そんな意図を持った発言をする人は少ないと信じています)。むしろ、 「自分のアンプの性能(資源)と、相手との距離(関係性)を計算に入れず、無防備にマイクのスイッチを入れてしまったこと」 にあります。 つまり、先ほどの架空のミーティングで事故になったのは、発言者の性格が悪いからでも、相手が臆病すぎるからでもありません。 「ポジションというアンプを通せば、些細な入力でも出力は強大になる」 という影響力の物理法則とも言えるメカニズムを、発言者自身が過小評価していたからと言ってよいでしょう。 影響力のボリュームを「コントロール」する技術 影響力のメカニズムが「アンプ(増幅装置)」であるというメタファーを受け入れると、「ボリュームのツマミ」を調整する、という比喩が思い浮かびます。実際にこれが可能かどうかはわかりませんが、影響力を適切に、そして、意図してコントロールすることができれば、無自覚な影響力の行使を避けることができるかもしれません。以下、影響力のコントロールについて、「ボリュームのツマミ」を「下げる」「上げる」それぞれのメタファーを使って提案してみたいと思います。 ボリュームを「下げる」技術(抑制的行使) メンバーの意見を引き出したい時、メンバーの自律性を尊重したい時、あるいはブレインストーミングの場などでは、自分の強すぎる影響力はノイズになりかねません。意図的に出力を絞る必要があります。 傾聴する: 会議で影響力のあるメンバーが最初に意見を言うと、それが「正解」になってしまい、議論が終わってしまいます。「皆はどう思う?」と問いかけ、自分は黙ってみんなの意見を聞く。これだけで、場の「関係性」はフラットに近づきます。なお、傾聴に関しては好奇心が重要です。「〇〇さんはどのような考えを持っているのだろう?」「どういうきっかけがあってそういう考えに至ったのだろう?」と純粋にその人自身に焦点をあてた傾聴を行わないと、意図せずに「〇〇さんはこう言っているけれど本当はこれのほうがいいのでは?」などと自分自身の考えが表出し始めてしまいます。そうすると、本当の意味で「聞いている」ことにはなりません。自分の考えは横に置いて聞いてみましょう。 「わからない」ことを示す: あなたの持つ「専門性(リソース)」が相手を委縮させているなら、あえてそれを手放します。「この技術については〇〇さんが詳しいから教えてほしい」「正直、まだ迷っているんだ」と弱みを見せることで、相手は「発言しても安全だ」と感じることができます。 物理的な威圧感を減らす: 上座に座らず、あえて輪の中に混ざる。腕組みをやめる。こうしたノンバーバル(非言語)な行動も、アンプの出力を下げる有効な手段かと思います。 ボリュームを「上げる」技術(積極的行使) 逆に、影響力をフルボリュームで使うべき場面もあるでしょう。 責任の所在を明確にする: トラブル発生時や、リスクのある決断をする時こそ、アンプの出番です。「責任は私が取るから、思い切ってやってくれ」。影響力のあるメンバーがこれを言うとチームの他のメンバーは守られている安心感のもと、チャレンジができます。持てうる限りの影響力のリソースを使ってメンバーを鼓舞しましょう。 影響力のあるフォースからチームを守る : 組織で働いている以上、チームはなんらかの影響力に晒されることがあります。もしかしたら、声の大きいユーザーからのレビューによってそのチームが提供したプロダクトのレピュテーションが一気に下がることがあるかもしれません。あるいは、社内のステークホルダーから突然の指示があるかもしれません。そのようなとき、影響力のあるメンバーが矢面に立つことによってチームを守り、影響力のある者同士で会話をしてうまく場をおさめることが必要です。あるいは、いったん有事の問題ということで影響力のあるメンバーがその問題に取り組み、他のメンバーの負担を減らすような行動をしてもよいかもしれません。 最後に 影響力からは逃れられません。それにもかかわらず影響力に無自覚になることもままあると思います。影響力の存在を認識し、その「ボリューム」をどう調整するか?という観点で影響力と付き合っていくと、周りとの関係性においてきっといいことが待っていると思います。 プロダクト採用サイトTOP カジュアル面談申込はこちら
アバター
この記事は Timee Product Advent Calendar 2025 の2日目の記事です。 タイミーでバックエンドエンジニアをしている桑原です。 突然ですが、LeanUXキャンバスというツールをご存知でしょうか? 今年、いくつかの開発をチームで進める中で、LeanUXキャンバスを複数回作成して活用しました。 私自身初めての経験で、チームメンバーも半数が初めてという状態での取り組みでした。 うまくいったことや苦戦したことがあったので、振り返りを行い次に活かすためにこの記事を書こうと思います。 LeanUX・LeanUXキャンバスとは LeanUXは、書籍「LeanUX」で紹介されている開発手法です。 LeanUXキャンバスは、この手法を実践するためのファシリテーションツールで、著者のウェブサイトでテンプレートが公開されています。 引用元: JEFF GOTHELF-website この記事ではLeanUXの詳細は省略しますが、LeanUXキャンバスを順番に埋めるワークを行うことで、LeanUXを進める基盤を作ることができます。 なぜLeanUXキャンバスを使ったのか 今年行った開発でLeanUXキャンバスを使ったのは、次のような課題があったからです。 解くべき課題が抽象的で、どのような機能を実装すれば良いのか定まっていない 逆に要求されている機能はあるが、なぜそれを実装すると良いのかチームの共通認識が持てていない 実施にあたっては、Miroというホワイトボードツールを使いました。 LeanUXキャンバスで得られたこと LeanUXキャンバスを行った最大の成果として感じているのは、チームでビジネスプロブレムステートメント(ビジネスが抱える課題を定義した文書)を作成したことです。 以前の開発では、プロダクトオーナーがビジネスプロブレムをまとめた上でプロダクトゴールを作成していました。 しかしLeanUXキャンバスを使った開発では、開発メンバーもビジネスプロブレムの深掘りからワークに参加しました。これにより、チーム全員が「なぜこの開発を行うのか」という共通認識を持つことができました。 その結果、各機能ごとにタスクが分割されたときも、機能の目的をチーム全体が理解しているため、スピーディーに開発を進めることができました。 また、ワークを通してユーザーへの理解を深める機会にもなりました。 タイミーはツーサイドプラットフォームであり、働くワーカーと、ワーカーを募集する事業者の双方にとって価値あるものでなければなりません。 たとえ事業者にとって便利な機能であっても、ワーカーの働く機会を損なう機能は実装できません。 キャンバスを作成したことで、双方の視点で考えるきっかけとなり、公平なプラットフォームであることをより意識して開発を進めることができました。 難しかった点 LeanUXにはビジネスプロブレムを記述する際、「ソリューションを決めつけすぎない」と記載されていますが、これが想像以上に難しかったです。 要求されているソリューションがあると、どうしてもその機能を前提に考えてしまいます。しかし、一度そのソリューションを忘れて「何が問題なのか」を掘り起こすことに集中する必要がありました。 このステップのおかげで、ビルドトラップに陥らず、どんな問題を解決したいのかを最初に強く意識づけることができました。 継続的な活用に向けて 最初はLeanUXキャンバスを作成した後、継続的に活用することができず、チームで振り返りを行う中でもっとうまく活用していきたいという話になりました。 アジャイル開発では一度のリリースで終わりではなく、機能の改善や追加を行っていく必要があります。 実際に機能をリリースした後に見えてくる問題も増えてくるため、一度作ったキャンバスをそのままにせず、継続的に更新していくことが有効だと感じています。 この反省を活かし、現在の開発では機能の初期リリース後も定期的にLeanUXキャンバスを更新し、追加開発の指針として役立てています。 まとめ LeanUXキャンバスは、開発の方向性を明確にする効果的なツールです。 チームでの実践を通じて得られた主なポイントは以下の通りです。 目的の明確化 : ビジネスプロブレムステートメントの作成により、なぜその開発を行うのかという共通認識が生まれた ツーサイドプラットフォームの公平性 : ワーカーと事業者双方にとって価値ある機能開発を意識できた 実践的なメリット : ビルドトラップの回避、明確な優先順位付け、迷いの少ない開発進行 開発初期にLeanUXキャンバスの作成に時間をかけることで、長期的にはチームのコミュニケーションが円滑になり、より効果的な開発につながると感じています。 今後もチームでLeanUXの理解を深めていきたいと思います。 タイミーのプロダクト開発に興味を持ってくださった方は以下も覗いてみてください。 プロダクト採用サイトTOP カジュアル面談申込はこちら
アバター
こんにちは、アナリティクスエンジニアの hatsu です。 普段はデータエンジニアとアナリティクスエンジニアからなるDREという組織に所属し、データ基盤を整えたり、dbtを使ったデータウェアハウスの開発などをしています。 本記事では、私が所属するDREで最近取り組んだ、ダッシュボードなどのデータアウトプットの管理についてご紹介してみようと思います。 なお、この記事は Timee Advent Calendar 2025 シリーズ2の1日目の記事です。 今日から毎日3本ずつ記事が投稿されますので、ぜひ他の投稿もご覧ください! 背景と課題 タイミーでは社内でいろんなメンバーがいろんなデータを日々活用していて、社内のデータアウトプットも数え切れないほど存在しています。 これらのデータアウトプットはコード管理やクエリのレビューをしていないものがほとんどで、意図せず誤ったクエリが重要なデータとして活用されてしまうことも度々ありました。 さらに、「昔は使っていたけど今はもう使っていない」、あるいは「作ったけど結局使わなかった」といった、古くてもう使われていないようなデータアウトプットも残り続け、データが更新され続けている現状があります。 どのデータアウトプットが今使われているのか、誰がそのデータアウトプットの責任者なのか、どういった品質が保証されているのかなど、データアウトプットに関する情報がこれまで管理できていないことがチーム、ひいてはデータを活用する会社全体の課題でした。 そこで、データアウトプットそれぞれに対して設定する“信頼性レベル”を定義し、その“信頼性レベル”に応じてデータアウトプットを管理していく取り組みを始めてみることにしました。 チームで定義した“信頼性レベル”とは チームで定義した“信頼性レベル”というのは、データアウトプットの保守運用のために求められる要件と、それによって得られるデータアウトプットの保証内容を定義したものです。 現状、アウトプットの利用目的などに応じて、Trusted・Verified・Provisional・Adhocの4つのレベルに分けて定義しています。 それぞれのレベルで、保守運用をするために満たすべき要件と、それを満たすことで私たちDREが保証する保守運用の水準、例えば障害時やソースデータに破壊的変更が加えられるときの対応方針などを下記のように設定しています。 信頼性レベルの要件と保証内容 表の一番右にアーカイブの方針が書いてあり、使われなくなったデータアウトプットはアーカイブされていくような運用にしています。 ここで言うアーカイブとはデータアウトプットの即時削除ではなく、ゴミ箱に入れられている、もしくはクエリのスケジュール実行が停止されている状態を指していて、まだ利用されているデータアウトプットが誤ってアーカイブされた場合にも復元可能な状態になっています。 各データアウトプットがどの信頼性レベルに設定されているかは、dbt exposureを用いて下記のようなyamlファイルで管理しています。 version : 2 exposures : - name : {{ ConnectedSheetタイトル }} _{{ConnectedSheetId}} label : {{ ConnectedSheetId }} type : dashboard config : tags : - PEOPLE_WITHIN_DOMAIN_WITH_LINK - spreadsheet meta : creator : test@example.com owner : test@example archived : false archived_at : null reliability_level : Provisional created_at : '2025-11-20T17:00:00+09:00' deprecated_at : '2026-02-20T17:00:00+09:00' visibility : PEOPLE_WITHIN_DOMAIN_WITH_LINK output_type : spreadsheet url : https://docs.google.com/spreadsheets/d/{{ConnectedSheetId}} owner : name : test@example.com email : test@example.com depends_on : - ref('hogehoge_model') - ref('foo_bar_model') - ref('chomechome_model') 例えば、上記のyamlファイルには reliability_level: Provisional と書かれていることから、この例に書かれているデータアウトプットは信頼性レベルProvisionalの水準で保守運用されていることがわかります。 初めは信頼性レベルがデフォルトのProvisionalのものとして自動でexposureが登録され、そこからデータアウトプットのオーナー(利用者)が利用目的に応じて適宜信頼性レベルを変更します。 dbt exposureを用いたデータアウトプットの自動登録と管理については、以前 こちらの記事 でも紹介していますのでぜひご覧ください! 信頼性レベルを運用することで期待される効果 このような信頼性レベルを運用することで、DREにもデータアウトプットのユーザーにも嬉しい効果があると考えています。 膨大な数のデータアウトプットの中からDREが保守するべき対象が明確になり、障害発生時のユーザーへの連絡などもスムーズに行えるようになる データアウトプットのユーザーは、自分が利用しているデータアウトプットに障害や破壊的変更の影響があるかを、通知によって把握できるようになる もう使わないデータアウトプットを適切にアーカイブすることで、メンテナンスされていない古いデータアウトプットをユーザーが誤って使ってしまうことを避けられる 信頼性レベル運用の現状と今後 この信頼性レベルの仕組みは、まだ会社全体に展開したものではなく、一部のメンバーとお試し運用中のものです。 お試し運用を通して運用の改善や修正を行いながら、将来的に会社全体で信頼性レベルを運用できるようにしていくことを目指しています。 また、障害時や破壊的な変更がある場合の通知は現状手作業で行なっていたり、信頼性レベル変更時に求められる要件を満たすための作業が大変だったりと、まだまだ信頼性レベルの運用コストが高い状態なので、自動化できるところは自動化して運用工数を下げていくことで、持続的に運用できる仕組みを作っていきたいと考えています。 最後に 12月17日(水)に「第2回データ分析現場のリアルな知恵と工夫」というオフラインイベントに登壇させていただきます。 本記事でもご紹介した信頼性レベルの運用の話をしようと思っていますので、ご興味がある方はぜひご参加ください! connpass.com
アバター
はじめに タイミーの神山です。 11/14-15 で 福岡工業大学 で開催された YAPC::Fukuoka 2025  に参加してきました。 私は当日のボランティアスタッフとして参加しつつ、いくつかのセッションを拝見したので、印象に残ったものをレポートという形でまとめます。 なお、タイミーには世界中で開催されている全ての技術カンファレンスに無制限で参加できる「 Kaigi Pass 」という制度があり、私はこれを使って参加しました。詳しくはリンクをご覧ください。 スタッフ業の様子 スタッフノベルティ 誘導している自分 クロージング! スタッフのみなさんありがとう! #yapcjapan_memorial pic.twitter.com/ijwyjMN6Nc — 坂井 恵(SAKAI Kei) (@sakaik) 2025年11月14日 はっ!941さん!大吉祥寺PMで『当日スタッフやりなよ、YAPC募集してるよ」って言われてその場で申し込んで今やってて! という方がいて、なんかいいことした気分。ちなみにスタッフの感想は「楽しいし、スタッフの尊さを知りました」とのこと。いいね。 #yapcjapan pic.twitter.com/sio1TmuszK — 941 / kushii (@941) 2025年11月15日 今回 YAPC に参加しようと思ったのは、 大吉祥寺.pm に参加して皆さんが YAPC はいいぞと言っており、興味を持ったことがきっかけです。 また、 株式会社カケハシ の 941 さんに「YAPC の当日スタッフとして参加してみたら?」と言ってもらったので、その場で申し込んで行くことが決定しました。 カンファレンスのスタッフ業、大変ですね。当日幾つも想定外のことが起きつつも柔軟に対応される皆さんすごいなあと思いました。(僕も色々とお手伝いさせてもらいました)今ではカンファレンススタッフへのリスペクトと感謝に溢れています。 また、弊社 DRE の chanyou さんがまさかのスタッフとして参加されており、初対面するというイベントもありました。色々ありましたが、初のスタッフ業楽しかったし気付きが多かったですね。参加して良かったです。 セッションの内容 なぜインフラコードのモジュール化は難しいのか - アプリケーションコードとの本質的な違いから考える fortee.jp speakerdeck.com インフラコードのモジュール化はなぜ難しいのか、インフラコードにおける問題点とアプリケーションコードとの対比を交えたセッションでした。 インフラコードとアプリケーションコードの性質は異なります。インフラコードだと”状態を記述”するので、個々の状態、つまり実装の詳細が関心事になる。 アプリケーションコードだと”処理を記述”するので、処理が何をもたらすか、つまり結果としての振る舞いが関心事になる。 従って、アプリケーションコードは処理自体のロジックをカプセル化して、抽象化が可能。 一方、インフラコードだと内部構造の可視性が必要なので、無理にカプセル化すると、理解が困難になってしまう。階層が多段 x モジュール化が問題をさらに困難なものにするという話もありましたね。 そもそも、モジュール化せずに書き下したり、論理的凝集ではなく機能的凝集を意識して、ディレクトリ・ファイル分割、モジュール機能を利用しようという結論でした。 自分はアプリケーションを書くことがほとんどなので、インフラコードとアプリケーションコードの違いに関して強く意識をしたことはありませんでした。アプリケーションコードなら当たり前に考える抽象化という考え方が、インフラコードだと一筋縄ではいかないという話を聞いて、新しい観点を得られた気がします。 「“状態の記述”と”処理の記述”はメンタルモデルが違うので、前者はホワイトボックス的、後者はブラックボックス的になる」という話だと認識しましたが、アプリケーションを書いている身からすると、テストコードは”状態の記述”のメンタルモデルが近いと思います。 テストコードは過度に抽象化しないというプラクティスもまさにそうだなと。テストが失敗した時に抽象化されていると、書き下されている場合に比べて原因のトレースが難しいですよね。 セッションスライドに、 ソフトウェア設計の結合とバランス の書籍の紹介がありましたね。統合強度の観点でもお話をされており、興味深かったです。 新しい観点を得られた素晴らしいセッションでした。 Amazon ECSデプロイツールecspressoの開発を支える「正しい抽象化」の探求 fortee.jp speakerdeck.com 普段何気なく使っている ecspresso の成り立ちや設計思想を知れたセッションでした。 ECS を管理できる IaC ツールを比較しながら、設計の違いに焦点を当て、 https://github.com/kayac/ecspresso の設計思想を明らかにする構成でした。 https://github.com/kayac/ecspresso は、責任分界点を明確にして”どこで切るか”が設計思想になっている。ECS 以外の AWS マネージドらを相手にせず、ECS のみにフォーカス。操作自体は抽象化( ecspresso deploy など)し、構造は抽象化しない。 セッション内で、 https://github.com/aws/copilot-cli というツールに言及がされていました。Copilot CLI は処理だけでなく、構造まで抽象化して提供しているとのこと。つまり、インフラ構成の定義が DSL ということです。インフラ定義を簡単に記述できるようにした DSL は、現実のアプリケーションが必要とする複雑さをカバーしきれない。DSL を運用し続けるのは骨が折れそうですよね。特に AWS API の変更や追加があったときは、それを抽象化して提供しないといけないわけですから、抽象 I/F をその都度考えないといけないわけです。Copilot CLI は ECS の複数 LB 対応をしておらず、現在は事実上メンテナンスモードになっているとのこと。 Copilot CLI がサポートしていない機能は CloudFormation テンプレートで書き下すしかなく、結局具象を使わざるを得ない状況に。この現象を “現実世界のアプリケーションを相手にすると抽象が破れて具象が漏れてくる” と表現されていました。 このセッションは、「 なぜインフラコードのモジュール化が難しいのか 」のセッションとも通ずるところがありました。 インフラコードは“状態の記述”をするもので、実装の詳細が関心事になるという話でしたが、まさにその内容がそのまま具体例として言及されているようだなと。Copilot CLI は構造を抽象化して提供しているがあまり、内部的には変更容易性を担保しづらい状態だったのかもしれませんね。 “状態を記述”する類のコードは、安易に抽象化しない方が良い、抽象化する範囲は慎重に考えた方が良いなと。前のセッションの内容と合わせて2倍楽しめる内容でした。 なぜThrottleではなくDebounceだったのか? 700並列リクエストと戦うサーバーサイド実装のすべて fortee.jp speakerdeck.com CloudBees さんで700並列リクエストを捌くために Debounce の手法を使ってサーバーサイドで処理をする実装の紹介でした。 CloudBees さんでは、CI/CD プラットフォームを提供しており、テスト結果を集めて AI を使ってさまざまな処理(以下、Close 処理)をしているとのことです。その際に700並列の分散テスト実行結果が大量に送られてくるので、Close 処理をある程度まとめて実行したいが、実行が終わったかどうかを判定するのが難しく、いい感じにデータが溜まった後に Close 処理する必要があったとのこと。なので、Close 処理を最適なタイミングでまとめて実行する仕組みが必要だった。 処理回数を間引くには、n秒に1回処理の Throttle と、待ち時間内に次のイベントが発生するとタイマーがリセットされ、処理の実行が遅延する Debounce があります。Debounce の例で言うと、Google の入力サジェストがあります。 YAPC という文字を1文字ずつ入力するたびに、サジェスト結果を返すのではなく、1文字ずつ入力するごとに処理時間が Delay して、最終的に C が入力されて次の入力がなくなったタイミングでサジェスト結果を返すようにするような手法です。今回は、ほぼ同時に大量のリクエストが送られてくるが、タイミングには振り幅があるので、決まった間隔の Throttle 処理ではなく、Debounce が良さそうだったとのこと。 基本的なロジックとしては、リクエストがあった時点で UUID を生成して Redis に格納し、nmb秒待って UUID を取得して照合し、同じ値なら実行する。他のリクエストがあったら、UUID が書き換わるので最初のリクエストは UUID 照合時に弾かれて何も実行されないというものです。 Race Condition への対応含め興味深く聞かせてもらいました。Redis の SET コマンドに、 GET オプション なんてあるんですね、知らなかった。 前職では、フロントエンドでサジェスト機能を作った際に Debounce のロジックを使って実現したことがあり、Debounce 自体の存在は知ってはいたものの、サーバーサイドのリクエスト負荷軽減の文脈で理解していたので、サーバーサイドのロジックそのものに適用するという視点は目から鱗でした。 Agentに至る道 〜なぜLLMは自動でコードを書けるようになったのか〜 fortee.jp speakerdeck.com 普段何気なく使っている AI Agent の成り立ちがざっくりわかるセッションでした。 Transformer ⇒ GPT ⇒ InstructGPT の流れで一発勝負の生成ができるところから、 ReAct 論文 の登場。生成してダメだったら何がダメだったのか考えて再生成という、人間の営みに近い動きを実現。Reason と Act のループを回せるように ReAct。これが自律的に判断し行動する AI エージェントの基礎に。言論文から学ぶ生成 AI を積読しているのでこれを機に読もうかなと思いました。 Stay Hacker 〜九州で生まれ、Perlに出会い、コミュニティで育つ〜 speakerdeck.com pyamaさんのキーノート、とても良かったです。生成 AI 時代に変わっているのは手段であって、自分の手でよくしたいという目的は変わってない。進化しながら Hack し続けるという話が印象的でした。いい課題を見つける、研鑽、事例から学ぶ。これからの自分がどうありたいかについて深く考えさせられました。 コミュニティの話も良かったです。自分の手で世界、社会、個人、技術を少しだけよくしようとする人たちの「熱」を感じられる。そこには言語の壁や、役職、職種でもない、”Hacker” としてのあり方があると。個人的にはコミュニティの体験がより Hack を楽しく加速させると感じています。 自分も楽しく Hack し続けたいですね。とても奮い立たせられる内容でした。 まとめ 独楽蔵で一杯 博多一双のラーメン YAPC 初参加でしたが、楽しかったし学びも多いカンファレンスでした。勢いで参加しましたが、参加して良かったなと思います。 Perl を1行も書いたことないんですが、そんな私でも学びになるセッションがとても多く、有意義な時間を過ごせました。 コミュニティの方も皆さん温かく、YAPC の成り立ちなどを教えてくれました。 改めて、福岡という場所は最高だなと思いました。アクセス抜群、食べ物も美味しい。福岡といったら独楽蔵という日本酒がありまして、燗酒でいただきました。良かったですね。 来年は東京ビッグサイト開催です!来年もまた参加したいですね。
アバター