TECH PLAY

ワークショップ

イベント

マガジン

技術ブログ

Amazon S3 の一般提供が開始されたのは、20 年前の先週にあたる 2006 年 3 月 14 日でした。 Amazon Simple Storage Service は、クラウドインフラストラクチャを定義した基礎的なストレージサービスだと考えられがちですが、シンプルなオブジェクトストレージサービスとして始まった S3 は、今でははるかに広い範囲と規模を備えたサービスへと成長を遂げました。 2026 年 3 月現在、S3 には 500 兆を超えるオブジェクトが格納されており、何百エクサバイトものデータ全体で 1 秒あたり 2 億件を超えるリクエストをグローバルに処理しています。料金は 1 ギガバイトあたり 2 セントを少し超える程度まで下がっており、リリース時から約 85% 削減されたことになります。私の同僚である Sébastien Stormacq が、「 Amazon S3 の 20 年を振り返り、未来を築く 」でエンジニアリングと今後の展望に関する詳しい記事を書きました。AWS の最初のお客様と、これらのお客様が現在の AWS をどのように形作ったかに関心がある場合は、「 How three startups helped Amazon invent cloud computing and paved the way for AI 」をぜひお読みください。20 年。これは立ち止まって祝うに値する年月です。 S3 の 20 周年記念に伴い、今週は Channy Yun も S3 の新機能、Amazon S3 汎用バケットのアカウントリージョナル名前空間に関する記事を書きました。この機能を使用すると、リクエストするバケット名にアカウント固有のサフィックスを追加することで、ユーザー独自のアカウントリージョナル名前空間内に汎用バケットを作成できるため、使用したい名前がユーザーのアカウント専用に常時予約されるようになります。新しい s3:x-amz-bucket-namespace 条件キーを用いた AWS IAM ポリシーと AWS Organizations サービスコントロールポリシーを使用して、組織全体での導入を強制できます。 Amazon S3 汎用バケットのアカウントリージョナル名前空間の詳細については、 Channy の記事 をお読みください。 2026 年 3 月 16 日週に行われた注目のリリースは、 Amazon Route 53 Global Resolver の一般提供 です。このサービスは、私自身との個人的なつながりがあるものです。昨年の re:Invent 2025 でのこの機能の プレビュー に関する記事を書いたのですが、とても楽しく取り組めた記事だったので、一般提供が開始されたと聞いて本当に嬉しく思っています。 インターネット経由でアクセスできるエニーキャスト DNS リゾルバーである Amazon Route 53 Global Resolver は、どこからでも承認済みクライアントに DNS 解決を提供できます。30 の AWS リージョンで一般提供が開始されており、IPv4 と IPv6 両方の DNS クエリトラフィックをサポートします。Route 53 Global Resolver は、組織内の認証済みクライアントに対し、Route 53 プライベートホストゾーンに関連付けられたパブリックインターネットドメインとプライベートドメインのエニーキャスト DNS 解決を、特定の VPC やリージョン内だけでなく、どこからでも提供します。また、悪意があると考えられるドメイン、職場に不適切なドメイン、および DNS トンネリングやドメイン生成アルゴリズム (DGA) などの高度な DNS 脅威に関連するドメインをブロックするための DNS クエリフィルタリング機能も提供されており、一元化されたクエリのログ記録機能も含まれています。一般提供された Global Resolver は、辞書ベースの DGA 脅威に対する保護を強化します。 2026 年 3 月 9 日週のリリース 以下は、2026 年 3 月 9 日週に行われたその他の発表の一部です。 Amazon Bedrock AgentCore Runtime がステートフル MCP サーバー機能のサポートを開始 – Amazon Bedrock AgentCore Runtime が、ステートフルモデルコンテキストプロトコル (MCP) サーバー機能のサポートを開始しました。開発者はこの機能を使用して、リソース、プロンプト、およびツールに対する既存のサポートとともに、エリシテーション (情報の引き出し)、サンプリング、および進捗通知を使用する MCP サーバーを構築できます。ステートフル MCP セッションでは、分離されたリソースを用いる専用の MicroVM で各ユーザーセッションが実行され、サーバーは Mcp-Session-Id ヘッダーを使用して複数のやり取りにおけるセッションコンテキストを維持します。エリシテーションは、サーバーが開始するマルチターンの会話を行って、ツールの実行中に構造化された入力をユーザーから収集できるようにします。サンプリングは、パーソナライズされた推奨事項などのタスクのために、サーバーがクライアントに LLM 生成コンテンツをリクエストすることを可能にします。進捗通知は、長時間に及ぶ操作中でも、クライアントが情報を常に把握しておけるようにします。詳細については、 Amazon Bedrock AgentCore ドキュメントを参照してください。 Amazon WorkSpaces が Microsoft Windows Server 2025 のサポートを開始 – Amazon WorkSpaces Personal と Amazon WorkSpaces Core で Microsoft Windows Server 2025 を活用する新しいバンドルを利用できるようになりました。これらのバンドルには、Trusted Platform Module 2.0 (TPM 2.0)、Unified Extensible Firmware Interface (UEFI) Secure Boot、セキュアコアサーバー、Credential Guard、Hypervisor-protected Code Integrity (HVCI)、DNS-over-HTTPS などのセキュリティ機能が含まれています。既存の Windows Server 2016、2019、および 2022 のバンドルも引き続きご利用いただけます。マネージド Windows Server 2025 バンドルを使用することも、カスタムのバンドルとイメージを作成することも可能です。このサポートは、Amazon WorkSpaces が提供されているすべての AWS リージョンでご利用いただけます。詳細については、「 Amazon WorkSpaces のよくある質問 」をご覧ください。 AWS ビルダー ID が GitHub と Amazon を用いたサインインのサポートを開始 – AWS ビルダー ID でサポートされるソーシャルログインオプションに、GitHub と Amazon の 2 つのオプションが追加されました。これらのオプションは、既存の Google と Apple のサインイン機能に新たに追加されるものです。この更新により、開発者は一連の認証情報を個別に管理しなくても、既存の GitHub または Amazon のアカウント認証情報を使用して AWS ビルダー ID プロファイル (および AWS Builder Center、AWS トレーニングと認定、Kiro などのサービス) にアクセスできるようになります。詳細を確認して使用を開始するには、 AWS ビルダー ID ドキュメントをご覧ください。 Amazon Redshift に COPY 操作用の再利用可能なテンプレートを導入 – 頻繁に使用される COPY パラメータを保存して再利用できる COPY コマンド用のテンプレートが Amazon Redshift でサポートされるようになりました。テンプレートは、データインジェスト操作全体で一貫性を維持するために役立ち、COPY コマンドの実行に必要な労力を軽減して、将来の使用のすべてにテンプレート更新を自動適用することでメンテナンスを簡素化します。COPY テンプレートのサポートは、Amazon Redshift が提供されているすべての AWS リージョン (AWS GovCloud (米国) リージョンを含む) でご利用いただけます。使用を開始するには、こちらの ドキュメント を参照するか、ブログ記事「 Standardize Amazon Redshift operations using Templates 」をお読みください。 AWS のお知らせに関する詳しいリストについては、 ニュースブログ チャネルである「 AWS の最新情報 」ページをご覧ください。 近日開催予定の AWS イベント カレンダーを確認して、近日開催予定の AWS イベントにサインアップしましょう。 AWS Summit – 2026 年の AWS Summit に参加しましょう。AWS Summit は、クラウドおよび AI 関連の新興テクノロジーを探求し、ベストプラクティスについて学び、業界の同業者や専門家とつながることができる無料の対面イベントです。次回の Summit は、 パリ (4 月 1 日)、 ロンドン (4 月 22 日)、 バンガロール (4 月 23〜24 日) で開催される予定です。 AWS Community Day – コミュニティリーダーたちがコンテンツを計画、調達、提供し、テクニカルディスカッション、ワークショップ、ハンズオンラボが行われるコミュニティ主導のカンファレンスです。今後のイベントには、 プネー (3 月 21 日)、 サンフランシスコ (4 月 10 日)、 ルーマニア (4 月 23~24 日) などがあります。 AWS at NVIDIA GTC 2026 – 2026 年 3 月 16~19 日に米国サンノゼで開催される NVIDIA GTC 2026 で、AWS のセッション、ブース、デモ、付帯イベントに参加しましょう。AWS 経由でイベントパスの 20% 割引を受け、GTC での 1 対 1 ミーティングをリクエストできます。 AWS Community GameDay Europe – 2026 年 3 月 17 日に行われる AWS Community GameDay Europe は、ヨーロッパの 50 を超える都市で同時開催される、チームベースのハンズオン AWS チャレンジイベントです。参加チームは、壊れた AWS 環境内 (誤設定されたサービス、欠陥のあるアーキテクチャ、セキュリティギャップ) に配置され、2 時間の制限時間内で環境を可能な限り修正する必要があります。最寄りの開催都市を見つけて、 awsgameday.eu でサインアップしてください。 AWS Builder Center に参加して、ビルダーとつながり、ソリューションを共有し、開発をサポートするコンテンツにアクセスしましょう。こちらのリンクから、今後開催されるすべての AWS 主導の対面イベントおよび仮想イベント と デベロッパー向けのイベント をご覧いただけます。 2026 年 3 月 16 日週のニュースは以上です。2026 年 3 月 23 日週の Weekly Roundup もお楽しみに! – Esra この記事は、Weekly Roundup シリーズの一部です。AWS からの興味深いニュースや発表を簡単にまとめて毎週ご紹介します! 原文は こちら です。
「Google Cloud Next Tokyo」はGoogle Cloudが年に1回開催するイベントの日本版で、クラウド技術の最新情報や事例の紹介に加え多彩なワークショップなどを含み、今年は2025年8月5日(火)と6日(水)の2日間、東京ビッグサイトで開催されました。 本記事は8月5日のセッションでunerryの3名が登壇した「Vertex AIで実現:購買データ x 約1億IDの人流データによる次世代広告ターゲティング」を書き起こし風にレポートします。 (実際の発言から編集を加えています) ※人員数やデータ量に関する記載等、本記事に関する内容は2025年8月5日時点での内容となります。 INDEX 会社紹介 次世代広告ターゲティング 購買特性と行動特性の関係 人流 X 購買データによる購買予測モデル Vertex AI Pipelinesによる開発期間短縮とコスト削減 Vertex AI Experimentsによる可視化でビジネスサイドとの共創 まとめ 皆さん、こんにちは。unerryは、位置情報を中心とした行動ビッグデータを保有する企業です。本日は、Vertex AIを活用して広告ビジネスにおける新たな強みを確立した事例を紹介します。 まず、自己紹介をさせていただきます。私は梅田と申します。unerryでは広告ビジネスの推進を担っており、本取り組みではビジネス側の要件定義とプロジェクト推進を担いました。 後ほど登壇するデータサイエンティストは2名おり、張が機械学習モデルの開発マネジメントを、上野が主に実装を担当しました。本日はこの3名で説明いたします。 アジェンダは、最初に弊社unerryについて、次に次世代広告ターゲティングの概要、最後にVertex AIを用いたMLOpsの活用方法についてお話しします。 会社紹介 unerryは、リアル行動データプラットフォーム「Beacon Bank」を中心に事業を展開しており、国内外で4.2億IDの生活者行動ビッグデータを保有しています。このデータを解釈するAI技術を活用し、以下の3つのサービスを提供しています。 1. 特定のお店や街への来訪者を分析・可視化するサービス 2. 分析結果に基づき広告を配信し、実際の来店を検証する広告配信の仕組み 3. One to Oneのパーソナライゼーションを行うシステム開発 当社が保有する生活者行動ビッグデータの核は人流ビッグデータです。データソースは主にスマートフォンのGPSデータと小型のビーコンセンサーの2種類です。日本と北米を中心に展開し、グローバルで4.2億IDを保有しています。この人流ビッグデータには、IDで紐づく形で購買データやテレビ視聴データなど、生活者のあらゆる行動データが結びついています。 4.2億IDはグローバルでもトップクラスの規模です。unerryは、データ量が一定の閾値を超えるとモデル性能が非線形に向上するデータスケーリング則の域に達しています。世界トップクラスのユーザー数を誇るプレイヤーは、このデータを用いて独自の生成AIモデルやレコメンドシステムを開発しており、unerryも同様のデータボリュームを有しています。 次世代広告ターゲティング 今回は行動変容サービス、すなわち広告領域での事例について説明します。 普段のお買い物のうち、リアルなお店、例えばコンビニとかスーパーで買い物する時の支出のどれくらいの割合がリアルで行われるか、ご存じですか?オンラインECサイトの普及により、オンラインでの購買が増加している印象がありますが、実際には9割がリアル店舗で発生しています。もし皆さんがメーカーの販売促進の予算を決める責任者だったとしたら、リアルの施策とオンラインECの施策、どっちに投資しますか? もちろんインパクトが大きい9割のほう、リアル施策に投資しますよね。 このような背景から、リアル世界をデータ化しているunerryには、近年メーカーからの相談が増加しています。本セッションで紹介する次世代広告ターゲティングは、このようなメーカーのニーズに応えるものです。 次にシナリオを紹介します。広告主であるメーカーは、スーパーやコンビニに陳列される商品を製造し、店頭販促の予算を保有しています。この予算を効率的に活用するため、購買見込み層をターゲットとした広告を検討しています。 この要件に対し、unerryの広告配信サービスでは現在大きく2つのアプローチを提供しています。 1つは、人流データを用いて、例えば商品が陳列されているスーパーを普段利用する層に広告を配信すること。その際に、ジムに通っているなどの行動アフィニティも組み合わせることができます。もう1つは、unerryが提携する企業が保有する購買データを用いた、類似商品を購入している層への広告配信です。例えば、メーカーが新しい健康飲料を発売した場合、unerryのサービスでは、普段から健康食品を購入している層への広告ターゲティングが可能です。 現在提供している人流ターゲットと購買ターゲットの評価について説明します。人流データは国内でMAU約1億規模であるため、配信ボリュームを確保できます。購買データは購買レベルでの消費傾向が把握できるため、予測精度を高く保つことができます。しかし、人流データと購買データをそれぞれ単独で利用する現状では、配信ボリュームの最大化と購買パフォーマンスの最大化という2つの目標を両立することが困難なのが現状です。これは、どちらか一方を優先するともう一方が犠牲になるというトレードオフの関係にあります。 ではどうすればこのトレードオフを乗り越えられるか。人流データが1億IDあるなら、2つのデータソースもそれなりに重なるはずで、組み合わせて活用したら配信ボリュームも「◯」、パフォーマンスも「◯」、という夢のようなターゲティング手法が実現できるのではないかと考えました。 次に次世代広告ターゲティングの全体像について説明します。 日本国内で約1億の人流ビッグデータがあり、ここから独自の2つのプロセスでターゲットを絞り込みます。この2つの絞り込みは僕の体験がベースで、そこから得た教訓から見出しています。 日本昔ばなしと同じように「物語から教訓を得る」という構造でお話しします。 1つ目の絞り込みの元となった体験をご説明します。 あるメーカーさんの新食感のお菓子の広告を何回か見て、だんだん興味を持ち「一度食べてみたいな」と思いました。そこで普段行っているスーパーやコンビニで探したのですが、そのお菓子はまったく置いていませんでした。皆さんも広告を見て「これ欲しいな」と思ってお店に行ったけど置いてなかったことありますよね。結局、僕はいまだにそのお菓子を食べたことがないんです。 この経験から得られる教訓は、効率的な販促のためには、まず「商品を置いているお店に普段から行っている人」にターゲットを絞るべきであるということです。これは人流データを扱うunerryであれば容易に実現できます。 2つ目の絞り込みも体験から。 ある時期、YouTubeでの動画広告やニュースサイト上のディスプレイ広告など、様々なメディアで特定の調味料の広告が頻繁に表示されました。しかし僕は普段まったく料理をしないため、その調味料を購入することはありませんでした。なんならスーパーに行っても調味料の棚にすら行っていないです。スーパーに入ったらお惣菜コーナーに直行し、レジに直行し、家に直行します。料理しないんだから当然ですよね。 皆さんも、興味のない商品の広告が結構出てくる事があると思います。 この経験から得られる教訓は、効率的な販促のためには「商品を購入する可能性が高い人」にターゲットを絞り込むべきであるということです。 このステップは、先ほどの1つ目と違って、我々は本格的に取り組んだことがない領域でした。ただ、unerryは1億のIDを保有し、そのIDごとに「行動のプロファイリング」、すなわち特徴量を持っているので、何か見いだせるんじゃないかと、ビジネスサイドの人間として夢だけ大きく膨らませました。 この無邪気な夢を、データサイエンティスト2名がGoogleのサービスを使ってスマートに実現してくれました。ここからは、実際にどう筋道を立てて走り切ったかについてお話いただきます。 購買特性と行動特性の関係 こんにちは、データサイエンティストの張です。 さっそくですが、どのようにして人流データから「商品を購入する可能性」を推測するのでしょうか?まずは人流データを多様な外部データと統合し、いろんなユーザーの特徴量を作成します。 1つの例を挙げると、人流データを日本全国254万箇所以上のPOIデータと掛け合わせて、ユーザーが来訪する場所と頻度という特徴量を作れます。スライドの例のように、この特徴量はユーザーの行動特性を反映できると考えています。 また、先ほどの行動特性は購買特性と関係があるかについて確認しました。 実際の分析の例では、ベビー用品を購入するユーザーは大型商業施設への年間来訪回数が全体平均より30%多く、一方で居酒屋への年間来訪回数が全体平均より25%少ないという結果が得られました。ベビー用品の購入者像を想像すると、非常に腑に落ちる結果ですよね。 人流 X 購買データによる購買予測モデル アーキテクチャについては、要件が4つありました。 1つ目は「数億行の大規模データに対して効率よく学習できること」です。このアーキテクチャでは2つのタワーがニューラルネットワークなので、GPUを使えば大規模の並列学習が可能です。 2つ目は「商品の説明文や画像も利用したい」ということです。このモデルでは入力はベクトルになるため、今流行りのLLMを使って画像や説明文などの非構造データもベクトルに変換して取り込むことができます。 3つ目は「新商品に対しても効率よく再学習できること」。我々のデータは大規模なので、新しい商品が追加されたりユーザーの行動情報が変化しても、モデル全体を再学習すると時間がかかりますが、このアーキテクチャでは2つのタワーが独立に学習できるため、一方を更新する際にもう一方を必ずしも更新しなくて良いという構造になっています。 最後の4つ目は「広告対象の商品に対して1億ユーザーに対しても効率よく購買スコアを計算すること」です。ユーザーベクトルを事前に用意すれば、新しい商品のベクトルに対して近傍探索をすれば、例えば1億ユーザーから一番近い200万人のIDを抽出することが簡単にできます。 そして構築した購買予測モデルを評価するために、購買スコアの上位N%と全体平均を比較します。ベビー用品の例で説明すると、まずユーザー一人ひとりの購買スコアを推定し、スコアが高い上位10%のユーザーの購買率が全体平均と比べてどれだけ差があるのかを可視化します。 その結果の一部をお見せすると、お酒とベビー用品で上位10%のユーザーはそれぞれ全体平均より36%と57%高いという結果になりました。これは広告予算を購買見込みの高い層への最適配分に非常に価値のある精度を意味しています。 ここから最後のパートでは、モデル構築で直面した課題と、Google Cloudのソリューションを用いた解決手段について、実装を担当した上野から紹介します。 上野です。よろしくお願いします。 先ほどご紹介した購買予測モデルの開発には、非常に多くの試行錯誤がありました。 データサイエンティストの皆様であれば、何度も改良サイクルを重ねてモデルの改善を繰り返すご経験があると思います。そうした改善フェーズにおいて、今回Google CloudのAI開発プラットフォームであるVertex AIが非常に大きな支えとなりました。どう駆使したかを紹介します。 解決した課題は2つあります。 1つ目は開発期間の長期化・開発コストの増大、端的に言うとスピードとコストです。改良サイクルの回数が増えたり扱うデータの規模が大きいことが要因で期間が延び、コストが増大しがちです。ただ、精度を上げるという観点では試行錯誤は不可欠で、データ規模の拡大も受け入れる必要があります。 Vertex AI Pipelinesによる開発期間短縮とコスト削減 そこで登場するのがVertex AI Pipelinesです。 Google Cloud上で機械学習パイプラインを構築・実行するサービスで、例えばBigQueryからデータを取ってきて前処理を行いモデルを学習するといった各ステップを「コンポーネント」として定義します。 なぜ Vertex AI Pipelines が開発期間とコストの課題を解決するのか。これを、並列実行・キャッシュ・コンポーネント単位のマシン選択という3つの観点から説明したいと思います。 並列実行はその名の通りコンポーネントを同時に実行できます。例えばモデル学習を複数のハイパーパラメータ条件で走らせたいとき、Vertex AI Pipelines なら簡単に並列化でき、結果として開発時間の短縮につながります。 2つ目は「キャッシュ」です。これは一度実行した結果を保存し、2回目以降の実行時は保存結果を参照することで計算を省きます。 例えばモデルのコンポーネントのコードを修正したときに、上流の前処理コンポーネントをわざわざゼロから実行し直す必要はありません。 Vertex AI Pipelines はコードの変更に影響のないコンポーネントに自動でキャッシュを適用し、開発時間の短縮とコストの最小化につながります。 最後の「コンポーネント単位のマシン選択」は、学習だけGPUを使い、前処理は汎用マシンにする、のように各コンポーネントに合ったマシンタイプを割り当てられるということです。結果として、開発期間短縮とコスト最小化を行えます。 これがアーキテクチャ図です。Vertex AI Pipelines は「機械学習基盤」の中の「学習パイプライン」で活用しています。 Vertex AI Experimentsによる可視化でビジネスサイドとの共創 次に、2つ目の課題はビジネスサイドと開発サイドの壁です。 ビジネスサイドの方をいかに巻き込むかは非常に重要で、ドメイン知識やプロジェクトの目的は改善フェーズでも必要不可欠だからです。実際にビジネスサイドの方にヒアリングすると、1番の理由は「難しそうで意見を言いにくい」。逆に言えば、分かりやすく情報を伝えられれば議論は活性化します。図や言葉などの視覚情報とともに、シンプルに伝えることが重要です。 そこで支えになるのがVertex AI Experimentsです。 実験名やハイパーパラメータ、評価指標を可視化・管理できるだけでなく、“TensorBoard”を用いることで、コード内で定義した評価グラフやモデルの説明(文章)も自動でダッシュボードに反映できます。従来のスライドやノートブックに手で転記する方法と比べて、自動反映という点で作業時間を大幅に削減できますし、管理という観点でも常に自動で最新化されます。 イメージとしては、複数の実験ケースを一元管理し、モデルの説明をMarkdownで分かりやすく記載し、画像タブで実験結果の図も登録できます。ただし可視化はあくまで手段で、目的はビジネスサイドとの共創、その先のモデル改善です。 ではこの可視化によってどんな議論が生まれ、どんな改善につながったのか。2つ紹介します。 1つ目は評価指標に関して。はじめは購買スコアの妥当性を評価するのに、スコア上位50%と下位50%の購買率の差を見ていました。しかし「広告配信をした場合の差を想定したい」「現状の案件規模感的には他のレンジでも購買率を見たい」という意見が出て、10%刻みで上位N%の購買率を全体平均と比較できるようにしました。 2つ目は学習方法について。はじめはネガティブサンプリングを行って“買った/買ってない”で学習していたのですが、売上最大化を考えると「どれだけ買ったか」も考慮したい、という議論が生まれました。そこで学習時に購買点数で損失を重み付けして学習したところ、結果的に予測精度が大幅に改善しました。 まとめ 最後にまとめです。主に2つお話ししました。 1つ目は次世代広告ターゲティング、人流データと購買データを掛け合わせることで“ボリュームと精度”という広告ターゲティングの2つの課題解決に挑んだこと。 2つ目はモデル改善フェーズにおけるVertex AIの活用。Vertex AI Pipelinesでコストとスピードを最適化し、Vertex AI Experimentsで実験条件を可視化・管理して議論を活性化し、モデル改善に大きく貢献したことです。 ご清聴ありがとうございました。 最後に宣伝です。unerryは、一緒に働く仲間を募集中です。 膨大な人流データや購買データを扱えて、多く挑戦できる魅力的な環境です。ご興味いただけた方はぜひお話しましょう! unerryはデータサイエンティストを募集中です! 株式会社unerry 採用ページへ The post Vertex AIで実現:購買データ x 約1億IDの人流データによる次世代広告ターゲティング / 「 Google Cloud Next Tokyo 」登壇レポート first appeared on 株式会社unerry .
こんにちは、unerry CTOの伊藤です。 2025年9月、データサイエンティスト上野優人が、北海道で開催された「情報科学技術フォーラム(FIT)」において、 「位置情報データと購買データを活用した広告セグメントの開発」 に関する発表を行いました。 今回の発表は8月の「Google Cloud Next Tokyo」での登壇に続くもので、最先端技術の実装に新卒のエンジニアが挑んだ記録でもあります。 講演内容の核心となる技術、そして若きデータサイエンティストとしての挑戦の舞台裏について、上野に話を聞きました。 登場人物 株式会社unerry テクノロジー&オペレーション部 データサイエンス&AIチーム 上野 優人(うえの ゆうと) 入社日: 2025年4月 最近の推し: 令和ロマン 筑波大学を卒業後、上智大学大学院 応用データサイエンス学位プログラムを修了。大学院では、「価格・需要変動下における、利益最大化のための販売戦略」に関する研究を行った。在学中より、unerryでの長期インターンを経験し、保有するデータと働く人に魅力を感じて新卒入社。現在は、位置情報・購買データを用いたロジック開発および改善に取り組んでいる。 <聞き手>株式会社unerry CTO 伊藤 清香(いとう さやか) 入社日: 2018年2月 最近の推し: ピェンロー鍋 ガラケーからスマホまで20年以上モバイルWebシステムを開発し、高負荷対策をノリと勘で支えた縁の下の力持ち。人生の節目にあたり、これからはIoTで人々の生活を便利にしようと考えて、当時10人位だったunerryへJoin。会社の成長とともに湯水のように湧き出る課題を解決し、働きやすい職場環境を作ることを生きがいとしている。趣味はサッカー観戦と音声制御技術。 第1章:推薦システムを革新する「Two-Tower モデル」の技術的深掘り 伊藤: 今回の講演の核となった技術について、詳しく教えてください。 上野: はい、講演では、一言でいうと 位置情報データと購買データ を掛け合わせた次世代ターゲティングモデルについてお話ししました。このモデルは、ユーザーが過去にどこで行動したかという情報(位置情報データ)を、どの商品を買ったかという情報(購買データ)と組み合わせることで、より高精度な広告セグメントの構築を実現するものです。 この推論モデルは、unerryの梅田と張が共同で発明した特許(番号:特許7641682)を実装したものです。(*1) そして、その技術的な中核を担っているのが 「Two-Towerモデル」 というアーキテクチャです。これは、大規模ユーザーに対して高速に推論できるという利点から、YouTubeなど大手テック企業で採用されている先進的なアルゴリズムです。 伊藤: その「Two-Towerモデル」が従来の推薦システムと比較して画期的なのはどのような点でしょうか? 上野: 主に、従来のシステムが抱える大きな課題を解決できる2点にあります。 1. 新商品に対する推薦が可能: 一般的に、小売企業が持つPOSデータだけを使った推薦システムでは、新商品を販売する際、購買データが全くないため、誰に推薦したらよいか分かりません。しかし、Two-Tower モデルは、商品の特徴量(価格、カテゴリなど)から生成したベクトルで推薦を行うため、データがない新商品でも適切なユーザーに推薦できます。 2. 購買履歴がないユーザーにも推薦が可能: リテール(小売)の購買データがないユーザー、つまりそのお店で買ったことがないユーザーは、従来のシステムではターゲティングできませんでした。しかし、当社は位置情報データを持っています。位置情報データから抽出・推定したユーザーの行動DNA(unerry独自の指標:普段の行動傾向を示す)や性別・年代といった特徴量があれば、購買履歴がないユーザーに対しても、「この商品を買いそうだ」という可能性を予測できます。 伊藤: その高速な処理を実現するアーキテクチャについて、具体的に解説いただけますか? 上野: Two-Tower モデルは、名前の通り、 ユーザーの特徴量と商品の特徴量という2つのタワー で構成されています。 ユーザーの性別や年代といった特徴量、そして商品の価格やカテゴリといった特徴量を、それぞれ深層学習(DNN)で処理することで、意味のある 「ベクトル」 (埋め込み表現、エンベディング)を生成します。 推薦のスコアは、この 「ユーザーベクトル」と「商品ベクトル」の内積 で算出されます。内積が大きいほど、ユーザーがその商品に興味を持っていると判断できます。 高速化の肝は、 オフラインとオンラインの処理を分けている点 です。 ●オフライン処理: 商品のベクトルは頻繁に変わらないため、事前に計算し、データベースに保存しておきます。 ●オンライン処理: ユーザーのベクトルだけをリアルタイムで計算し、保存しておいた商品ベクトルと照合(近似最近傍探索)することで、瞬時に推薦結果を出すことができます。 YouTubeなどのテック系企業で採用されているのも、この「大規模ユーザーに対して瞬時に結果を出せる」というスケーラビリティと速度が最大の要因です。ちなみに、今回採用したベクトルの次元数は128次元で、一般的なシステムで使われる700次元や1000次元と比較しても、 軽量でリーズナブルな計算資源 で済むという利点もあります。 第2章:実装を阻む壁と300回超のトライ&エラー 伊藤: この最先端の技術を実装する過程で、特に大変だったのはどのようなことでしょうか? 上野: 非常に多岐にわたりましたが、最大の困難は 「実装の難しさ」 でした。Two-Tower モデルは概念はシンプルですが、適切なベクトルを生成するための深層学習レイヤーの学習が非常にデリケートで難しいと言われています。実際に手を動かすと、なかなか期待通りの精度が出ませんでした。 ~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~ <補足> Two-Towerモデルについて: Google の YouTube 推薦アルゴリズムなど、大手テック企業で採用されており、大規模ユーザーに対して高速に推論できるという点で革新的。ただし扱いが難しくまだ広く浸透していない。 参考動画 ~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~ 私のログを確認したところ、モデルの試行回数は300回以上に及びました。最初はもちろん、コードの書き間違い(コーディングミス)も多くありましたが、その後は主に「ベクトルの精度をどう上げるか」という試行錯誤の連続でした。 伊藤: ベクトルの精度向上は、具体的にどのように進めたのでしょうか? 上野: 精度を上げるためには、モデルに「正解」を教えて学習させる必要があります。私たちは、ユーザーIDに位置情報データの行動パターンから推定した属性を特徴量(性別、年代など)とし、実際の「購買データ」と紐づけました。「このユーザーがこの商品を買った」というデータには「1」(正解)を、「買ってない」というデータには「0」(不正解)を与えます。 そして、モデルが算出した内積スコアが、この正解(1か0)に近づくように、深層学習レイヤーを学習させていくんです。適当なベクトルだと意味のないスコアが出てしまうので、「ここは1ですよ」という正解を与えることで、ベクトルの精度を上げていきました。 伊藤: 講演の登壇準備と、このモデル開発を同時並行で進めるのは、相当な負荷だったと想像します。 上野: おっしゃる通りです。登壇の締め切りに追われる中で、コードを大量に書き、試行錯誤を繰り返す日々でした。しかし、その結果として、 YouTube や他のビッグテック企業が採用しているのと「同じレベルの技術」を、当社のビジネスに組み込むことができたのは、大きな達成感 でした。まさに「困難を乗り越えたからこそ、価値がある」と実感しています。 第3章:学会の独特な雰囲気と、2度の国際的な登壇経験 伊藤: 会場の雰囲気はいかがでしたか? 上野: 学会の雰囲気は、一般の技術カンファレンスとは異なり、独特の緊張感がありました。リアル会場には20名程度の参加者がいたかと思います。 伊藤: 質問はありましたか? 上野: はい、お一人の方から質問をいただきました。登壇内容というよりは、当社の事業領域である「人事領域のAI活用」に関する相談でした。これは、技術広報と採用という今回の登壇目的にも合致しており、意義のある交流となりました。 伊藤: 実は、このFITを含めて、上野さんは短期間で連続して登壇されていると聞きました。 上野: はい、プライベートも含めると5ヶ月で4回となります。 ① 5月:日本経営工学会(国内学会) 卒業後に参加。大学院での研究テーマ(中古スマートフォンの販売先最適化)を発表。 ② 7月:ICPR(国際会議、コロンビア) 指導教員の計らいで、単身コロンビアへ渡航。経営工学に関する研究を発表しました。治安や言語の面で非常にタフな環境でしたが、貴重な経験でした。 ③ 8月:Google Cloud Next Tokyo(国内)クラウド技術大規模カンファレンス ④ 9月:FIT(今回の登壇) 伊藤: コロンビアでの単身登壇は驚きです。短い準備期間での挑戦も大変だったと思いますが、何かエピソードはありますか? 上野: FIT登壇の準備期間は1週間ほどしかありませんでした。特に大変だったエピソードとして、飛行機の機内で発表練習をしていたことがあります。 飛行機が遅延し、時間ができたため、PDF資料を読み込みながら、頭の中でプレゼンを再生し、タイマーで時間を計るというスタイルで練習を続けていました。ブツブツと声に出すことはしませんでしたが、頭の中ではひたすら時間を調整していました。 また、登壇全体を通して、先輩から非常に手厚いフィードバックをいただきました。 ●「短い言葉で言い切ること」 ●「初見の専門用語をいきなり使ってしまうと、聴衆がついていけなくなる」 といった、スライド作成術から話し方まで、実戦を通じて学ぶことができました。特にGoogle Cloud Nextの際は、他の登壇者との兼ね合いで持ち時間が短くなるという裏事情もありましたが、学んだ技術を活かし、説明の核を外さずにコンパクトにまとめることができたと思います。 第4章:未来の仲間へ。「交流」の場としての学会の価値 伊藤: 学会全体を通して、上野さんが最も重要だと感じたことは何でしょうか。 上野: それはやはり 「交流」 です。 発表者側としては、質問を1人からしか得られなかった反省から、いかに相手に興味を持ってもらえる発表をするかという難しさを痛感しました。一方で、聴衆側として、自社のビジネスに関連のあるセッションには積極的に質問しに行きました。例えば、 自然災害時に避難場所を教えるチャットボット に関する研究は、当社のビジネスとも関連しそうで、非常に興味深く、質問を通して発表者の方と有益な関わりを持つことができました。 学会は、最新の技術動向を知るだけでなく、普段関わることのない研究者や学生とコネクションを作り、自分では気づかなかった新しい観点での気づきを得られる場です。 伊藤: 最後に、同じようにデータサイエンスを深く突き詰めたい学生、そして未来の仲間たちにメッセージをお願いします。 上野: 私は大学院で数理最適化を学び、その専門性が現在のデータサイエンスの仕事にダイレクトに活きています。入社後わずか数ヶ月で、世界的にも先進的な技術であるTwo-Tower モデルの実装に挑戦し、それをビジネスに組み込むという経験ができました。 「学んできたことを、社会の現場で直線的に活かしたい」、「困難な技術に果敢に挑戦し、その成果を世の中に羽ばたかせたい」という熱意 を持った方にとって、unerryは非常に恵まれた環境です。 私たちと共に、最先端のデータサイエンスを深掘りし、世の中を動かす技術を生み出していく仲間になりませんか? *1 Google Cloud Next Tokyo ‘25の登壇記事もありますので参照ください。 Vertex AIで実現:購買データ x 約1億IDの人流データによる次世代広告ターゲティング / 「 Google Cloud Next Tokyo 」登壇レポート https://www.unerry.co.jp/blog/google-cloud-next... 「Google Cloud Next Tokyo」はGoogle Cloudが年に1回開催するイベントの日本版で、クラウド技術の最新情報や事例の紹介に加え多彩なワークショップなどを含み、今年は2025年8月5日(火)と6日(水)の2日間、東京ビッグサイトで開催されました。 本記事は8月5... unerryでは、行動データの可能性を共に切り拓くデータサイエンティストやエンジニアを募集しています。挑戦できる環境で価値創造に取り組みたい方は、ぜひお問い合わせください。 株式会社unerry 採用ページへ The post 300回超の試行錯誤を経て新卒データサイエンティストが開発に挑む「人流×購買データによる広告ターゲティング手法」 first appeared on 株式会社unerry .

動画

書籍