TECH PLAY

ゲーム

イベント

マガジン

技術ブログ

G-gen の山崎です。当記事は、Google Cloud Next '26 in Las Vegas の1日目に行われたブレイクアウトセッション「 Real-time multimodality: Building seamless experiences with the Gemini Live API 」のレポートです。 G-gen Tech Blog では、現地でイベントに参加したメンバーや、日本から情報をウォッチするメンバーが、Google Cloud Next '26 に関連する記事を発信します。 blog.g-gen.co.jp セッションの概要 Gemini Live API の概要と特徴 自律的エージェントのプラットフォーム Gemini Live API を支える3つの柱 Affective dialog とコンテキストの記憶 Gemini Live API の新機能の紹介 Live Avatar(2026年4月現在、プライベートプレビュー) Live Avatar のデモ 企業の導入事例 Shopify : サポートアシスタント「Sidekick」 Citibank : 次世代金融ウェルスアドバイザー Otto : e コマースにおける対話型アドバイザー スクウェア・エニックス : 「真の相棒」としての AI セッションの概要 本セッションでは、 Gemini Live API のプロダクトリードを務める Fabien Mathey 氏や Google の Wendy Yin 氏が登壇し、Gemini Live API の基本機能や、新機能である 「Live Avatar」 の発表を行いました。 さらに、事例紹介として、Shopify、Citibank、ドイツの e コマース大手 Otto、そして株式会社スクウェア・エニックスの取り組みが紹介されました。特にスクウェア・エニックスからは「ドラゴンクエスト」シリーズの生みの親である堀井 雄二氏が登壇し、ゲームと AI の融合がもたらす未来のビジョンについて語られました。 Gemini Live API の概要と特徴 自律的エージェントのプラットフォーム 2026年4月現在、Gemini Live API は Gemini Enterprise Agent Platform 上で稼働しています。このプラットフォームは、単に AI に「指示」を出す段階から、タスクを「委任」する段階への移行を促すものです。 AI が知能を持つだけでなく、真の自律性を持つエージェントとして機能し、チームメンバーと同等の独立性と信頼性をもって行動するためには、人間が AI と対話するための全く新しい手段が必要であり、それを実現するのが Gemini Live API です。 参考 : Introducing Gemini Enterprise Agent Platform, powering the next wave of agents Gemini Live API を支える3つの柱 Gemini Live API は、以下の3つの特徴があります。 オーディオ(音声) 高品質で双方向の音声通話を提供します。会話が流暢であるだけでなく、ユーザーが AI の発言を途中で遮る( Barge-in )ことも可能です。これにより、人間同士が対話しているかのような自然な会話が実現します。 ビジョン(視覚) Gemini Live API は、画像、ライブビデオストリーム、画面共有など、AI に提供された視覚情報をリアルタイムで処理し、状況を理解します。 エンタープライズ対応 本番環境にアプリケーションを展開するために不可欠な、高いセキュリティ、スケーラビリティ、そして信頼性を提供します。 Affective dialog とコンテキストの記憶 セッション内では、Gemini Live API の リアルタイム処理能力 を示すデモが行われました。最初のデモでは、AI に英語で詩を読ませている途中で発言を遮り、「フランス語で教えて」と要求しました。AI はユーザーから主導権を奪うことなく、瞬時に言語をフランス語に切り替えて詩を読み上げました。 続いて Affective dialog のデモが披露されました。ユーザーが「来週は私の誕生日で、100人の友達を招待したから盛大なパーティーになる」とワクワクしたトーンで話しかけると、AI も明るい声で応じます。しかし直後に、ユーザーが「実は全員に断られて一人になってしまった」と悲しそうなトーンで伝えると、AI はその声のトーンの変化を途中で検知し、瞬時に共感を示すようなトーンへと変化しました。リアルタイムの会話に応じて感情的なトーンを調整するこの機能は、AI との対話をより人間らしいものにします。 さらに、 コンテキストの記憶 機能についても紹介されました。会話の冒頭でカメラを通じてユーザーが提示した配送ラベルを AI が視覚的に認識します。その後、カメラからラベルを外した状態で「先ほどの配送ラベルの番号は何だったか」と尋ねると、AI は正確な番号を回答しました。Gemini Live API は、単に音声を聞くだけでなく、ビデオストリーミングを通じて得た視覚情報をセッション全体を通して記憶に留めることができます。 Gemini Live API の新機能の紹介 Live Avatar(2026年4月現在、プライベートプレビュー) 本セッションで、ライブビデオ生成機能を備えた Gemini 3.1 Live API が紹介されました。 このアップデートにより、新たに Live Avatar 機能が追加され、高品質な音声対話のエクスペリエンスに加えて、リアルタイムでユーザーを見つめ、流暢で自然な表情で反応するエージェントを構築することができます。 Live Avatar のデモ ジョンソン・クリニックという仮想の診療施設の予約受付を行う Live Avatar のデモが行われました。 アバターは仮想の受付担当者として振る舞い、患者のフルネームや生年月日を正確に聞き取ります。その後、対面か遠隔診療かの希望、症状、希望する医師といった条件をヒアリングし、空いている予約枠を提示し、予約を完了させました。 企業の導入事例 Shopify : サポートアシスタント「Sidekick」 E コマースプラットフォームを提供する Shopify は、加盟店向けのアシスタントである「Sidekick」を Gemini Live API で強化しました。 デモでは、加盟店がドメイン設定タスクを実行するにあたって、Sidekick に音声で質問すると、AI が画面の UI をベースに手順を段階的に音声で案内し、加盟店の作業をリアルタイムにサポートしました。 Citibank : 次世代金融ウェルスアドバイザー 金融機関である Citibank は、Gemini Live API と Live Avatar を搭載した次世代のウェルスアドバイザー・モバイルアプリ「Citi Sky」を発表しました。 デモでは、顧客の譲渡性預金が来週満期を迎えるという状況下で、アプリ内の Live Avatar が、複数の選択肢を音声と画面で提示し、顧客からの回答を受けると、その場で更新手続きを完了させました。 Otto : e コマースにおける対話型アドバイザー ドイツの e コマース大手 Otto からは、プロダクト責任者の Richard Brunner 氏が登壇しました。 Otto は「Otto, good decision(Otto、良い決断)」というブランドポジショニングを掲げており、オンラインショッピングでの検索を「顧客にシステムを理解させる」ものから、「システムが顧客のコンテキストやニーズを理解し、良い決断を支援する」ものへと再定義しました。 デモでは、「完璧なコーヒーメーカーを探している」と話しかけたユーザーに対して、AI が「手早く淹れたいか、淹れる過程を楽しみたいか」といったユーザーが求める条件を自然な会話で深掘りし、ユーザーの好みに合った商品を提案する様子が示されました。 Otto はテキストベースのチャットボットも並行して構築を行い、そのテスト結果によると、テキストベースのチャットボットではシステムとユーザーの間の平均対話ターン数が「4回」であったのに対し、音声対話では「11回」に増加しました。 これは、音声対話によるエンゲージメントの飛躍的な向上を示しており、より深いアドバイザリー体験の提供に成功したと述べました。 スクウェア・エニックス : 「真の相棒」としての AI セッションの最後には、株式会社スクウェア・エニックスより「ドラゴンクエスト」シリーズの生みの親である堀井 雄二氏が登壇しました。 堀井氏は「人生はロールプレイングゲーム(RPG)である」という哲学を持ち、画面の向こうにいる一人一人の顔を浮かべながら、どうすれば面白いと思ってもらえるか、どうすれば驚いてもらえるか、そればかりを考えてきたと語りました。そして今、AI という新しい魔法の道具に巡り合い、ゲームと AI を融合させることで、ユーザー1人1人の言葉や行動に AI が心をあるかのように寄り添い、理解し合える世界が作れるのではないかと述べました。 デモ映像では、ドラゴンクエストの代表的なモンスターをベースとした「スラミィ」が登場し、プレイヤーからの問いかけに答える様子や、画面上のプレイヤーの外見をスラミィが視覚的に認識し、自発的に話しかける姿が披露されました。 堀井氏は、AI との冒険の旅が、あなたの人生の本当の力になるとし、それこそが、堀井氏が Google Cloud、ゲームを愛する全ての人と一緒に作り上げたい新しいロールプレイングゲームの姿であると語りました。 山崎 曜 (記事一覧) クラウドソリューション部 元は日系大手SIerにて金融の決済領域のお客様に対して、PM/APエンジニアとして、要件定義〜保守運用まで全工程に従事。 Google Cloud Partner Top Engineer 2025 選出。 Google Cloud 全 13 資格保有。 フルスタックな人材を目指し、日々邁進。 Follow @Akira_Yamasakit
G-gen の荒井です。当記事は Google Cloud Next '26 in Las Vegas の1日目に行われた ブレイクアウトセッション「What's new with Gemini from Google DeepMind」の速報レポートをお届けします。 G-gen Tech Blog では、現地でイベントに参加したメンバーや、日本から情報をウォッチするメンバーが、Google Cloud Next '26 に関連する記事を発信します。 blog.g-gen.co.jp セッションの概要 Google DeepMind と Gemini モデルの進化 DeepMind の歴史と Gemini Gemini ファミリーのラインナップ 多様な AI モデルと最新技術の展開 幅広い AI ポートフォリオ 最新技術がもたらす期待効果 Google Cloud におけるエンタープライズ向け AI の実装 DeepMind と Google Cloud の緊密な連携 エンタープライズ環境における「プラットフォーム」と「信頼」の重要性 マルチモーダルモデルの組み合わせ(パイプライン化) Replit 社における Gemini と Vertex AI の活用事例 ソフトウェア開発の民主化と Vertex AI の利点 Replit Agent と評価の重要性 セッションの概要 当セッションでは、Google DeepMind が開発する Gemini モデルの進化と、多様な AI 技術のポートフォリオについて解説されました。また Google Cloud におけるエンタープライズ向けの仕組みや、Replit 社による Vertex AI を活用したソフトウェア開発の民主化事例が紹介されました。 参考 : How Google DeepMind builds AI | Google Cloud Blog Google DeepMind と Gemini モデルの進化 DeepMind の歴史と Gemini Google DeepMind は、2010年にロンドンで設立され、人工汎用知能(AGI)の構築をミッションとして掲げています。現在は Google の AI モデル開発を統合し、Gemini モデルの開発を牽引しています。Gemini は、推論能力、マルチモーダル理解、エージェント機能、そしてコーディング能力において優れたパフォーマンスを発揮します。 DeepMind の成り立ちや取り組みについては、YouTube でドキュメンタリー映画が公開されています。 youtu.be Gemini ファミリーのラインナップ Gemini は 2年強の歴史があり、2026年4月現在、最新バージョンは 3.1 です。また Gemini ファミリーでは以下のモデルが提供されています。 モデル 概要と特徴 Pro 最も大規模で高機能。エージェントの駆動や、コーディング、STEM(科学、技術、工学、数学)分野の作業に最適。 Flash 性能と効率のバランスが優れており、最も人気のある主力モデル。 Flash-Light 最小、最速で、最も高いパフォーマンス効率を実現。 多様な AI モデルと最新技術の展開 幅広い AI ポートフォリオ Google DeepMind は、Gemini 以外にも多様な領域で特徴ある AI モデルを開発しています。オープンウェイトモデルから生成メディア、ロボティクスに至るまで、幅広い技術が提供されています。主要なモデルと技術は以下の表の通りです。 モデル 概要と特徴 Gemma 20億から300億のパラメータサイズを持つオープンウェイトモデルです。端末上(オンデバイス)で効率的に動作するのが特徴です。特定のタスクに特化した訓練に適しており、幅広い言語をサポートするほか、音声や動画の理解機能も組み込まれています。 Gemini Live 音声の入出力を直接処理するネイティブな音声モデルです。遅延が少なく(低遅延)、表現力豊かな音声対話を実現します。話しかけている人間の感情を反映(ミラーリング)したり、状況に合わせて自発的に話すことができます。 Lyria 音楽生成に特化したモデルです。テキストの指示(プロンプト)や画像をもとに、ボーカル(歌声)を含む最大3分間の完全な楽曲を生成することができます。 Gemini Deep Research 市場調査などの深い探索的リサーチを行うAI エージェントです。1回の API 呼び出しで、ウェブ上の公開情報だけでなく、ユーザー独自のデータソースにもアクセスして情報を収集します。テキストだけでなく、チャートやインフォグラフィックを含むレポートを生成します。 Genie テキストや画像から、キーボードで操作可能なインタラクティブな2Dまたは3Dの世界を生成するモデル(Genie 3)です。エンターテインメントやゲーム、教育分野に加え、ロボットが現実世界と相互作用する方法を学ぶためのシミュレーション環境としても非常に重要とされています。 Gemini Robotics(ER) 物理世界で動く汎用ロボットを制御するためのプラットフォームです。「Embodied Reasoning (ER : 身体的推論)」という技術を用い、ロボットが視覚を使って状況を理解し、推論して行動できるようにします。Boston Dynamics 社の「Spot」ロボットに搭載され、オブジェクトのカウントや計器の読み取りなどに活用されています。 上記以外にも、Gemini が利用されている Google プロダクトは数多くあります。詳しくは以下の記事を参照してください。 blog.g-gen.co.jp 最新技術がもたらす期待効果 これらの多様なモデルを組み合わせることで、テキストや画像だけでなく、音声や動画、さらには物理的なロボット制御まで、幅広い業務プロセスを自動化できます。用途に応じた最適なモデルを選択することで、コストパフォーマンスを高めつつ、新しいユーザー体験や革新的なサービスを創出することが可能になります。 Google Cloud におけるエンタープライズ向け AI の実装 DeepMind と Google Cloud の緊密な連携 DeepMind は自社の AI がすべての業界や地域を変革することを目指しており、最終的な目標である人工汎用知能(AGI)の構築に向けて、多種多様なユースケースからトレーニングすることを重視しています。そのため、Google 製品の裏側で動いているものと同じ最先端の AI モデルを、Google Cloud でも利用できるようにしています。 Google Cloud に実装し、開発者や顧客からの多様なフィードバックを得ることで AI モデルの継続的な改善に役立てています。 エンタープライズ環境における「プラットフォーム」と「信頼」の重要性 AI エージェントは高度な処理能力を持っていますが、企業の独自データ(顧客情報や非公開データなど)をあらかじめ把握しているわけではありません。そのため、銀行の KYC(顧客確認)プロセスやバイオテクノロジー企業の臨床データ分析といった重要業務で AI を自律的に稼働させるには、単なる AI モデルだけでなく、強固な「プラットフォーム」が不可欠です。 Google Cloud では、人間の介入なしにエージェントを安全に運用するため、具体的に以下のような仕組みがすでに実装されています。 スケーラブル クラウドの圧倒的な規模(クラウドスケール)を最大限に活かし、人間の介入なしでも、大規模な処理を効率的にスケールできる仕組み。 柔軟性 適切な認証を行い、機密性の高い社内データであっても、安全かつ柔軟に情報を検索できる仕組み。 信頼に基づいて構築 AI を安心して自律稼働させるための基盤であり、主に以下の機能によって担保されます。 エージェントが「どのような決定を下したか」「どのデータにアクセスしたか」「どのようなデータを生成・分類したか」を後から確認できる仕組み。 行動をリアルタイムで監視し、ポリシー違反時に即座に動作を停止させる機能。さらに、過去の成功・失敗例をコンテキストに戻し、継続的に自己改善させる仕組み。 このような強固な仕組みがあるからこそ、クラウド上での大規模なソフトウェア開発(コード生成)はもちろん、銀行や医療機関といったセキュリティ要件の厳しい業界でも、AI エージェントの導入が急速に拡大しています。 マルチモーダルモデルの組み合わせ(パイプライン化) 今後の AI 活用の展望として、複数のマルチモーダルモデルを組み合わせたパイプライン化が挙げられます。例えば「Google 検索で現在地の情報をグラウンディングし、天気を調べ、その天気の様子を示す動画を生成する」といったように、異なる機能を持つモデルを連携させることで、より高度で複合的なユースケースが実現されつつあります。 Replit 社における Gemini と Vertex AI の活用事例 ソフトウェア開発の民主化と Vertex AI の利点 Replit 社は、クラウドベースのソフトウェア開発プラットフォームを提供し、誰もがソフトウェアを作成できる環境を目指しています。同社は、インフラストラクチャの基盤として Google Cloud を採用し、Vertex AI を通じて Gemini モデルを活用しています。Vertex AI を使用することで、インフラ管理の負担が軽減され、セキュリティやコンプライアンス要件を容易に満たすことができます。 これにより、Replit 社はモデルの運用ではなく、ユーザー体験の向上にリソースを集中できるという大きなメリットを得ています。 Replit Agent と評価の重要性 Replit 社が提供する Replit Agent は、ユーザーが自然言語で指示を出すだけで、アプリケーションの計画、コーディング、デプロイまでを自動で行う機能です。このエージェントの裏側では、Gemini モデルが複雑なタスクを複数のステップに分解し、実行しています。また、AI エージェントの品質を維持・向上させるためには、継続的な評価が不可欠です。 Replit 社では、オフラインでの厳密な評価と、実際のユーザーの行動データを基にしたオンライン評価を組み合わせることで、モデルの精度を継続的に改善しています。こうした仕組みから、開発者はインフラ構築や環境構築の手間から解放され、アイデアを即座にアプリケーションとして形にできます。 荒井 雄基 (記事一覧) クラウドソリューション部 クラウドサポート課 オンプレ環境のネットワーク・サーバーシステムを主戦場としていたが、クラウド領域にシフト。現在は Google Workspace を中心に企業の DX 推進をサポート。 ・ Google Cloud Partner Top Engineer 2025 ・Google Cloud 認定資格 7冠 最近ハマっていることは、息子とのポケモンカード Follow @arapote_tweet
はじめに この2月、教育版マインクラフトに長年待望されていた専用サーバープログラム(Dedicated Server)がリリースされました。この記事はこのサーバー専用プログラムをセットアップしてホストするまでを解説します […]

動画

書籍