数学

イベント

該当するコンテンツが見つかりませんでした

技術ブログ

2026年04月23日

What's new with Gemini from Google DeepMind（Google Cloud Next '26速報）

G-gen の荒井です。当記事は Google Cloud Next '26 in Las Vegas の1日目に行われたブレイクアウトセッション「What's new with Gemini from Google DeepMind」の速報レポートをお届けします。 G-gen Tech Blog では、現地でイベントに参加したメンバーや、日本から情報をウォッチするメンバーが、Google Cloud Next '26 に関連する記事を発信します。 blog.g-gen.co.jp セッションの概要 Google DeepMind と Gemini モデルの進化 DeepMind の歴史と Gemini Gemini ファミリーのラインナップ多様な AI モデルと最新技術の展開幅広い AI ポートフォリオ最新技術がもたらす期待効果 Google Cloud におけるエンタープライズ向け AI の実装 DeepMind と Google Cloud の緊密な連携エンタープライズ環境における「プラットフォーム」と「信頼」の重要性マルチモーダルモデルの組み合わせ（パイプライン化） Replit 社における Gemini と Vertex AI の活用事例ソフトウェア開発の民主化と Vertex AI の利点 Replit Agent と評価の重要性セッションの概要当セッションでは、Google DeepMind が開発する Gemini モデルの進化と、多様な AI 技術のポートフォリオについて解説されました。また Google Cloud におけるエンタープライズ向けの仕組みや、Replit 社による Vertex AI を活用したソフトウェア開発の民主化事例が紹介されました。参考 : How Google DeepMind builds AI | Google Cloud Blog Google DeepMind と Gemini モデルの進化 DeepMind の歴史と Gemini Google DeepMind は、2010年にロンドンで設立され、人工汎用知能（AGI）の構築をミッションとして掲げています。現在は Google の AI モデル開発を統合し、Gemini モデルの開発を牽引しています。Gemini は、推論能力、マルチモーダル理解、エージェント機能、そしてコーディング能力において優れたパフォーマンスを発揮します。 DeepMind の成り立ちや取り組みについては、YouTube でドキュメンタリー映画が公開されています。 youtu.be Gemini ファミリーのラインナップ Gemini は 2年強の歴史があり、2026年4月現在、最新バージョンは 3.1 です。また Gemini ファミリーでは以下のモデルが提供されています。モデル概要と特徴 Pro 最も大規模で高機能。エージェントの駆動や、コーディング、STEM（科学、技術、工学、数学）分野の作業に最適。 Flash 性能と効率のバランスが優れており、最も人気のある主力モデル。 Flash-Light 最小、最速で、最も高いパフォーマンス効率を実現。多様な AI モデルと最新技術の展開幅広い AI ポートフォリオ Google DeepMind は、Gemini 以外にも多様な領域で特徴ある AI モデルを開発しています。オープンウェイトモデルから生成メディア、ロボティクスに至るまで、幅広い技術が提供されています。主要なモデルと技術は以下の表の通りです。モデル概要と特徴 Gemma 20億から300億のパラメータサイズを持つオープンウェイトモデルです。端末上（オンデバイス）で効率的に動作するのが特徴です。特定のタスクに特化した訓練に適しており、幅広い言語をサポートするほか、音声や動画の理解機能も組み込まれています。 Gemini Live 音声の入出力を直接処理するネイティブな音声モデルです。遅延が少なく（低遅延）、表現力豊かな音声対話を実現します。話しかけている人間の感情を反映（ミラーリング）したり、状況に合わせて自発的に話すことができます。 Lyria 音楽生成に特化したモデルです。テキストの指示（プロンプト）や画像をもとに、ボーカル（歌声）を含む最大3分間の完全な楽曲を生成することができます。 Gemini Deep Research 市場調査などの深い探索的リサーチを行うAI エージェントです。1回の API 呼び出しで、ウェブ上の公開情報だけでなく、ユーザー独自のデータソースにもアクセスして情報を収集します。テキストだけでなく、チャートやインフォグラフィックを含むレポートを生成します。 Genie テキストや画像から、キーボードで操作可能なインタラクティブな2Dまたは3Dの世界を生成するモデル（Genie 3）です。エンターテインメントやゲーム、教育分野に加え、ロボットが現実世界と相互作用する方法を学ぶためのシミュレーション環境としても非常に重要とされています。 Gemini Robotics（ER）物理世界で動く汎用ロボットを制御するためのプラットフォームです。「Embodied Reasoning (ER : 身体的推論)」という技術を用い、ロボットが視覚を使って状況を理解し、推論して行動できるようにします。Boston Dynamics 社の「Spot」ロボットに搭載され、オブジェクトのカウントや計器の読み取りなどに活用されています。上記以外にも、Gemini が利用されている Google プロダクトは数多くあります。詳しくは以下の記事を参照してください。 blog.g-gen.co.jp 最新技術がもたらす期待効果これらの多様なモデルを組み合わせることで、テキストや画像だけでなく、音声や動画、さらには物理的なロボット制御まで、幅広い業務プロセスを自動化できます。用途に応じた最適なモデルを選択することで、コストパフォーマンスを高めつつ、新しいユーザー体験や革新的なサービスを創出することが可能になります。 Google Cloud におけるエンタープライズ向け AI の実装 DeepMind と Google Cloud の緊密な連携 DeepMind は自社の AI がすべての業界や地域を変革することを目指しており、最終的な目標である人工汎用知能（AGI）の構築に向けて、多種多様なユースケースからトレーニングすることを重視しています。そのため、Google 製品の裏側で動いているものと同じ最先端の AI モデルを、Google Cloud でも利用できるようにしています。 Google Cloud に実装し、開発者や顧客からの多様なフィードバックを得ることで AI モデルの継続的な改善に役立てています。エンタープライズ環境における「プラットフォーム」と「信頼」の重要性 AI エージェントは高度な処理能力を持っていますが、企業の独自データ（顧客情報や非公開データなど）をあらかじめ把握しているわけではありません。そのため、銀行の KYC（顧客確認）プロセスやバイオテクノロジー企業の臨床データ分析といった重要業務で AI を自律的に稼働させるには、単なる AI モデルだけでなく、強固な「プラットフォーム」が不可欠です。 Google Cloud では、人間の介入なしにエージェントを安全に運用するため、具体的に以下のような仕組みがすでに実装されています。スケーラブルクラウドの圧倒的な規模（クラウドスケール）を最大限に活かし、人間の介入なしでも、大規模な処理を効率的にスケールできる仕組み。柔軟性適切な認証を行い、機密性の高い社内データであっても、安全かつ柔軟に情報を検索できる仕組み。信頼に基づいて構築 AI を安心して自律稼働させるための基盤であり、主に以下の機能によって担保されます。エージェントが「どのような決定を下したか」「どのデータにアクセスしたか」「どのようなデータを生成・分類したか」を後から確認できる仕組み。行動をリアルタイムで監視し、ポリシー違反時に即座に動作を停止させる機能。さらに、過去の成功・失敗例をコンテキストに戻し、継続的に自己改善させる仕組み。このような強固な仕組みがあるからこそ、クラウド上での大規模なソフトウェア開発（コード生成）はもちろん、銀行や医療機関といったセキュリティ要件の厳しい業界でも、AI エージェントの導入が急速に拡大しています。マルチモーダルモデルの組み合わせ（パイプライン化）今後の AI 活用の展望として、複数のマルチモーダルモデルを組み合わせたパイプライン化が挙げられます。例えば「Google 検索で現在地の情報をグラウンディングし、天気を調べ、その天気の様子を示す動画を生成する」といったように、異なる機能を持つモデルを連携させることで、より高度で複合的なユースケースが実現されつつあります。 Replit 社における Gemini と Vertex AI の活用事例ソフトウェア開発の民主化と Vertex AI の利点 Replit 社は、クラウドベースのソフトウェア開発プラットフォームを提供し、誰もがソフトウェアを作成できる環境を目指しています。同社は、インフラストラクチャの基盤として Google Cloud を採用し、Vertex AI を通じて Gemini モデルを活用しています。Vertex AI を使用することで、インフラ管理の負担が軽減され、セキュリティやコンプライアンス要件を容易に満たすことができます。これにより、Replit 社はモデルの運用ではなく、ユーザー体験の向上にリソースを集中できるという大きなメリットを得ています。 Replit Agent と評価の重要性 Replit 社が提供する Replit Agent は、ユーザーが自然言語で指示を出すだけで、アプリケーションの計画、コーディング、デプロイまでを自動で行う機能です。このエージェントの裏側では、Gemini モデルが複雑なタスクを複数のステップに分解し、実行しています。また、AI エージェントの品質を維持・向上させるためには、継続的な評価が不可欠です。 Replit 社では、オフラインでの厳密な評価と、実際のユーザーの行動データを基にしたオンライン評価を組み合わせることで、モデルの精度を継続的に改善しています。こうした仕組みから、開発者はインフラ構築や環境構築の手間から解放され、アイデアを即座にアプリケーションとして形にできます。荒井雄基 (記事一覧) クラウドソリューション部クラウドサポート課オンプレ環境のネットワーク・サーバーシステムを主戦場としていたが、クラウド領域にシフト。現在は Google Workspace を中心に企業の DX 推進をサポート。・ Google Cloud Partner Top Engineer 2025 ・Google Cloud 認定資格 7冠最近ハマっていることは、息子とのポケモンカード Follow @arapote_tweet

Google Cloud, データ分析, 人工知能, インフラ, ネットワーク, ゲーム, API, 数学, ロボット, Google Workspace

株式会社G-gen

2026年04月22日

Claude に "じっくり考えさせる" Extended Thinking の使いどころと活用テクニック

Claude の Extended Thinking（拡張思考）機能の仕組みと使い方を解説した入門記事です。通常の応答との違い、思考ブロックと Summarized Thinking の関係、対応モデル（Opus 4.6・Sonnet 4.6・Haiku 4.5）ごとの利用条件を整理しています。また、Adaptive Thinking との違いを UI ユーザー・API 開発者それぞれの視点から比較表付きで説明しています。数学・コーディング・複雑な意思決定など効果の高いタスクの見極め方から、表示トークンと課金トークンの差異といったコスト面の注意点まで、実際に使い始めるために必要な情報を一通りカバーしています。

数学

サーバーワークス

2026年04月20日

あるシンガーの全288曲の歌詞をベクトル化したら、数学的に『呪い』が検出された話

こんにちは。SCSKの松渕です。今回は、ある歌手の歌詞をベクトル化＆簡易的なデータ分析してみました。 3/10に発表されたばかりの Gemini Embedding 2 モデルを利用してみました！はじめに組み込みモデル（Embedding Model）とは？一言で言うと、「言葉や画像の意味を、コンピューターが計算できる『座標（ベクトル）』に変換する技術」のことです。これまでのキーワード検索（完全一致）とは異なり、データの「文脈」や「ニュアンス」を数値化します。なぜ「ベクトル」にするのか？例えば、「ネコ」と「子猫」という言葉は、文字で見れば一字も重なりませんが、意味は非常に近いです。組み込みモデルを通すと、これらは多次元空間上で「非常に近い距離にある点」として配置されます。キーワード検索: 「文字」が同じものを探す。セマンティック検索（Embedding）: 「意味」が似ているものを探す。実務での役割近年のAI開発、特にRAG（検索拡張生成）においては、膨大なドキュメントから「ユーザーの質問に最も関連する箇所」を特定するための「検索の脳」として機能しています。   Gemini Embedding 2 とは？ 2026年3月にプレビューが開始された  gemini-embedding-2-preview は、これまでのテキスト専用モデルから大きく進化を遂げました。 1. 待望の「マルチモーダル」対応何といっても最大の特徴はネイティブマルチモーダル対応です。テキストだけでなく画像や動画も同じベクトル空間にマッピングできます。「この動画の、このシーンに似た画像を、テキストで検索する」といった、メディアを跨いだ検索が極めて高い精度で実現可能になりました。テキスト、画像、動画、音声、およびPDFの5つの異なるモダリティが、モデルの中間層（隠れ層）において動的に相互作用し、深いレベルでの「セマンティック・フュージョン（意味的融合）」が実現されます。例えば、動画内の特定の動きと添えられた説明テキストが、単一の3,072次元ベクトル空間内に矛盾なく配置されるのである。これで「なんかスパイ映画のオープニングっぽい映像」とかをテキストで映像検索できるようになります。もちろん今までも実現できてはいたんですが、いったんテキスト化してベクトル化が必要だったのが不要になったようです。   2. マトリョーシカ・エンベディング（次元の柔軟性）通常、ベクトルの次元数（1536次元など）は固定ですが、gemini-embedding-2では次元を削っても精度が落ちにくい」設計が採用されています。マトリョーシカ人形のように、大きなベクトル（3072次元）の中に、小さなベクトル（768次元や256次元）が綺麗に入れ子になって入っています。高精度が必要な時: 1536次元でフルパワー解析。コストや検索速度を優先する時: 256次元に圧縮してインデックス容量を削減。といったように、用途に応じてインフラのコスト最適化とパフォーマンスのバランスを柔軟に取れるようになっています。次元数は検索速度とのトレードオフにもなっているため、1次検索は低次元で素早く、2次検索は高次元で品質高く、といった使い分けもできます。特に 768次元への縮小は、精度低下を最小限に抑えつつ、ストレージコストを約75%削減できるため、Googleはこれを推奨しています。エンベディング(Google Cloud ドキュメント) 3. 長文対応とコンテキスト理解の深化従来モデルよりも一度に処理できるトークン数（入力できる文章量）が拡大し、ドキュメント全体の一貫性をより深く理解したベクトル生成が可能になりました。これにより、RAGにおける「情報の取りこぼし」が劇的に減少しています。うれしい点としては、細かいチャンクに刻む必要がなくなったため、「文章の前後関係（文脈）がぶった切れる」という今までのRAG特有の悩みが一定解消されます。8kあれば、一般的な章立て一つ分や、中規模なPDFなら丸ごと一つのベクトルとして取り込めるため、検索の精度（セマンティックな一致度）が劇的に向上します。機能 Gemini Embedding（従来） Gemini Embedding 2 対応データテキストのみテキスト・画像・動画次元数固定可変（マトリョーシカ対応）検索精度高い極めて高い（最新MTEB基準）主な用途テキストRAG マルチモーダルRAG / 高度な検索まとめてみて知ったのですが、音声（音楽）にはまだ対応していないようです。時間の問題だとは思いますが。   今回やってみたことある有名歌手（2026/3/28現在、288曲リリースされていました）の歌詞をベクトル化して、クラスタリングしてみたいと思います。今回のブログ単体だと、上記で必死に解説したGemini Embedding 2の良さを全然活かせていないユースケースになってしまってます。。。いずれ、画像や映像と絡めて分析だとか検索できるようにしていきたいなと思います。   事前準備データ準備ブログの本質じゃないのでさらっとしますが、めっちゃくちゃ大変でした。今回一番時間かかりました。以下のような、CD名と歌詞のリストです。今回は歌詞しか使わないですが、いずれ発売年ごとに傾向分析とかしてみたいと思って付与してます。     ベクトル化とBigquery格納とクラスタリングまずはエクセルからBigQueryへ先ほどのエクセル歌詞の部分をベクトル化しますが、処理しやすいようにまずBigQueryへ投入します。なお、Antigravityですべて機能開発してもらいました。Antigravityのブログは以前に書いたので今回は割愛します。日本語で依頼すればこのレベルの処理はすぐ実装してくれるかと思います。   ベクトル化してBigQuery投入 Vertex AIでGemini呼び出して、各曲ごとのベクトルを作成してもらいます。この際、 google-genai SDKを使用し、 gemini-embedding-2-preview モデルを利用して数値ベクトルに変換します。 gemini-embedding-001では設定できていたユースケースの設定（task_type）はgemini-embedding-2-previewでは使用できなくなっております。プロンプトにタスクの指示を追加する必要があります。今回でいえばベクトル化する際の指示プロンプトに以下のような入力をします。 t ask: clustering |  query: {content}   ユースケースの設定の前提として、情報検索や埋め込みベクトルの世界で「対称的（Symmetric）」と「非対称的（Asymmetric）」という分類があります。対称的な検索（Symmetric Search）：「似たもの同士」を探すパターンです。クエリ（入力）とターゲット（対象）の長さや情報の密度がほぼ同じ場合を指します。非対称的な検索（Asymmetric Search）：「短い問い」から「長い答え（あるいは詳細な情報）」を探すパターンです。現代の検索エンジンやAIチャット（RAG）の多くはこの形です。今回のようなクラスタリング用のベクトルは対称的な検索になります！エンベディング(Google Cloud ドキュメント) ベクトル化無事できました   クラスタリングベクトル化の次はクラスタリングします。エルボー法を用いて、クラスタリングする適切な数を探し出します。 ※私自身、ちゃんとエルボー法を理解していないのですが、Antigravityによくわからないまま依頼したら作ってくれましたし動きました。ざっくり以下のような動きをしているようです。候補となるクラスタ数（k）のループ「何グループに分けるのが適切か？」を判断するために、2から最大10までで、力技で全てのパターンを計算します。 k=2, 3, 4, …, 10  のそれぞれで K-Means を実行します。エルボー法による「曲がり角」の特定「グループを増やしても、もう劇的には誤差（クラスタ中心点から各要素の距離の二乗和（SSE））が減らなくなった地点」が、そのデータセットにとって最も自然なグループ数（最適な k）であると判断します。 KneeLocator による自動判定通常、エルボー法は人間がグラフを見て判断しますが、このコードではプログラムで自動判定しています。プロットされた曲線の「曲率」が最大になるポイントを数学的に算出しています。最終的なクラスタリングの実行決定された「最適な k 」を用いて、もう一度 K-Means を実行し、各歌詞に cluster_id（0, 1, 2…）を割り振ります。今回は288曲を 4クラスタに分類されました。   Vertex AI(Gemini)で、クラスタの特性を分析ベクトル化してのクラスタリングは、ブラックボックス的な数学的分類となります。そのため、そのままでは説明性（Interpretability）を持ちません。そのため、Geminiへ各クラスタの意味の説明を求めました。以下、Geminiの分類への説明です。以下の説明でどの歌手かわかった人はジャンキーかもしれません・・・！クラスター1：【生理現象・身体感覚系】（Biometric Cluster）　このクラスターは、恋愛感情を直接的な形容詞ではなく、心拍数の変化、皮膚の温度、体調の違和感として描写する楽曲群である。感情が脳ではなく「肉体」に宿っていることを強調する。クラスター2：【生活空間・日常痕跡系】（Domestic Trace Cluster）　このクラスターは、洗面所、台所、廊下といった生活空間の中に、相手の「不在の在」や「共有の証拠」を見出す楽曲群である。大きな愛を語るのではなく、小さな生活雑貨に愛を託すのが特徴である。クラスター3：【執着・不可逆的痕跡系】（Obedient / "Curse" Cluster）　ファンの間で「呪い」と称されることもある、非常に重厚で執着心の強い楽曲群である。クラスター4：【季節・比喩描写系】（Ephemeral Cluster）　季節の移ろいや気象現象に、感情のゆらぎや「戻れない時間」を投影する楽曲群である。   今回は取りませんでしたが、説明性を持たせるクラスタリングとしては以下のようなアプローチも存在します。母数が多く、後付けでの説明が困難な際には採用検討するとよいかと思います      多段階クラスタリング：　全データをLLMに見せるのではなく、数学的に仕分けした「中心」だけをAIに解釈させる手法。特徴量抽出（トピックモデル）を介した分類：　高次元のベクトル（3072次元など）を、人間が理解しやすい2次元や3次元に圧縮して、「地図」を作る手法。「LLM蒸留」による分類器の構築 (Distillation) ：　LLMの知能を、より軽量で高速な「分類専用モデル」に移植する手法。   まとめ最新の Gemini Embedding 2 を使って、一見「データ化」とは対極にあるような情念の世界を可視化してみました。数学的に導き出された4つのクラスタは、驚くほど正確に彼女の楽曲が持つ「多面性」を捉えていました。特に、特定の生活雑貨に宿る記憶や、身体感覚で語られる恋、あの歌詞特有の重さみたいなものまでもが、 3,072次元の空間において明確な座標として存在していたことには、一人の技術者として、そして一人のファンとして震えるものがありました。技術は、時に「意味」を冷徹に分解しますが、今回のように「言葉にできない魅力」を再発見する手助けもしてくれます。次は、マルチモーダルモデルの真骨頂である画像や動画（MV）を組み合わせ、彼女の表現する世界をより多角的に、深く、ベクトル空間の中に再現してみたいと思います。