2024-01-11 2025-04-04

Gemini Proを使ってみた。Googleの最新生成AIモデル

Gemini Generative AI (生成AI) Vertex AI 機械学習 (AI/ML) Google Cloud

杉村勇馬 (id:ggen-sugimura) 1年前

記事タイトルとURLをコピーする

G-genの杉村です。Google の提供する最新の生成 AI モデルである Gemini は、Google Cloud 環境をお持ちであれば、すぐに試してみることができます。Gemini Pro の使い方を簡単にご紹介します。

はじめに
料金
Gemini Pro の使い方
高度な使い方

はじめに

注意事項

当記事の内容は、2024年1月の執筆当時のものです。生成 AI の進化は速いため、注意が必要です。以下の記事が可能な限り最新情報に更新されていますので、ご参照ください。

blog.g-gen.co.jp

Gemini とは

Gemini とは、Google が2023年12月初旬に発表した、最新の生成 AI モデルです。テキスト、画像、動画など、複数の種類のデータを扱える「マルチモーダル」な生成 AI モデルであり、テキスト生成、動画や画像の説明、コーディングの補助など、さまざまなタスクで高いパフォーマンスを出すとされています。

Gemini には Ultra、Pro、Nano という3つのサイズが用意されています。Ultra が最大のサイズで最も高性能です。Nano はモバイルデバイスにも搭載できる最小サイズのモデルです。Pro はその中間とされており、2024年7月現在では唯一、一般利用者も利用できる状態です。

Gemini はチャットツールとして一般のコンシューマや Google Workspace ユーザー向けに利用できる（ https://gemini.google.com ）ほか、Google Cloud（旧称 GCP）から API 経由で呼び出すことができます。

参考 : 最大かつ高性能 AI モデル、Gemini を発表 - AI をすべての人にとってより役立つものに

Gemini Pro の試用

Google アカウントや Google Cloud 環境がなくても、以下のリンクから誰でも Gemini 1.5 Pro、Gemini 1.5 Flash や Gemini 1.0 Pro Vision を試用できます。面倒な登録も必要なく、利用規約に同意するだけです。

Vertex AI Studio - free trial

以下は、上記リンクからトライアル版の Vertex AI Studio（Web UI）で Gemini Pro を試用した際のスクリーンショットです。画面上部のテキストボックスにテキスト情報を入力したり、画像や動画をアップロードして送信すると、テキストが生成されて返答されます。

参考 : Vertex AI Studio console experiences

料金

Gemini Pro を Google Cloud 経由で利用すると、Google Cloud プロジェクトに対して課金が発生します。

2024年7月現在、Gemini 1.5 Pro の課金体系は以下です（12万8千以下のコンテキストウインドウの場合）。入力した画像、動画、テキストの量と、出力されたテキストの量に応じた従量課金となります。

インプット	料金単価
画像	$0.001315 / 画像
動画	$0.001315 / 秒
テキスト	$0.00125 / 1,000文字

出力	料金単価
テキスト	$0.00375 / 1,000文字

最新の情報は公式ドキュメントをご参照ください。

参考 : Pricing for Generative AI on Vertex AI

Gemini Pro の使い方

Vertex AI Studio へアクセス

まず、以下のリンクにアクセスします。Google アカウントや Google Cloud 環境がなくても、以下のリンクから試用することができます。利用規約への同意を求められたら、確認のうえ同意してください。

リンク : Vertex AI Studio - free trial

プロンプトの入力

この画面で、さまざまなプロンプト（生成 AI モデルへの入力データ）を入力し、Gemini Pro にテキストを生成させることができます。

①のテキストボックスには、Gemini Pro に渡す文字列を入力できます。

②の INSERT MEDIA ボタンからは、画像や動画をアップロードすることができます。画像は PNG、JPG 形式に対応しています。動画は MKV、MOV、MP4、WEBM 形式に対応しており、最大7MB、2分までの動画に対応しています。

①と②でプロンプトを入力した後、③の送信ボタンを押下すると、下部の Response ブロックに生成結果が表示されます。

パラメータの調整

画面右部分で、細かいパラメータを調整することができます。

① リージョンは、プロンプトを送信する先の API エンドポイントの所在地を表しています。データの所在（Data residency）などに関連します。個人情報等を含まないプロンプトで試用する分には、あまり気にする必要はありません。

参考 : Generative AI on Vertex AI locations

② Temperture（温度）は、生成内容のランダム度合いを制御するパラメータです。一般的にいって、より正確な生成内容を求める場合は Temperture を0に近くし、よりクリエイティブで予想外の結果を求める場合は1に近くします。

③ トークンの上限は、返答されるトークン数の上限を定めます。1トークンは概ね4文字とされています。

④ は停止シーケンスを定めるテキストボックスです。停止シーケンスとは、それが現れたらテキスト生成を停止する文字列です。句点（。）が現れたら生成を停止する、といった用途にも使えますし、不適切な表現や生成に含ませたくないワードを生成結果に含ませたくないときにも利用できます。

⑤ の Advanced セクションを展開すると、より詳細なパラメータ（Top K、Top P 等）を設定できるようになります。モデルが出力に使うトークンをどのように選択するかを指定するパラメータです。詳細は以下のドキュメントをご参照ください。

参考 : Send multimodal prompt requests

高度な使い方

当記事では、Gemini Pro を手軽に試用する方法を紹介しました。

以下の記事では、Gemini Pro を Web アプリに組み込んで、チャットアプリを開発した例をご紹介しています。

blog.g-gen.co.jp

blog.g-gen.co.jp

blog.g-gen.co.jp