G-genの杉村です。Google の提供する最新の生成 AI モデルである Gemini は、Google Cloud 環境をお持ちであれば、すぐに試してみることができます。Gemini Pro の使い方を簡単にご紹介します。
はじめに
注意事項
当記事の内容は、2024年1月の執筆当時のものです。生成 AI の進化は速いため、注意が必要です。以下の記事が可能な限り最新情報に更新されていますので、ご参照ください。
Gemini とは
Gemini とは、Google が2023年12月初旬に発表した、最新の生成 AI モデルです。テキスト、画像、動画など、複数の種類のデータを扱える「マルチモーダル」な生成 AI モデルであり、テキスト生成、動画や画像の説明、コーディングの補助など、さまざまなタスクで高いパフォーマンスを出すとされています。
Gemini には Ultra、Pro、Nano という3つのサイズが用意されています。Ultra が最大のサイズで最も高性能です。Nano はモバイルデバイスにも搭載できる最小サイズのモデルです。Pro はその中間とされており、2024年7月現在では唯一、一般利用者も利用できる状態です。
Gemini はチャットツールとして一般のコンシューマや Google Workspace ユーザー向けに利用できる( https://gemini.google.com )ほか、Google Cloud(旧称 GCP)から API 経由で呼び出すことができます。
Gemini Pro の試用
Google アカウントや Google Cloud 環境がなくても、以下のリンクから誰でも Gemini 1.5 Pro、Gemini 1.5 Flash や Gemini 1.0 Pro Vision を試用できます。面倒な登録も必要なく、利用規約に同意するだけです。
以下は、上記リンクからトライアル版の Vertex AI Studio(Web UI)で Gemini Pro を試用した際のスクリーンショットです。画面上部のテキストボックスにテキスト情報を入力したり、画像や動画をアップロードして送信すると、テキストが生成されて返答されます。
料金
Gemini Pro を Google Cloud 経由で利用すると、Google Cloud プロジェクトに対して課金が発生します。
2024年7月現在、Gemini 1.5 Pro の課金体系は以下です(12万8千以下のコンテキストウインドウの場合)。入力した画像、動画、テキストの量と、出力されたテキストの量に応じた従量課金となります。
インプット | 料金単価 |
---|---|
画像 | $0.001315 / 画像 |
動画 | $0.001315 / 秒 |
テキスト | $0.00125 / 1,000文字 |
出力 | 料金単価 |
---|---|
テキスト | $0.00375 / 1,000文字 |
最新の情報は公式ドキュメントをご参照ください。
Gemini Pro の使い方
Vertex AI Studio へアクセス
まず、以下のリンクにアクセスします。Google アカウントや Google Cloud 環境がなくても、以下のリンクから試用することができます。利用規約への同意を求められたら、確認のうえ同意してください。
プロンプトの入力
この画面で、さまざまなプロンプト(生成 AI モデルへの入力データ)を入力し、Gemini Pro にテキストを生成させることができます。
①のテキストボックスには、Gemini Pro に渡す文字列を入力できます。
②の INSERT MEDIA ボタンからは、画像や動画をアップロードすることができます。画像は PNG、JPG 形式に対応しています。動画は MKV、MOV、MP4、WEBM 形式に対応しており、最大7MB、2分までの動画に対応しています。
①と②でプロンプトを入力した後、③の送信ボタンを押下すると、下部の Response ブロックに生成結果が表示されます。
パラメータの調整
画面右部分で、細かいパラメータを調整することができます。
① リージョンは、プロンプトを送信する先の API エンドポイントの所在地を表しています。データの所在(Data residency)などに関連します。個人情報等を含まないプロンプトで試用する分には、あまり気にする必要はありません。
② Temperture(温度)は、生成内容のランダム度合いを制御するパラメータです。一般的にいって、より正確な生成内容を求める場合は Temperture を0に近くし、よりクリエイティブで予想外の結果を求める場合は1に近くします。
③ トークンの上限は、返答されるトークン数の上限を定めます。1トークンは概ね4文字とされています。
④ は停止シーケンスを定めるテキストボックスです。停止シーケンスとは、それが現れたらテキスト生成を停止する文字列です。句点(。)が現れたら生成を停止する、といった用途にも使えますし、不適切な表現や生成に含ませたくないワードを生成結果に含ませたくないときにも利用できます。
⑤ の Advanced セクションを展開すると、より詳細なパラメータ(Top K、Top P 等)を設定できるようになります。モデルが出力に使うトークンをどのように選択するかを指定するパラメータです。詳細は以下のドキュメントをご参照ください。
高度な使い方
当記事では、Gemini Pro を手軽に試用する方法を紹介しました。
以下の記事では、Gemini Pro を Web アプリに組み込んで、チャットアプリを開発した例をご紹介しています。
杉村 勇馬 (記事一覧)
執行役員 CTO / クラウドソリューション部 部長
元警察官という経歴を持つ現 IT エンジニア。クラウド管理・運用やネットワークに知見。AWS 12資格、Google Cloud認定資格11資格。X (旧 Twitter) では Google Cloud や AWS のアップデート情報をつぶやいています。
Follow @y_sugi_it