【Gemini Pro】GeminiのAPIを試した感触【Google AI Studio】

雑記

Google発の生成AI「Gemini」のAPIを触ってみたので、使い方の簡単な紹介と率直な感想を述べます。

目次

Geminiとは

そもそもGeminiとはなんなのか。要するにGoogle製の生成AIです、というのは今更ですが、一応超簡潔な説明を載せておこうと思います。一応ね。
Google Japanのブログ記事(https://japan.googleblog.com/2023/12/gemini.html)を元に、GPTに短く簡潔に説明してもらいました。

Prompt:
(Google Japanのブログ記事全文)
+
上記の記事を読んで、Geminiとは何かを短く簡潔に紹介してください。

GPT:
Googleの新しいAIモデル「Gemini」は、高性能で汎用的な特性を持ち、テキスト、画像、音声、動画、コードなど様々な種類の情報を一般化してシームレスに理解し、操作することができます。Geminiは、データセンターやモバイルデバイスなど幅広いプラットフォームで効率的に動作するよう設計されており、3つの異なるサイズ(Gemini Ultra, Pro, Nano)で提供されます。これにより、AIがより広範なアプリケーションに活用され、人間の知識や創造性、生産性を大幅に向上させることが期待されています。

この記事の投稿時点(2023年12月16日時点)では、Gemini Proはテキスト入出力、Gemini Pro Visionはテキスト入出力と画像入力(画像出力は不可)に対応しています。

料金体系

2024年の初頭までは1分あたり最大60リクエストまで無料。
それ以降は、$0.00025/1000字入力、$0.0025/画像1枚入力、$0.0005/1000字出力。

文字あたりの料金というのがミソで、GPTと違ってトークン単位ではないので、日本語での仕様はGeminiはかなり安くなる。

詳細は公式(https://ai.google.dev/pricing)を参照。

始め方

前提:Googleアカウントを持っていること。

APIキーの発行もといPlayGround的なものは
Google AI Studio(https://makersuite.google.com/)で行える。

和訳byGPT
サービス利用規約

あなたがGoogle AI Studioおよび生成言語APIを使用することは、Google API利用規約および生成AI API追加利用規約の対象となります。

知っておくべきこと

APIを製品使用のために利用することは可能ですが、Googleは利用制限を課すことがあります。
APIに機密性が高い、個人的な情報を送信しないでください。品質、安全性の向上、および製品の改善を助けるために、人間のレビュアーがあなたのAPI入力および出力を読み、注釈を付け、処理することがあります。Googleは、このプロセスの一環として、レビュアーがそれを見たり注釈を付けたりする前に、GoogleアカウントまたはAPIキーからこのデータを切り離すなど、あなたのプライバシーを守るための措置を講じます。
生成AIモデルは実験的な技術であり、時に不正確または不適切な情報を提供することがあり、それはGoogleの見解を代表するものではありません。
医療、法律、財務、その他の専門的なアドバイスとして回答に依存しないでください。

私は生成AI API追加利用規約およびGoogle API利用規約に同意し、Googleプライバシーポリシーを読んだことを認めます。

モデルの更新、オファー、有用なヒント、Google AIに関するニュースについてのメールを受け取りたいと思います。

Google AIの改善に役立つ研究調査への参加招待を受け取りたいと思います。

※Google AI Studioで遊ぶだけならAPIキーの発行はしないで遊べます。

実際に触ってみた

詳しい扱い方は公式のドキュメント(https://ai.google.dev/tutorials/ai-studio_quickstart)を参照ください。


Create Newから色々試せるんですが、とりあえず今回は手軽に試せるChat promptを触ってみました。
(画像入力=Gemini Pro Visionの方はFreedom promptの方でしか使えませんでした。また、出力文字数もChatの方だと弄れませんでした)。

TemperatureやTopK,Pは弄れる。
左側のexampleで対話例を手入力しておくと、それに沿ったチャットを右側で行ってくれる、というイメージ。
GPTでいうカスタムインストラクションおよびシステムプロンプトを、左側の対話例で入れておくようなイメージ。

(なんかルルーシュを知ってるぶってるけど、11代皇帝じゃなくて第11皇子なので、間違ってる……)
ちなみに右上のGetCodeを押すと、現在作成中のプロンプトが反映されたコードを取得できる。

感想

まだまだ全然使いこなせていない感があるので現時点での感想だけど、触った感じはカタログスペック通りというか、GPT3.5+って感じの性能感。ただとにかく爆速なのは良い点。
他の人の使用例を見た感じ、画像入力の性能とかもそこそこ良さげなので、安く早く使うならGPTよりこっちを使うのもありという感じ。

ただ、この記事の投稿時点(2023年12月16日時点)ではopenaiという文字列が回答に含まれると、仕様なのかバグなのかは不明ですがとにかくエラーが出るそうなので(ソース下記)、GPT3.5でDALLEのプロンプトを作っているAIニュースキュレーションサイトの投稿スクリプトには使えなさそうで残念。

性能比較とかは、以下の記事なんかは非常に参考になるかと思いました。
SIerがGoogle史上最強のAI「Gemini」を解説してみる(https://qiita.com/yamazombie/items/f3e8f5e25cf40bb84bbd)
他には、画像入力を挟むと有害判定がガバくなるみたいなおもしろ情報なんかもありました。
自由で期間限定無料の Gemini API で遊ぶ(画像認識もできるし悪口も言わせられるぞ!)(https://note.com/blue_pen5805/n/n8f94cd60b13a
→余談というか備忘録:この方のコードを参考に、環境変数からAPIキーを読み込んでPythonでGemini Proを動かすスクリプトのテンプレートを作りました。
GEMINI_API_KEYを環境変数としています。

import os
import google.generativeai as genai

# 環境変数からAPIキーを取得
GEMINI_API_KEY = os.environ.get('GEMINI_API_KEY')

# APIキーがセットされているかチェック
if GEMINI_API_KEY:
    genai.configure(api_key=GEMINI_API_KEY)
    model = genai.GenerativeModel('gemini-pro')
    response = model.generate_content(
      [
        'ここにプロンプト'
      ],
      safety_settings=[
        { "category": "HARM_CATEGORY_HARASSMENT", "threshold": "BLOCK_NONE" },
        { "category": "HARM_CATEGORY_HATE_SPEECH", "threshold": "BLOCK_NONE" },
        { "category": "HARM_CATEGORY_SEXUALLY_EXPLICIT", "threshold": "BLOCK_NONE" },
        { "category": "HARM_CATEGORY_DANGEROUS_CONTENT", "threshold": "BLOCK_NONE"}
      ]
    )

    print(response.text)
else:
    print("APIキーが設定されていません。")

まとめ

総評:Gemini Ultraに期待
現時点で使えるのは「Gemini Pro」までですが、「Gemini Pro」がカタログスペック上GPT3.5をやや上回るという感じで、触ってみた感じもそんな感触を受けました。
2024年初めにGoogle Bard上でBard Advancedとして、カタログスペック上はGPT4を超える「Gemini Ultra」が使えるようになるそう(無料か有料かは不明)なので、それに期待という感じ。

コメント

タイトルとURLをコピーしました