スタッフブログ

Azure OpenAI で GPT-4 Turbo with Vision を使う方法


みなさんこんにちは!
今週のブログはO.M.が担当します。

今回は2023年12月にパブリックプレビューとなった「GPT-4 Turbo with Vision」の操作方法などをまとめました。

GPT-4 Turbo with Vision について

GPT-4 Turbo with Vision は、2023年11月にパブリックプレビューとなった GPT-4 Turbo モデルの全ての機能を保持しながら、画像入力を処理および分析が可能になったモデルです。

今回はAzure OpenAI Studio のプレイグラウンドで利用する方法をまとめました。

利用可能なリージョン

2024年2月4日時点で GPT-4 Turbo with Vision を利用可能なリージョンは以下の通りです。

Azure OpenAI アクセス権を持つすべてのサブスクリプションでモデルが使用可能なリージョン:
スウェーデン中部
米国西部
東日本

詳細はこちらをご覧ください。

Azure OpenAI Studio のデプロイ方法

プレイグラウンドで検証するために、まずはAzure OpenAI Studio でGPT-4 Turbo with Vision モデルをデプロイします。

Azure OpenAI Studio でサイドバーに表示される、管理メニューの「デプロイ」を選択します。

以下のモデルとバージョンを選択し、デプロイします。

モデル:gpt-4
モデルバージョン:vision-preview

プレイグラウンドでの操作方法

デプロイが完了したら、Azure OpenAI Studio のプレイグラウンドへ移動します。

先ほどデプロイした GPT-4 Turbo with Vision を選択します。

システムプロンプトは以下の内容を入力しました。
「AI アシスタントとして、この画像に描かれているコンテンツを説明する明確で詳細な文章を提供してください。」

まずは、前回のブログで DALL·E3 に生成したもらった辰の画像を送信してみます。

以下のような回答が生成されました。

「この画像は、中国の伝統的な十二支(干支)を描いたものです。中心には大きな龍が描かれ、その周囲には円形に配置された12の異なる動物が描かれています。これらの動物は、中国の暦に基づいて1年ごとに割り当てられた干支の動物たちを表しており、それぞれの動物は特定の年と属性を象徴しています。龍はこれらの動物の中でも特に力強さと威厳を象徴しているとされ、中国文化において非常に重要な存在です。画像全体は茶色と金色のトーンで描かれており、古典的な雰囲気を醸し出しています。また、各動物の下には中国語でその名前が記されています。」

「円形に配置された12の異なる動物が描かれています。」という部分に関しては、
実際に周りに描かれている動物の数が16ではありますが、それ以外の回答はイラストをもとに的確に説明出来ているのではないでしょうか。
イラストのテイストやそこから表現される雰囲気についても読み取り、説明されています。

次に、イタリアにあるピサの斜塔の写真を以下のプロンプトと共に送信してみます。

「この建造物はどこにありますか?建造物の歴史的背景などの詳細についても説明してください。」

このように回答が生成されました。

「画像には、イタリアのピサにある有名なピサの斜塔が写っています。ピサの斜塔は、ピサ大聖堂の独立した鐘楼として12世紀に建設が始まり、14世紀に完成しました。この塔は、その傾斜した構造で最もよく知られています。この傾斜は、建設が始まった当初から発生しました。それは地盤が柔らかく、塔の基礎が均等な重さを支えることができなかったためです。塔は、現在も継続的な監視と保全作業のおかげで安定しています。

ピサの斜塔は、白い大理石で造られ、ロマネスク様式の建築美を示しています。塔は約56メートルの高さがあり、内部には294段の階段があります。世界遺産にも登録されており、世界中から多くの観光客が訪れるイタリアの象徴的な観光地の一つです。」

写真に写っている建造物がピサの斜塔であることを認識し、場所や詳細な説明も回答してもらえました。

まとめ

GPT-4 Turbo with Vision を Azure OpenAI Studio のプレイグラウンドで使用してみました。

GPT-4 Turbo の機能を保持しながら画像分析が可能になることで、マルチモーダルに生成AIを活用できるようになりますね。

Azure では、GPT-4 Turbo With Vision モデルに Azure AI Services( Computer Vision ) を組み合わせることで、Vision Enhancement という機能が利用できるようになります。

Vision Enhancement に関しては今後のブログでまた詳しく紹介したいと思います。

ページワンでは Azure OpenAI Service 導入支援サービスを行なっております。
こちらのページもご覧いただけると幸いです。

今回も最後までご覧いただきありがとうございました。