Azure OpenAI Service におけるファインチューニングについて

星 2024.12.26

みなさんこんにちは。

今日はAzure OpenAI Serviceにおけるファインチューニングの必要なデータ・料金についてです。

検索を行うRAGと比較されがちなファインチューニングについてまとめました。

ファインチューニングとは

ファインチューニングとはデータセットを用いてAIモデルそのものを再トレーニングすることです。

モデルそのものを自分専用に作り変えてしまうわけです。一方でRAGの場合は、AIモデルそのものには手を加えずに、検索してヒットした資料を参考資料としてAIに送信する仕組みです。

どちらも汎用的なモデルでは回答が難しい、専門的な内容に回答したり、独自ルールを使っての回答ができるようになります。

機械学習に触ったことがある人は0からモデルを作るのが機械学習、モデルを再トレーニングするのがファインチューニングと考えてもらって大丈夫です。必要なデータ量にも違いがあり、0からモデルを作る機械学習の方が必要データ量は多いです。

必要データ

ファインチューニングでモデルのトレーニングをするためにはjsonlという形式のデータが必要です。

質問と回答のセットが必要になるとイメージしてください。

自前のドキュメントをそのまま学習に使用することができないため、学習データの作成に非常にコストがかかります。RAGの場合はファイルをそのまま使用することができるので、この点が大きな違いになります。

以下のようなセットが複数必要です。

{“prompt”:”株式会社ページワンの本社は何県にありますか？”, “copletion”:”青森県です。”}

Q&Aのようなものをトレーニングデータとして使うのであればまだいいですが、一般のドキュメントから想定される質問と回答のセットを人力で考えるのは地獄です…。

必要なサービス

Azure OpenAI Serviceの場合、ファインチューニングを行うにあたって追加で必要となるサービスはありません。Azure OpenAI Serviceのリソースのみでファインチューニングを行うことができます。

料金

ファインチューニングを利用するにあたって最も注意しなければならないのが料金です。

再トレーニングするときだけ料金がかかると考える方も多いかと思いますが、ファインチューニングはホスティング料金も支払う必要があります。つまり、ファインチューニングしたモデルをデプロイしている間は料金が発生し続けます。これはどれだけ使ったかやどれだけトレーニングしたかではなく完全な固定費になります。

これが馬鹿にできない料金で、GPT-4o-miniの場合一時間当たり260.874円かかります。（2024/12/26時点）

GPT-4o-miniをファインチューニングして30日間デプロイしたとすると…

260.874（円） × 24（時間） × 30（日） ≒ 187,829（円）

1年間で…

187,829（円） × 12（月） ≒ 2,253,948（円）

これとは別にトレーニング量に応じた料金、通常のAIの利用料金も必要になります。

RAGの場合は、ドキュメント量や利用するサービスに大きく左右されますが、ひと月あたりおおよそ0～4万くらいの間に収まるので、ファインチューニングは選択しにくいのが現状です。

おわりに

ここまで閲覧いただきありがとうございます。今回はファインチューニングについてまとめました。

RAGと比較したメリットデメリットの比較はいろんな人がやっているので、ファインチューニングそのものにスポットを当ててみました。といってもどうしても比較も多くなりましたが…。

ざっくりとした知識はあったものの、改めて整理すると現状ファインチューニングは選択しにくいことがよく分かりました。細かいところだとファインチューニングを行うことができるリージョンもAIのモデルごとにかなり限られていたりします。

それでは良いお年を！

星の最新の記事

写真アプリでApple Intelligenceを使ってみた

みなさんこんにちは。ふと、そういえば Apple Intelligence って今どうなっているんだろう、と思って使ってみました。機能は多岐にわたるみたいですが、今回は写真アプリで使ってみます。他の機能もちょろっと紹介すると、だいたい以下が主な機能のようです。私が実用するなら写真アプリと Safari での利用になりそうです。人によってはライティングツールや通話アプリで使っても便利かも。 Apple Intelligence の始め方 Apple Intelligence は対応デバイスが限られています。上記は iPhone の制限ですが、iPad 、Mac でも対応デバイスであれば…

星 2025.06.02
Cursorのインストール方法

今回はAI機能が魅力のテキストエディタ「Cursor」について、インストール方法、初期設定をざっくりご説明します。 Cursorとは？ CursorはVSCodeに近い感覚で利用することができるテキストエディタです。拡張機能もVSCodeから引き継ぐことができ、多くの拡張機能をそのまま利用することができます。 AI機能が搭載されており、AIモデルの選択肢が豊富です。（私もまだ実際にコード編集に利用することはできていないのですが…）イメージ的にはGithub Copilotと同じような機能を利用できると考えるといいと思います。 Github Copilotと同じように無料版、有料版とプランが…

星 2025.04.07
VS Code での GitHub Copilot Free 利用手順

年明け前に Github Copilot Free プランが提供開始されました。提供開始から数週間経っているので、既に多くのブログ等で利用手順は紹介されていますが、社内共有も兼ねて今回は手順を説明していきたいと思います。 Github Copilot とは今回は利用手順をメインにしたいのでざっくりと概要を説明します。 Github Copilot は利用者のコーディング支援を行うサービスです。AIによるコード補完、コードの説明のほか、AIとコードに関連する様々なチャットを行うことができます。チャットを通してゼロからのコード提案、コードの修正を行うこともできます。 ■コード補完グレーがAI…

星 2025.01.21
Power Automateフロー共有時の接続の注意点

みなさんこんにちは。今回はPower Automateのフロー共有についてのお話です。 Power Automateではフローを複数人で管理している場合やフローの管理を引き継ぐ場合に共有機能が使用されます。共有されたユーザーのフロー編集フローの共有で特に注意が必要なのは共有された側のユーザーです。フローではSharePointをはじめ、様々なコネクタを利用することができます。コネクタによって接続を作成しなければいけない場合があります。共有された側のユーザー、つまりフローで使用している接続の所有者でないユーザーがフローを編集しようとすると以下のようなエラーメッセージが表示されます。こ…

星 2024.11.12
gpt-4o-realtime-previewを使ってみた！

はじめに Azureで音声入力および出力に対応したgpt-4o-realtime-previewモデルがデプロイできるようになりました。また、Azure OpenAI Studioでプレイグラウンド利用することも可能です。早速検証をしようと考えたのですが、リアルタイムでの音声入力・出力モデルの検証方法がどうにも思いつきませんでした…。既存のモデルと比較したり出力結果をそのまま載せることができたらよかったのですが、既存のモデルは複数のサービスを組み合わせてシステムを作らないと同様の機能を実現できませんし、出力結果も音声なのでどうにもやりにくい…。ということで今回はプレイグラウンドで使って…

星 2024.10.15
Power BI：メトリックレポートの活用

みなさんこんにちは。以前Power BI サービスで利用することができるメトリックレポートについてご紹介しました。今回はそのレポートをコピーしてカスタマイズする方法についてお伝えします。前回記事はこちらメトリックレポートのコピーまずメトリックレポートを編集できるようにするためにコピーを行います。メトリックレポートを開いたら、 [ファイル] タブから [コピーを保存] をクリックします。任意の名前で保存します。ダッシュボードの作成コピーしたメトリックレポートからは、一般のレポートと同じようにダッシュボードを作成することができます。 [Report usage] のページの上部に…

星 2024.09.17
Power BI メトリックレポート（使用状況メトリック）とは？

Power BI サービス（Web）で使用することができる「メトリックレポート」（使用状況メトリック）という機能をご存知でしょうか？ ※BIや公式のドキュメントでは「メトリックレポート」と「使用状況メトリック」で表記ゆれがありますが、本記事では、以降「メトリックレポート」で統一します。「メトリックレポート」はPower BI Pro以上のライセンスを持っている場合に使用できる機能で、共有ワークスペースにあるレポートの閲覧状況などが分かる機能です。メトリックで取得することができる情報取得できる情報を簡単に箇条書きにします。・レポートのアクセス数・レポートのページ閲覧数・レポートを開く…

星 2024.08.18
GPT-4o mini 登場！

みなさんこんにちは。先週新しい AI モデルである GPT-4o mini が発表・リリースされました。 Azure OpenAI でも、Azure OpenAI Studioのプレイグラウンドから利用することができます。 GPT-4o の時も最初はプレイグラウンドのみでの利用でしたが、1, 2 週間後には API 利用もできるようになっていたため、今後に期待です。 GPT-4o について GPT-4o mini の特徴 GPT-4o mini は GPT-3.5 の後継となるモデルです。価格は GPT-3.5 よりも安く、応答速度も速いモデルとなっています。それだけでなく、応答精度も非…

星 2024.07.22
Power Automate の文字列操作関数まとめ

はじめに今回の記事ではPower Automateで文字列操作に使用する関数の使い方をまとめます。今回記載するのはsubstring関数、slice関数、split関数、replace関数です。 substring関数指定したテキストから任意の位置・長さのテキストを切り出す関数です。 ■仕様 substring(text: string, startIndex: integer, length: integer) ・text…切り出し元のテキスト。・startIndex…切り出しの開始位置（先頭が0の数値）。・length…切り出す文字数。（数値）。省略した場合、textの末尾。 ■…

星 2024.06.24
GPT-4o について

はじめにこんにちは。今回は先日発表された GPT-4o の性能を GPT-4-turbo と比較する形で行いたいと思います。性能比較今回はできるだけ長文を出力させるようにした2つのプロンプトで検証を行いました。検証には Azure OpenAI Studio のプレイグラウンドを使用しました。 GPT-4o は米国東部リージョン、 GPT-4-turbo (0409) はスウェーデン中部リージョンのリソースです。 ①学習指導要領の作成プロンプト：小学校の国語の学習指導計画を作成します。題材に使用するのは以下の文章です。以下の文章を踏まえ、学習指導計画と、各回の授業内容をまとめてくだ…

星 2024.05.27