はじめに
Azureで音声入力および出力に対応したgpt-4o-realtime-previewモデルがデプロイできるようになりました。
また、Azure OpenAI Studioでプレイグラウンド利用することも可能です。
早速検証をしようと考えたのですが、リアルタイムでの音声入力・出力モデルの検証方法がどうにも思いつきませんでした…。
既存のモデルと比較したり出力結果をそのまま載せることができたらよかったのですが、既存のモデルは複数のサービスを組み合わせてシステムを作らないと同様の機能を実現できませんし、出力結果も音声なのでどうにもやりにくい…。
ということで今回はプレイグラウンドで使ってみての感想をブログとして投稿することにしました。
プレイグラウンドでの利用について
Azure OpenAI Studioの [リアルタイムオーディオ] から今回リリースされた機能を利用することができます。
他機能と同様にまずはモデルのデプロイが必要です。
[デプロイ] からgpt-4o-realtime-previewモデルをデプロイします。
プレイグラウンドでは、システムプロンプトの設定、出力音声のパターン(どういった声か)の設定、パラメーターの設定を行うことができます。
出力音声は三パターンあり、男性の声が2つ、女性の声が1つです。
通常のチャットと同じようにパラメーターの設定も可能であるようでしたが、なぜかスクロールができなかったので、最大応答しか変更することができませんでした。 [サーバーターン] 検出というプロパティもありますが、スクロールできない問題のためこちらの設定も断念しました。
使ってみての感想
最近体力不足を痛感しているので、生活習慣、運動習慣について尋ねてみました。
まず3つの音声すべてが非常に聞き取りやすいかつ応答スピードがはやかったため驚きました。
音声がただ返ってくるだけではなく、言葉それぞれに抑揚がついており、日本語もスムーズに聞き取ることができました。違和感のある抑揚もないわけではありませんが、ネイティブと言えるレベルだと思います。
応答スピードについて、4oでのチャットを行っている人は、普段のテキスト出力がラグなくそのまま音声で返ってくるというイメージを持つと思います。
応答内容についても同じで4oとのチャットと同じような精度で知りたい情報を教えてくれます。私の場合は、運動不足ならとにかく歩け、階段を使えと言われました…。それでも足りなければランニングや筋トレをしなさいとも言われたのですが、正直それはやりたくない…。
チャットと同様に続けて会話を行うことも可能です。
ここまでの評価は非常に優秀なモデルであるというものですが、1点だけ問題があり、トークン数の制限については気になりました。
会話を行っていると一回の出力が多い場合に、音声がぷつっと切れてしまうことが多々ありました。これが改善されればシステムに組み込み様々な利用が可能になるのではないかと思いました。
おわりに
今回はgpt-4o-realtime-previewモデルをプレイグラウンドで利用してみました。
聞き取りやすく待ち時間もほとんどないため、人間との会話とそこまで差はないように感じました。AIの進歩に驚くばかりです。
ここまで閲覧いただきありがとうございました!