[azure]標準デプロイとプロビジョニングされたデプロイの違い

デプロイの種類

Azureには「標準デプロイ」と「プロビジョニングされたデプロイ」がある。(※1)

Azure AI Foundry デプロイのデータ処理の場所
標準デプロイの場合は、グローバル、データ ゾーン、Azure 地域の 3 つのデプロイの種類のオプションから選択できます。

 

標準デプロイ

  • 利用時にだけリソースが割り当てられる。
  • 料金は「トークン数」に応じて従量課金。
  • スケーリングは Microsoft 側が自動。
  • 小規模実験や変動の大きい利用に向く。

小規模向け、使った分だけお金がかかるよというのが標準デプロイ

必要な時だけ利用するコインパーキング

 

プロビジョニングされたデプロイ (※2)

  • あらかじめ 専用の GPU/CPU リソース をあなたのデプロイに確保(プロビジョニング)する。
  • リソースは固定的に予約されるので、常時起動・安定したスループットを提供。
  • 課金は「使用時間」ベース(使ってなくてもリソースを押さえている間は料金が発生)。
  • 大規模運用やレスポンス遅延が許されない本番システムに向く。

大規模向け、時間に比例して料金が発生する

常にリソースを確保している月極駐車場

 

 

プロビジョニングとは

「provision = 供給・準備」から来ていて、リソースを事前に準備・割り当てることを指す。

もともとはインフラ関係のワードであり、サーバーやネットワーク機材を「利用できる状態にする」ことを表す。ユーザーやアプリに対して「必要なリソース(CPU、GPU、ストレージ、アカウント権限など)を割り当てる」

Azure の PTU もまさにこの意味で、GPUパワーを予約・供給する行為を指す

 

プロビジョニングとデプロイの違い

プロビジョニングは「ハードウェアを利用可能な状態にすること」、デプロイは「ソフトウェアを利用可能な状態にすること」という関係。

 

 

 

「プロビジョニングされたデプロイ」と「料金」

プロビジョニングのテーブルを参照 (※3)

デプロイのスループットを割り当てて管理し、予測可能なパフォーマンスと安定した容量を確保できます。使用量に関係なく、モデルごとに時間単位の料金が請求されますが、月次および年次の予約を通じて追加の節約を確保することもできます。

月額料金は3万円 ~ 4万円。高い!

 

 

PTUとは何か

PTUとはプロビジョニングされたデプロイに利用される単位。

PTU : プロビジョニング スループット ユニットの略

プロビジョニング スループット ユニット (PTU) は、プロンプトの処理と補完の生成のため必要なスループットを実現するようにプロビジョニングされたデプロイのサイズ指定に使用できるモデル処理容量の一般の単位です。(※4)

デプロイされた PTU の数に対して時間料金 ($/PTU/時間) が課金されます。(※5)

スループットとTPM

テーブルにモデルごとの「PTUごとの入力TPM」の数値が載っている。

GPT-5であれば「4,750TPM」、GPT-4.1-miniであれば「14,900TPM」

つまり、1分間に149,000トークン(文庫本1冊分)を処理するのであれば、149,000 / 14,900 = 10PTU必要になるのだと思われる。

結論

プロビジョニングデプロイは高価であるため、個人では手が出ない\(^o^)/

 

 

参考サイト

※1 Azure AI Foundry モデルのデプロイの種類について | Microsoft Learn

※2 Azure AI Foundry モデルのプロビジョニングされたスループット |Microsoft Learn

※3    Azure OpenAI Service – 価格 |マイクロソフト Azure

※4 Azure AI Foundry Models のプロビジョニング スループット | Microsoft Learn

※5 プロビジョニングされたスループットユニット(PTU)に関連するコストを理解する |Microsoft Learn