GoogleクラウドGPUサーバはどのように課金されますか?Compute Engine A3/A2インスタンスの計算力と価格の全解析!えっ!

クラウド 2026-06-04 阅读 80

AI大モデル、深さ学習、大規模な並列計算が爆発した現在、googleクラウドのA3とA2の事例が人気商品になった。しかし、大工場のGPU課金は非常に複雑で、国内の一部のサービス業者のように「全体のパッケージ価格で」ではなく、

CPU、メモリ、GPUグラフィックス、ローカルNVMeソリッドステートドライブ、ネットワーク帯域幅

全部分解して加算します。

このチュートリアルはナンセンスではなく、GCP GPUの課金基盤ロジックを直接分解し、最も核心的なA3、A2インスタンスに対して計算力と価格の深さを評価する。

一、コアベース: googleクラウドGPUの課金公式

GCPでは、GPUインスタンスの総オーバーヘッドは次の式で決定されます

$$\ Text {毎時総費用} = \ text{GPUコア単価} + \ text {基礎CPU費用} + \ text {メモリ費用} + \ text {ローカルSSD (ある場合)) 料金} + \ text {ストレージとネットワーク} $

1.コア課金項目の暗黙ルール

秒ごとに課金して、1分から計算します。GPUインスタンスを作成すれば、電源を入れて何も走らなくても、GPU部分は全額控除されます。

停止状態 (Stopped) はまだお金を受け取りますか?シャットダウンすると、GPU、CPU、メモリは課金されなくなりますが、マウントされたクラウドディスクは月ごとに課金され続けます。

機械室の割増額が極めて高い: GPUインスタンスの地域ごとの価格差が大きい。一般的に、米西(us-central1、us-west1) は一番安いです。中国香港、シンガポールなどアジア太平洋地域は資源が逼迫しているため、価格は通常20% ~ 40% 上昇します。

二、A2 vs A3シリーズ: 計算力位置決めと規格全分解

GoogleクラウドはGPUインスタンスを「Accelerator-optied」に分類している。現在の絶対的な主力は

A2 (NVIDIA A100搭載)

そして

A3 (NVIDIA H100/H200搭載)

。

1. A2シリーズ: 大モデル微調整と中型訓練のコストパフォーマンスの選択

A2インスタンスはNVIDIA A100 Tensor Coreビデオカードに基づいており、40gbと80gbのビデオカードの2つのバージョンを提供しています。

A 2標準版 (a2-highgpu): a 100 40GBを搭載します。

A 2超強版 (a2-megagpu): a 100 80GBを搭載しています。

計算力の枠組み: 三世代のTensor Coreを採用する。Fp 16とINT8タスクを実行しても、コストパフォーマンスに優れています。

2. A3シリーズ: LLM

万カードのクラスターと大量の事前訓練の飲み込みモンスター

A3はgoogleクラウドが大言語モデル (LLM) の狂潮に対応するために発売したトップアレイで、NVIDIA H100 (または最新のH200)80GB hb 3を搭載している。

計算力の飛躍: Transformerエンジンを導入し、大モデルの最適化に特化し、fp 8計算力はa 100より最大4倍向上した。

ネットテロ: A3が一番強いのはシングルカードではなく、ネットワーク帯域幅です。A3メガインスタンスは、最大800 Gbpsの超高速ネットワーク帯域幅 (グーグルがカスタマイズしたGPU相互接続技術を介して) を搭載しています。これは、数千枚のカードが連携して訓練されたときに、データ転送がチェーンから外れないためです。

三、A2/A3事例計算力と価格横評価 (コア作業)

あなたが本当の請求書の心の中で数えられるように、以下

米国西部のデータセンター（us-central1）

、公式基準は、オンデマンド料金を基準にして横評価を行う。

特に、次の価格は (GPUに対応するCPUメモリ) を含むユニット全体の約数で、パブリックネットワークのトラフィック料金は含まれていない。

インスタンスモデル

搭載GPU数

ビデオメモリ総量

CPUとメモリのバンドル

毎時価格 (オンデマンド)

毎月の見積もり (換算)

計算力の特徴と適用シーン

A2-highgpu-1g

1 × A100 40gb

40GB

12 vcpu/85gb

~ $3.67

~ $2,679

シングルカードの微調整、安定性Diffusion描画、中小規模AI推論サービス。

A2-megagpu-1g

1 × A100 80GB

80GB

24 vCPU / 170GB

~ $5.05

~ $3,686

ビデオメモリが倍になります。パラメータ量がわずかに大きい (例えば13B/33B) 大モデルのローカル配置と軽量微調整に適している。

A2-highgpu-8g

8 × A100 40gb

320GB

96 vCPU / 680GB

~ $29.39

~ $21,454

クラシック8カードStandardノード。企業レベルのマルチカード並列トレーニングタスクに適しています。

A3-highgpu-8g

8 × H100 80GB

640GB

208 vCPU/2tb

~ $41.30

~ $30,149

8カードH100業界標準標準。Fp 8の精度をサポートしています。

A3-megagpu-8g

8 × H100 80GB

640GB

208 vCPU/2tb

~ $48.50

~ $35、408

ネットワーク帯域幅が2倍になる (800 Gbp)

S)。ノード間、万カードレベルの大規模な分散クラスタ向けに設計されています。

注:大工場の価格はサプライチェーンと在庫によって動的に調整されます。リアルタイム価格はGCP Calculator計算ツールを基準にしてください。

四、リアルピット: GPU請求書の「お金を飲み込むブラックホール」

多くの企業は喜んでGPUクォータを申請したが、会計時に請求書が予想より数千ドル多いことを発見したのは、通常、次の3つの穴を踏んだからである

ローカルNVMe SSDの強制バンドル: あなたが高配のA2 (例えば8カード) やA3インスタンスを選んだとき、グーグルはデータの読み取り速度を保証するためにGPUの後足を引っ張らない3TBのローカルNVMeソリッドステートドライブを強制的にバンドルしてマウントします。この部分のハードディスクは独立したレートで1時間ごとに課金され、データを保存しなくてもお金は控除されます。

ハイエンドGPUのネットワーク転送料金 (Egress): AIトレーニングをするには、通常、大量のデータセットをプルする必要があります (数TBは常態です)。データセットを別の場所 (AWS S3や異なる地域のバケットなど) に存在させたり、訓練された重みモデルを頻繁にローカルにダウンロードしたりすると地域間/アウトバウンドの流量料金は驚くべきものになる。

「アイドル」クーポントラップ: グーグルは常に新しい企業ユーザーに数千ドルのテスト額を送っている。しかし、8カードH100の電源を入れると、1日に約1000ドルを焼くことができることに注意してください。コードが間違っていて、環境が整っていなければ、カードはそこで数日debug (デバッグ) して、額は瞬時にゼロになり、その後、バインドされたクレジットカードの実体検証金を直接差し引く。

五、骨灰級のお金節約策

GPUはクラウドコンピューティングのぜいたく品で、花会社の融資を節約しないとすぐに焼かれる。以下は圏内で公認されているお金節約姿勢です。

1.Spot GPUを使用することを強くお勧めします。

もしあなたがやっているなら

非ブレークポイント不可のトレーニング

(つまり、コードはCheckpointチェックポイントを定期的に保存することをサポートしています) またはオフラインのバッチタスクを実行しています

Spot VMにチェックを入れる必要があります

。

節約幅: 原価 $41/時間のH100インスタンス、Spot価格は通常 $12 ~ $14/時間である。

生存規則: 機械はいつでもグーグルに回収され、スクリプトを書いて、30分ごとに自動的にモデルの重みをGoogle Cloud Storage (GCS) のバケツに同期させる可能性がある。

2.割引 (CUD) を使用することを約束する -- 降服長期業務

もしあなたの大きなモデルが24時間オンラインでAPI推論サービスを提供する必要があるなら、必要に応じて支払うのが一番馬鹿です。

GCPコンソールで1年間GPUを購入して使うことを約束して、通常は6割引程度の特典がもらえる。

購入する前に、あなたが何枚のカードを必要としているかを正確に計算しなければならない。約束すると、電源が切れても、来年は毎月クレジットカードで差し引くからだ。

3.データをイントラネットに集約する: Cloud Storageと組み合わせる

パブリックネットワークでデータセットを転送しないでください。トレーニングセットをすべてGPUサーバと同じゾーン (us-central1-aなど) のGoogle Cloud Storage (GCS) バケットに転送します。同じゾーン内で、バケットからGPUサーバへのデータ転送料金は

$0/無料

の、しかもスループットが極めて大きいです。

六、まとめ: あなたはどうやって選びますか。

初創チーム/学術研究/個人微調整: H100を奪うな。A2-highgpu-1g (A100 40G) をSpotモードに合わせて、最低のコストでコードを走らせ、モデルを試作品から呼び出す。

主流企業クラスの法学業務/垂直領域の微調整: 選択a2-megagpu-1g (a 100 80G)。大規模な保存は、より大きなBatch Sizeを詰め込むことができ、ビデオメモリを爆発させるのは容易ではありません。

ハードコアビッグモデルプレトレーニング/マルチモード/究極の効率を追い求めて: ノー脳上A3シリーズ (H100)。一時間は高いが、fp 8の計算力と恐怖のインターネットのおかげで、訓練を完成した総時間は大幅に短縮され、総時間コストと総資金コストは逆に古いカードを使うよりもコストが安い。