GoogleクラウドGPUサーバはどのように課金されますか?Compute Engine A3/A2インスタンスの計算力と価格の全解析!えっ!
AI大モデル、深さ学習、大規模な並列計算が爆発した現在、googleクラウドのA3とA2の事例が人気商品になった。しかし、大工場のGPU課金は非常に複雑で、国内の一部のサービス業者のように「全体のパッケージ価格で」ではなく、
CPU、メモリ、GPUグラフィックス、ローカルNVMeソリッドステートドライブ、ネットワーク帯域幅
全部分解して加算します。
このチュートリアルはナンセンスではなく、GCP GPUの課金基盤ロジックを直接分解し、最も核心的なA3、A2インスタンスに対して計算力と価格の深さを評価する。
一、コアベース: googleクラウドGPUの課金公式
GCPでは、GPUインスタンスの総オーバーヘッドは次の式で決定されます
$$\ Text {毎時総費用} = \ text{GPUコア単価} + \ text {基礎CPU費用} + \ text {メモリ費用} + \ text {ローカルSSD (ある場合)) 料金} + \ text {ストレージとネットワーク} $
1.コア課金項目の暗黙ルール
秒ごとに課金して、1分から計算します。GPUインスタンスを作成すれば、電源を入れて何も走らなくても、GPU部分は全額控除されます。
停止状態 (Stopped) はまだお金を受け取りますか?シャットダウンすると、GPU、CPU、メモリは課金されなくなりますが、マウントされたクラウドディスクは月ごとに課金され続けます。
機械室の割増額が極めて高い: GPUインスタンスの地域ごとの価格差が大きい。一般的に、米西(us-central1、us-west1) は一番安いです。中国香港、シンガポールなどアジア太平洋地域は資源が逼迫しているため、価格は通常20% ~ 40% 上昇します。
二、A2 vs A3シリーズ: 計算力位置決めと規格全分解
GoogleクラウドはGPUインスタンスを「Accelerator-optied」に分類している。現在の絶対的な主力は
A2 (NVIDIA A100搭載)
そして
A3 (NVIDIA H100/H200搭載)
。
1. A2シリーズ: 大モデル微調整と中型訓練のコストパフォーマンスの選択
A2インスタンスはNVIDIA A100 Tensor Coreビデオカードに基づいており、40gbと80gbのビデオカードの2つのバージョンを提供しています。
A 2標準版 (a2-highgpu): a 100 40GBを搭載します。
A 2超強版 (a2-megagpu): a 100 80GBを搭載しています。
計算力の枠組み: 三世代のTensor Coreを採用する。Fp 16とINT8タスクを実行しても、コストパフォーマンスに優れています。
2. A3シリーズ: LLM
万カードのクラスターと大量の事前訓練の飲み込みモンスター
A3はgoogleクラウドが大言語モデル (LLM) の狂潮に対応するために発売したトップアレイで、NVIDIA H100 (または最新のH200)80GB hb 3を搭載している。
計算力の飛躍: Transformerエンジンを導入し、大モデルの最適化に特化し、fp 8計算力はa 100より最大4倍向上した。
ネットテロ: A3が一番強いのはシングルカードではなく、ネットワーク帯域幅です。A3メガインスタンスは、最大800 Gbpsの超高速ネットワーク帯域幅 (グーグルがカスタマイズしたGPU相互接続技術を介して) を搭載しています。これは、数千枚のカードが連携して訓練されたときに、データ転送がチェーンから外れないためです。
三、A2/A3事例計算力と価格横評価 (コア作業)
あなたが本当の請求書の心の中で数えられるように、以下
米国西部のデータセンター(us-central1)
、公式基準は、オンデマンド料金を基準にして横評価を行う。
特に、次の価格は (GPUに対応するCPUメモリ) を含むユニット全体の約数で、パブリックネットワークのトラフィック料金は含まれていない。
インスタンスモデル
搭載GPU数
ビデオメモリ総量
CPUとメモリのバンドル
毎時価格 (オンデマンド)
毎月の見積もり (換算)
計算力の特徴と適用シーン
A2-highgpu-1g
1 × A100 40gb
40GB
12 vcpu/85gb
~ $3.67
~ $2,679
シングルカードの微調整、安定性Diffusion描画、中小規模AI推論サービス。
A2-megagpu-1g
1 × A100 80GB
80GB
24 vCPU / 170GB
~ $5.05
~ $3,686
ビデオメモリが倍になります。パラメータ量がわずかに大きい (例えば13B/33B) 大モデルのローカル配置と軽量微調整に適している。
A2-highgpu-8g
8 × A100 40gb
320GB
96 vCPU / 680GB
~ $29.39
~ $21,454
クラシック8カードStandardノード。企業レベルのマルチカード並列トレーニングタスクに適しています。
A3-highgpu-8g
8 × H100 80GB
640GB
208 vCPU/2tb
~ $41.30
~ $30,149
8カードH100業界標準標準。Fp 8の精度をサポートしています。
A3-megagpu-8g
8 × H100 80GB
640GB
208 vCPU/2tb
~ $48.50
~ $35、408
ネットワーク帯域幅が2倍になる (800 Gbp)
S)。ノード間、万カードレベルの大規模な分散クラスタ向けに設計されています。
注:大工場の価格はサプライチェーンと在庫によって動的に調整されます。リアルタイム価格はGCP Calculator計算ツールを基準にしてください。
四、リアルピット: GPU請求書の「お金を飲み込むブラックホール」
多くの企業は喜んでGPUクォータを申請したが、会計時に請求書が予想より数千ドル多いことを発見したのは、通常、次の3つの穴を踏んだからである
ローカルNVMe SSDの強制バンドル: あなたが高配のA2 (例えば8カード) やA3インスタンスを選んだとき、グーグルはデータの読み取り速度を保証するためにGPUの後足を引っ張らない3TBのローカルNVMeソリッドステートドライブを強制的にバンドルしてマウントします。この部分のハードディスクは独立したレートで1時間ごとに課金され、データを保存しなくてもお金は控除されます。
ハイエンドGPUのネットワーク転送料金 (Egress): AIトレーニングをするには、通常、大量のデータセットをプルする必要があります (数TBは常態です)。データセットを別の場所 (AWS S3や異なる地域のバケットなど) に存在させたり、訓練された重みモデルを頻繁にローカルにダウンロードしたりすると地域間/アウトバウンドの流量料金は驚くべきものになる。
「アイドル」クーポントラップ: グーグルは常に新しい企業ユーザーに数千ドルのテスト額を送っている。しかし、8カードH100の電源を入れると、1日に約1000ドルを焼くことができることに注意してください。コードが間違っていて、環境が整っていなければ、カードはそこで数日debug (デバッグ) して、額は瞬時にゼロになり、その後、バインドされたクレジットカードの実体検証金を直接差し引く。
五、骨灰級のお金節約策
GPUはクラウドコンピューティングのぜいたく品で、花会社の融資を節約しないとすぐに焼かれる。以下は圏内で公認されているお金節約姿勢です。
1.Spot GPUを使用することを強くお勧めします。
もしあなたがやっているなら
非ブレークポイント不可のトレーニング
(つまり、コードはCheckpointチェックポイントを定期的に保存することをサポートしています) またはオフラインのバッチタスクを実行しています
Spot VMにチェックを入れる必要があります
。
節約幅: 原価 $41/時間のH100インスタンス、Spot価格は通常 $12 ~ $14/時間である。
生存規則: 機械はいつでもグーグルに回収され、スクリプトを書いて、30分ごとに自動的にモデルの重みをGoogle Cloud Storage (GCS) のバケツに同期させる可能性がある。
2.割引 (CUD) を使用することを約束する -- 降服長期業務
もしあなたの大きなモデルが24時間オンラインでAPI推論サービスを提供する必要があるなら、必要に応じて支払うのが一番馬鹿です。
GCPコンソールで1年間GPUを購入して使うことを約束して、通常は6割引程度の特典がもらえる。
購入する前に、あなたが何枚のカードを必要としているかを正確に計算しなければならない。約束すると、電源が切れても、来年は毎月クレジットカードで差し引くからだ。
3.データをイントラネットに集約する: Cloud Storageと組み合わせる
パブリックネットワークでデータセットを転送しないでください。トレーニングセットをすべてGPUサーバと同じゾーン (us-central1-aなど) のGoogle Cloud Storage (GCS) バケットに転送します。同じゾーン内で、バケットからGPUサーバへのデータ転送料金は
$0/無料
の、しかもスループットが極めて大きいです。
六、まとめ: あなたはどうやって選びますか。
初創チーム/学術研究/個人微調整: H100を奪うな。A2-highgpu-1g (A100 40G) をSpotモードに合わせて、最低のコストでコードを走らせ、モデルを試作品から呼び出す。
主流企業クラスの法学業務/垂直領域の微調整: 選択a2-megagpu-1g (a 100 80G)。大規模な保存は、より大きなBatch Sizeを詰め込むことができ、ビデオメモリを爆発させるのは容易ではありません。
ハードコアビッグモデルプレトレーニング/マルチモード/究極の効率を追い求めて: ノー脳上A3シリーズ (H100)。一時間は高いが、fp 8の計算力と恐怖のインターネットのおかげで、訓練を完成した総時間は大幅に短縮され、総時間コストと総資金コストは逆に古いカードを使うよりもコストが安い。
