Bagaimana untuk menagih pelayan GPU Google Cloud? Analisis kekuatan dan harga pengiraan contoh Compute Engine A3/A2!!

awan 2026-06-04 阅读 79

Pada masa ketika model AI besar, pembelajaran mendalam dan pengkomputeran selari berskala besar meletup, contoh Google Cloud A3 dan A2 telah menjadi produk yang popular. Walau bagaimanapun, penagihan GPU pengeluar utama sangat rumit-ia tidak "dibungkus dengan keseluruhan mesin" seperti beberapa penyedia perkhidmatan domestik, tetapi

CPU, memori, kad grafik GPU, pemacu keadaan pepejal NVMe tempatan, lebar jalur rangkaian

Bongkar semua dan lakukan penambahan.

Tutorial ini bukan omong kosong, secara langsung membongkar logik penagihan yang mendasari GPU GCP untuk anda, dan melakukan tinjauan mendatar yang mendalam mengenai kekuatan pengiraan dan harga contoh inti A3 dan A2.

1. Asas teras: formula penagihan GPU awan Google

Dalam GCP, jumlah overhead contoh GPU ditentukan oleh formula berikut:

$ $ \ Text {jumlah kos per jam} = \ text {unit unit teras GPU} \ text {kos CPU asas} \ text {kos memori} \ text {kos SSD tempatan (jika ada)} \ text {penyimpanan dan rangkaian} $ $

1. Peraturan tersembunyi item penagihan teras

Bil dalam beberapa saat, bermula dari 1 minit: Selagi anda membuat contoh GPU, walaupun anda tidak menjalankan apa-apa setelah boot, bahagian GPU akan ditolak sepenuhnya.

Adakah Stopped masih menerima wang? Apabila anda mematikan (Stop), GPU, CPU dan memori akan berhenti ditagih, tetapi cakera keras awan (Boot Disk) yang dipasang akan terus ditolak setiap bulan.

Premium bilik komputer sangat tinggi: perbezaan harga contoh GPU di kawasan yang berbeza (zon) sangat besar. Secara umum, Amerika Barat (us-central1, us-west1) adalah yang paling murah. Oleh kerana kekurangan sumber di Hong Kong, Singapura dan wilayah Asia-Pasifik yang lain, harganya biasanya meningkat 20% ~ 40%.

2. Siri A2 vs A3: Pembongkaran penuh kedudukan dan spesifikasi kuasa pengkomputeran

Google Cloud mengklasifikasikan contoh GPU sebagai "Accelerator-dioptimumkan". Kekuatan utama mutlak semasa adalah

A2 (dilengkapi dengan NVIDIA A100)

Dan

A3 (dilengkapi dengan NVIDIA H100/H200)

。

1. Siri A2: Pilihan yang menjimatkan untuk penyesuaian model besar dan latihan bersaiz sederhana

Contoh A2 didasarkan pada kad grafik NVIDIA A100 Tenor Core, yang tersedia dalam memori video 40GB dan 80GB.

Edisi Standard A2 (a2-highgpu): Dilengkapi dengan A100 40GB.

A2 Super Edition (a2-megagpu): Dilengkapi dengan A100 80GB (direka untuk keperluan memori yang besar).

Senibina kuasa pengkomputeran: Menggunakan Tensor Core generasi ketiga. Ia masih sangat menjimatkan semasa menjalankan misi FP16 dan INT8.

2. Siri A3: LLM

Kumpulan Wanka dan raksasa throughput pra-latihan besar-besaran

A3 adalah susunan teratas yang dilancarkan oleh Google Cloud sebagai tindak balas terhadap kegilaan model bahasa besar (LLM), dilengkapi dengan NVIDIA H100 (atau H200 terbaru) 80GB HBM3.

Lompatan daya pengkomputeran: Enjin Transformer diperkenalkan, dioptimumkan khusus untuk model besar, dan daya pengkomputeran FP8 adalah 4 kali lebih tinggi daripada A100.

Seram siber: Tempat terkuat di A3 bukanlah kad tunggal, tetapi lebar jalur rangkaian. Contoh A3 Mega dilengkapi dengan lebar jalur rangkaian berkelajuan tinggi hingga 800 Gbps (melalui teknologi interkoneksi GPU yang disesuaikan oleh Google), yang bertujuan untuk menghantar data tanpa kehilangan rantai semasa latihan bersama ribuan kad.

3. Pengiraan contoh A2 / A3 dan Hengping harga (kerja teras)

Untuk memberi tahu anda mengenai bil sebenar, berikut adalah

Pusat data A.S. Barat (us-central1)

, Piawaian rasmi adalah berdasarkan pembayaran on-demand.

Peringatan khas: Harga berikut adalah pembahagi keseluruhan mesin yang mengandungi (GPU sesuai dengan memori CPU yang dibundel), dan tidak termasuk caj lalu lintas rangkaian awam.

Contoh model

Dilengkapi dengan bilangan GPU

Jumlah memori video

Menggabungkan CPU dan memori

Harga setiap jam (atas permintaan)

Anggaran bulanan (bersamaan)

Ciri kuasa pengkomputeran dan senario yang berlaku

A2-highgpu-1g

1 × A100 40GB

40GB

12 vCPU / 85GB

~ $3.67

~ $2,679

Penyesuaian kad tunggal, grafik Diffusion yang stabil, perkhidmatan penaakulan AI kecil dan sederhana.

A2-megagpu-1g

1 × A100 80GB

80GB

24 vCPU / 170GB

~ $5.05

~ $3,686

Gandakan memori video. Ia sesuai untuk penyebaran tempatan dan penyesuaian ringan model besar dengan parameter yang sedikit lebih besar (seperti 13B/33B).

A2-highgpu-8g

8 × A100 40GB

320GB

96 vCPU / 680GB

~ $29.39

~ $21,454

Nod Standard 8 kad klasik. Sesuai untuk tugas latihan selari berbilang kad peringkat perusahaan.

A3-highgpu-8g

8 × H100 80GB

640GB

208 vCPU / 2TB

~ $41.30

~ $30,149

Standard industri H100 8 kad adalah standard. Menyokong ketepatan FP8, pra-latihan LLM 10 bilion/100 bilion, latihan multi-modal berskala besar adalah pilihan pertama.

A3-megagpu-8g

8 × H100 80GB

640GB

208 vCPU / 2TB

~ $48.50

~ $35,408

Lebar jalur rangkaian berganda (800 Gbp

S). Direka untuk kluster diedarkan berskala besar di seluruh nod dan tahap sepuluh ribu kad.

Catatan: Harga pengeluar utama akan disesuaikan secara dinamik dengan rantaian bekalan dan inventori. Untuk harga masa nyata, sila rujuk alat pengiraan GCP Calculator.

4. Penghindaran sebenar: "lubang hitam menelan wang" dalam bil GPU

Banyak syarikat dengan senang hati memohon kuota GPU, tetapi mendapati bahawa rang undang-undang itu beberapa ribu dolar lebih banyak daripada yang dijangkakan semasa pembayaran, biasanya kerana mereka menginjak tiga lubang berikut:

Pengikatan paksa SSD NVMe tempatan: Apabila anda memilih contoh A2 (seperti kad 8) atau A3 dengan konfigurasi tinggi, Google akan memaksa beberapa pemacu keadaan pepejal NVMe tempatan dengan pemasangan 3TB untuk memastikan kelajuan membaca data tidak menyeret kaki belakang GPU. (SSD Tempatan). Bahagian cakera keras ini dikenakan pada kadar bebas setiap jam, walaupun anda tidak menggunakannya untuk menyimpan data, wang akan ditolak.

Bayaran penghantaran rangkaian GPU kelas atas (Egress): Latihan AI biasanya memerlukan sejumlah besar set data (beberapa TB adalah perkara biasa). Sekiranya anda menyimpan set data di tempat lain (seperti AWS S3, atau baldi di kawasan yang tidak sama), atau sering memuat turun model pemberat terlatih ke kawasan setempat, caj lalu lintas antara wilayah/keluar akan sangat mengagumkan.

Perangkap baucar "Idle": Google sering memberikan had ujian beberapa ribu dolar kepada pengguna perusahaan baru. Tetapi harap maklum bahawa 8 kad H100 dapat membakar hampir $1,000 sehari setelah dihidupkan. Sekiranya kodnya salah dan persekitarannya tidak sesuai, terjebak di sana untuk debug (debug) selama beberapa hari, kuota akan kembali ke sifar dengan serta-merta, dan kemudian bayaran pengesahan entiti kad kredit yang terikat akan ditolak secara langsung.

Lima, strategi penjimatan wang tegar

GPU adalah kemewahan dalam pengkomputeran awan, dan pembiayaan syarikat akan segera habis. Berikut adalah postur penjimatan wang yang dikenali dalam bulatan:

1. Sangat disyorkan: gunakan GPU Spot (jenis merebut)-potongan 3-4% secara langsung

Sekiranya anda melakukannya

Latihan yang mesti rosak

(Maksudnya, kod tersebut menyokong menyimpan pusat pemeriksaan Checkpoint secara berkala), atau menjalankan tugas kumpulan luar talian,

Mesti tandakan Spot VM

。

Jimat wang: Contoh H100 pada harga asal $41/jam, harga Spot biasanya hanya $12 ~ $14/jam.

Peraturan bertahan: Mesin boleh diambil kembali oleh Google pada bila-bila masa. Tulis skrip dan segerakkan berat model secara automatik ke baldi Google Cloud Storage (GCS) setiap setengah jam.

2. Komitmen untuk menggunakan diskaun (CUD) -menyerahkan perniagaan jangka panjang

Sekiranya model besar anda memerlukan perkhidmatan penaakulan API dalam talian 24 jam, membayar atas permintaan adalah yang paling bodoh.

Membeli GPU 1 tahun di konsol GCP menjanjikan untuk digunakan, biasanya anda boleh mendapat potongan sekitar 40%.

Sebelum membeli, anda mesti mengira dengan tepat berapa banyak kad yang anda perlukan, kerana setelah anda berjanji, tanpa mengira sama ada ia dihidupkan atau dimatikan, wang itu akan ditolak dari kad kredit setiap bulan pada tahun berikutnya.

3. Pengumpulan data ke intranet: dengan Cloud Storage

Jangan gunakan rangkaian awam untuk menghantar set data. Pindahkan semua set latihan ke baldi Google Cloud Storage (GCS) di kawasan yang sama dengan pelayan GPU (zon yang sama, seperti us-central1-a). Di kawasan yang sama, kos penghantaran data dari baldi ke pelayan GPU adalah

$0/Percuma

, Dan hasilnya sangat besar.

6. Ringkasan: Bagaimana anda memilih?

Pasukan permulaan/penyelidikan akademik/penyesuaian peribadi: Jangan ambil H100. Pilih a2-highgpu-1g (A100 40G) untuk bekerjasama dengan mod Spot untuk menjalankan kod dan memanggil model dari prototaip dengan kos terendah.

Penyesuaian perniagaan LLM peringkat perusahaan utama/bidang menegak: pilih a2-megagpu-1g (A100 80G). Memori paparan yang besar membolehkan anda memasukkan Ukuran Batch yang lebih besar, dan tidak mudah meletup memori video (OOM).

Pra-latihan model besar tegar/multi-modal/mengejar kecekapan utama: siri A3 tanpa otak (H100). Walaupun satu jam mahal, berkat kekuatan pengkomputeran FP8 dan Internet yang menakutkan, jumlah masa untuk menyelesaikan latihan telah dipendekkan. Jumlah kos masa dan jumlah kos modal lebih menjimatkan daripada menggunakan kad lama.