Bagaimana untuk menagih pelayan GPU Google Cloud? Analisis kekuatan dan harga pengiraan contoh Compute Engine A3/A2!!
Pada masa ketika model AI besar, pembelajaran mendalam dan pengkomputeran selari berskala besar meletup, contoh Google Cloud A3 dan A2 telah menjadi produk yang popular. Walau bagaimanapun, penagihan GPU pengeluar utama sangat rumit-ia tidak "dibungkus dengan keseluruhan mesin" seperti beberapa penyedia perkhidmatan domestik, tetapi
CPU, memori, kad grafik GPU, pemacu keadaan pepejal NVMe tempatan, lebar jalur rangkaian
Bongkar semua dan lakukan penambahan.
Tutorial ini bukan omong kosong, secara langsung membongkar logik penagihan yang mendasari GPU GCP untuk anda, dan melakukan tinjauan mendatar yang mendalam mengenai kekuatan pengiraan dan harga contoh inti A3 dan A2.
1. Asas teras: formula penagihan GPU awan Google
Dalam GCP, jumlah overhead contoh GPU ditentukan oleh formula berikut:
$ $ \ Text {jumlah kos per jam} = \ text {unit unit teras GPU} \ text {kos CPU asas} \ text {kos memori} \ text {kos SSD tempatan (jika ada)} \ text {penyimpanan dan rangkaian} $ $
1. Peraturan tersembunyi item penagihan teras
Bil dalam beberapa saat, bermula dari 1 minit: Selagi anda membuat contoh GPU, walaupun anda tidak menjalankan apa-apa setelah boot, bahagian GPU akan ditolak sepenuhnya.
Adakah Stopped masih menerima wang? Apabila anda mematikan (Stop), GPU, CPU dan memori akan berhenti ditagih, tetapi cakera keras awan (Boot Disk) yang dipasang akan terus ditolak setiap bulan.
Premium bilik komputer sangat tinggi: perbezaan harga contoh GPU di kawasan yang berbeza (zon) sangat besar. Secara umum, Amerika Barat (us-central1, us-west1) adalah yang paling murah. Oleh kerana kekurangan sumber di Hong Kong, Singapura dan wilayah Asia-Pasifik yang lain, harganya biasanya meningkat 20% ~ 40%.
2. Siri A2 vs A3: Pembongkaran penuh kedudukan dan spesifikasi kuasa pengkomputeran
Google Cloud mengklasifikasikan contoh GPU sebagai "Accelerator-dioptimumkan". Kekuatan utama mutlak semasa adalah
A2 (dilengkapi dengan NVIDIA A100)
Dan
A3 (dilengkapi dengan NVIDIA H100/H200)
。
1. Siri A2: Pilihan yang menjimatkan untuk penyesuaian model besar dan latihan bersaiz sederhana
Contoh A2 didasarkan pada kad grafik NVIDIA A100 Tenor Core, yang tersedia dalam memori video 40GB dan 80GB.
Edisi Standard A2 (a2-highgpu): Dilengkapi dengan A100 40GB.
A2 Super Edition (a2-megagpu): Dilengkapi dengan A100 80GB (direka untuk keperluan memori yang besar).
Senibina kuasa pengkomputeran: Menggunakan Tensor Core generasi ketiga. Ia masih sangat menjimatkan semasa menjalankan misi FP16 dan INT8.
2. Siri A3: LLM
Kumpulan Wanka dan raksasa throughput pra-latihan besar-besaran
A3 adalah susunan teratas yang dilancarkan oleh Google Cloud sebagai tindak balas terhadap kegilaan model bahasa besar (LLM), dilengkapi dengan NVIDIA H100 (atau H200 terbaru) 80GB HBM3.
Lompatan daya pengkomputeran: Enjin Transformer diperkenalkan, dioptimumkan khusus untuk model besar, dan daya pengkomputeran FP8 adalah 4 kali lebih tinggi daripada A100.
Seram siber: Tempat terkuat di A3 bukanlah kad tunggal, tetapi lebar jalur rangkaian. Contoh A3 Mega dilengkapi dengan lebar jalur rangkaian berkelajuan tinggi hingga 800 Gbps (melalui teknologi interkoneksi GPU yang disesuaikan oleh Google), yang bertujuan untuk menghantar data tanpa kehilangan rantai semasa latihan bersama ribuan kad.
3. Pengiraan contoh A2 / A3 dan Hengping harga (kerja teras)
Untuk memberi tahu anda mengenai bil sebenar, berikut adalah
Pusat data A.S. Barat (us-central1)
, Piawaian rasmi adalah berdasarkan pembayaran on-demand.
Peringatan khas: Harga berikut adalah pembahagi keseluruhan mesin yang mengandungi (GPU sesuai dengan memori CPU yang dibundel), dan tidak termasuk caj lalu lintas rangkaian awam.
Contoh model
Dilengkapi dengan bilangan GPU
Jumlah memori video
Menggabungkan CPU dan memori
Harga setiap jam (atas permintaan)
Anggaran bulanan (bersamaan)
Ciri kuasa pengkomputeran dan senario yang berlaku
A2-highgpu-1g
1 × A100 40GB
40GB
12 vCPU / 85GB
~ $3.67
~ $2,679
Penyesuaian kad tunggal, grafik Diffusion yang stabil, perkhidmatan penaakulan AI kecil dan sederhana.
A2-megagpu-1g
1 × A100 80GB
80GB
24 vCPU / 170GB
~ $5.05
~ $3,686
Gandakan memori video. Ia sesuai untuk penyebaran tempatan dan penyesuaian ringan model besar dengan parameter yang sedikit lebih besar (seperti 13B/33B).
A2-highgpu-8g
8 × A100 40GB
320GB
96 vCPU / 680GB
~ $29.39
~ $21,454
Nod Standard 8 kad klasik. Sesuai untuk tugas latihan selari berbilang kad peringkat perusahaan.
A3-highgpu-8g
8 × H100 80GB
640GB
208 vCPU / 2TB
~ $41.30
~ $30,149
Standard industri H100 8 kad adalah standard. Menyokong ketepatan FP8, pra-latihan LLM 10 bilion/100 bilion, latihan multi-modal berskala besar adalah pilihan pertama.
A3-megagpu-8g
8 × H100 80GB
640GB
208 vCPU / 2TB
~ $48.50
~ $35,408
Lebar jalur rangkaian berganda (800 Gbp
S). Direka untuk kluster diedarkan berskala besar di seluruh nod dan tahap sepuluh ribu kad.
Catatan: Harga pengeluar utama akan disesuaikan secara dinamik dengan rantaian bekalan dan inventori. Untuk harga masa nyata, sila rujuk alat pengiraan GCP Calculator.
4. Penghindaran sebenar: "lubang hitam menelan wang" dalam bil GPU
Banyak syarikat dengan senang hati memohon kuota GPU, tetapi mendapati bahawa rang undang-undang itu beberapa ribu dolar lebih banyak daripada yang dijangkakan semasa pembayaran, biasanya kerana mereka menginjak tiga lubang berikut:
Pengikatan paksa SSD NVMe tempatan: Apabila anda memilih contoh A2 (seperti kad 8) atau A3 dengan konfigurasi tinggi, Google akan memaksa beberapa pemacu keadaan pepejal NVMe tempatan dengan pemasangan 3TB untuk memastikan kelajuan membaca data tidak menyeret kaki belakang GPU. (SSD Tempatan). Bahagian cakera keras ini dikenakan pada kadar bebas setiap jam, walaupun anda tidak menggunakannya untuk menyimpan data, wang akan ditolak.
Bayaran penghantaran rangkaian GPU kelas atas (Egress): Latihan AI biasanya memerlukan sejumlah besar set data (beberapa TB adalah perkara biasa). Sekiranya anda menyimpan set data di tempat lain (seperti AWS S3, atau baldi di kawasan yang tidak sama), atau sering memuat turun model pemberat terlatih ke kawasan setempat, caj lalu lintas antara wilayah/keluar akan sangat mengagumkan.
Perangkap baucar "Idle": Google sering memberikan had ujian beberapa ribu dolar kepada pengguna perusahaan baru. Tetapi harap maklum bahawa 8 kad H100 dapat membakar hampir $1,000 sehari setelah dihidupkan. Sekiranya kodnya salah dan persekitarannya tidak sesuai, terjebak di sana untuk debug (debug) selama beberapa hari, kuota akan kembali ke sifar dengan serta-merta, dan kemudian bayaran pengesahan entiti kad kredit yang terikat akan ditolak secara langsung.
Lima, strategi penjimatan wang tegar
GPU adalah kemewahan dalam pengkomputeran awan, dan pembiayaan syarikat akan segera habis. Berikut adalah postur penjimatan wang yang dikenali dalam bulatan:
1. Sangat disyorkan: gunakan GPU Spot (jenis merebut)-potongan 3-4% secara langsung
Sekiranya anda melakukannya
Latihan yang mesti rosak
(Maksudnya, kod tersebut menyokong menyimpan pusat pemeriksaan Checkpoint secara berkala), atau menjalankan tugas kumpulan luar talian,
Mesti tandakan Spot VM
。
Jimat wang: Contoh H100 pada harga asal $41/jam, harga Spot biasanya hanya $12 ~ $14/jam.
Peraturan bertahan: Mesin boleh diambil kembali oleh Google pada bila-bila masa. Tulis skrip dan segerakkan berat model secara automatik ke baldi Google Cloud Storage (GCS) setiap setengah jam.
2. Komitmen untuk menggunakan diskaun (CUD) -menyerahkan perniagaan jangka panjang
Sekiranya model besar anda memerlukan perkhidmatan penaakulan API dalam talian 24 jam, membayar atas permintaan adalah yang paling bodoh.
Membeli GPU 1 tahun di konsol GCP menjanjikan untuk digunakan, biasanya anda boleh mendapat potongan sekitar 40%.
Sebelum membeli, anda mesti mengira dengan tepat berapa banyak kad yang anda perlukan, kerana setelah anda berjanji, tanpa mengira sama ada ia dihidupkan atau dimatikan, wang itu akan ditolak dari kad kredit setiap bulan pada tahun berikutnya.
3. Pengumpulan data ke intranet: dengan Cloud Storage
Jangan gunakan rangkaian awam untuk menghantar set data. Pindahkan semua set latihan ke baldi Google Cloud Storage (GCS) di kawasan yang sama dengan pelayan GPU (zon yang sama, seperti us-central1-a). Di kawasan yang sama, kos penghantaran data dari baldi ke pelayan GPU adalah
$0/Percuma
, Dan hasilnya sangat besar.
6. Ringkasan: Bagaimana anda memilih?
Pasukan permulaan/penyelidikan akademik/penyesuaian peribadi: Jangan ambil H100. Pilih a2-highgpu-1g (A100 40G) untuk bekerjasama dengan mod Spot untuk menjalankan kod dan memanggil model dari prototaip dengan kos terendah.
Penyesuaian perniagaan LLM peringkat perusahaan utama/bidang menegak: pilih a2-megagpu-1g (A100 80G). Memori paparan yang besar membolehkan anda memasukkan Ukuran Batch yang lebih besar, dan tidak mudah meletup memori video (OOM).
Pra-latihan model besar tegar/multi-modal/mengejar kecekapan utama: siri A3 tanpa otak (H100). Walaupun satu jam mahal, berkat kekuatan pengkomputeran FP8 dan Internet yang menakutkan, jumlah masa untuk menyelesaikan latihan telah dipendekkan. Jumlah kos masa dan jumlah kos modal lebih menjimatkan daripada menggunakan kad lama.
