كيف يتم شحن خادم Google Cloud GPU ؟ Compute Engine A3/A2 تحليل كامل للحساب والسعر!
في الوقت الذي تندلع فيه نماذج الذكاء الاصطناعي الكبيرة والتعلم العميق والحوسبة المتوازية واسعة النطاق ، أصبحت مثيلات Google Cloud A3 و A2 من المنتجات الأكثر شعبية. ومع ذلك ، فإن فواتير GPU الخاصة بالشركات المصنعة الكبرى معقدة للغاية-فهي لا "تغليف سعر الجهاز بالكامل" مثل بعض مزودي الخدمة المحليين ، ولكن
وحدة المعالجة المركزية ، الذاكرة ، بطاقة الرسومات GPU ، محرك الأقراص الصلبة NVMe المحلي ، عرض النطاق الترددي للشبكة
قم بتفكيك كل شيء ثم قم بإضافة.
هذا البرنامج التعليمي ليس هراء ، ففك منطق الفوترة الأساسي لـ GCP GPU مباشرة لك ، وإجراء تقييم أفقي متعمق للحساب والسعر لأمثلة A3 و A2 الأساسية.
1. القاعدة الأساسية: صيغة الفواتير الخاصة بـ Google Cloud GPU
في GCP ، يتم تحديد إجمالي النفقات العامة لمثال GPU بواسطة الصيغة التالية:
$ $ \ Text {التكلفة الإجمالية للساعة} = \ text {وحدة وحدة معالجة الرسومات الأساسية} \ text {رسوم وحدة المعالجة المركزية الأساسية} \ text {رسوم الذاكرة} \ text {التكلفة المحلية SSD (إن وجدت)} + \ text {التخزين والشبكات} $ $
1-القواعد غير المعلنة لبنود التكاليف الأساسية
الفوترة بالثانية ، بدءًا من دقيقة واحدة: طالما أنك تقوم بإنشاء مثيل GPU ، حتى لو لم يتم تشغيل أي شيء بعد التشغيل ، فسيتم خصم جزء GPU بالكامل.
هل لا يزال Stopped يقوم بجمع الأموال ؟ عند إيقاف التشغيل (Stop) ، ستتوقف وحدة معالجة الرسومات ووحدة المعالجة المركزية والذاكرة عن الفوترة ، لكن القرص الثابت السحابي (القرص السحابي) (القرص السحابي) سيستمر في الخصم على أساس شهري.
قسط غرفة الكمبيوتر مرتفع للغاية: تختلف أسعار مثيلات GPU بشكل كبير في مناطق مختلفة (Zone). بشكل عام ، الولايات المتحدة الغربية (us-central1 ، us-west1) هي الأرخص. بسبب نقص الموارد في هونغ كونغ وسنغافورة ومناطق آسيا والمحيط الهادئ الأخرى ، عادة ما ترتفع الأسعار بنسبة 20 ٪ ~ 40 ٪.
2. سلسلة A2 مقابل A3: التفكيك الكامل لتحديد المواقع والمواصفات
تصنف Google Cloud مثيلات GPU على أنها "Accelerator-optimized". القوة الرئيسية المطلقة الحالية هي
A2 (مع NVIDIA A100)
و
A3 (مدعوم من NVIDIA H100/H200)
.
1. سلسلة A2: اختيار فعالية من حيث التكلفة لصقل النماذج الكبيرة والتدريب المتوسط
يعتمد مثال A2 على بطاقة رسومات NVIDIA A100 Tensor Core ويوفر إصدارين من ذاكرة الفيديو 40 جيجابايت و 80 جيجابايت.
الإصدار القياسي A2 (a2-highgpu): مزود بـ A100 40GB.
نسخة A2 فائقة القوة (a2-megagpu): مجهزة بـ A100 80GB (مصممة لاحتياجات الذاكرة الكبيرة).
بنية القوة الحسابية: ثلاثة أجيال من Tensor Core. لا تزال مهمة FP16 و INT8 فعالة من حيث التكلفة.
2-سلسلة A3: LLM
مجموعة Wanka ووحوش الإنتاجية المدربة مسبقًا بكميات كبيرة
A3 هي المصفوفة العلوية التي أطلقتها Google Cloud استجابة لجنون نموذج اللغة الكبيرة (LLM) ، وهي مجهزة بـ NVIDIA H100 (أو أحدث H200)80GB HBM3.
قفزة القوة الحسابية: تم إدخال محرك Transformer ، والذي تم تحسينه خصيصًا للنماذج الكبيرة ، وتم تحسين القوة الحسابية FP8 بمقدار 4 أضعاف من A100.
الإرهاب السيبراني: أقوى مكان في A3 ليس بطاقة واحدة ، ولكن عرض النطاق الترددي للشبكة. تم تجهيز مثيل A3 Mega بعرض نطاق شبكة فائق السرعة يصل إلى 800 جيجابت في الثانية (من خلال تقنية ربط GPU المخصصة من Google) ، وذلك لنقل البيانات دون فقدان السلسلة أثناء التدريب المشترك لآلاف البطاقات.
3. A2 / A3 مثال حساب وتقييم الأسعار (العمليات الأساسية)
لكي تكون على دراية بالفواتير الحقيقية ، فيما يلي
مركز بيانات غرب الولايات المتحدة (us-central1)
، المعيار الرسمي هو إجراء تقييم أفقي على أساس الدفع.
تذكير خاص: السعر التالي هو (GPU يتوافق مع ذاكرة وحدة المعالجة المركزية المجمعة) ، ولا يشمل رسوم مرور الشبكة العامة.
نموذج المثال
عدد وحدات معالجة الرسومات
إجمالي حجم المخزون
وحدة المعالجة المركزية المجمعة مع الذاكرة
سعر الساعة (عند الطلب)
التقديرات الشهرية (ما يعادل)
النقاط الحسابية الخاصة والمشاهد القابلة للتطبيق
A2-highgpu-1g
1 × A100 40GB
40 جيجابايت
12 vCPU / 85GB
~ 3.67 دولار
~ $2,679
ضبط دقيق بطاقة واحدة ، رسم Diffusion Stable ، خدمة تفكير الذكاء الاصطناعي الصغيرة والمتوسطة الحجم.
A2-megagpu-1g
1 × A100 80GB
80GB
24 vCPU / 170GB
~ $5.05
~ $3,686
مضاعفة ذاكرة الفيديو. مناسب للنشر المحلي للنماذج الكبيرة ذات المعلمات الأكبر قليلاً (مثل 13B/33B) والضبط الدقيق الخفيف.
A2-highgpu-8g
8 × A100 40GB
320GB
96 vCPU / 680GB
~ 29.39 دولار
~ 21,454 دولار
الكلاسيكية 8 بطاقات Standard عقدة. مناسبة لمهام التدريب الموازية متعددة البطاقات على مستوى المؤسسة.
A3-highgpu-8g
8 × H100 80GB
640GB
208 vCPU / 2 تيرابايت
~ 41.30 دولار
~ $30 ، 149
8 بطاقة H100 معيار الصناعة القياسية. دعم دقة FP8 ، الخيار الأول للتدريب المسبق على مستوى 10 مليار/100 مليار LLM ، والتدريب متعدد الوسائط على نطاق واسع.
A3-megagpu-8g
8 × H100 80GB
640GB
208 vCPU / 2 تيرابايت
~ 48.50 دولار
~ 35,408 دولار
مضاعفة عرض النطاق الترددي للشبكة (800 Gbp
S). مصممة لمجموعات موزعة واسعة النطاق عبر العقد ومستويات بطاقة 10000.
ملاحظة: سيتم تعديل أسعار الشركات المصنعة الرئيسية ديناميكيًا مع سلسلة التوريد والمخزون. يجب أن تخضع الأسعار في الوقت الفعلي لأداة حساب رسوم GCP.
4. التجنب الحقيقي: "الثقب الأسود لابتلاع الأموال" في فاتورة GPU
تقدمت العديد من الشركات بسعادة للحصول على حصص GPU ، ولكن عند الخروج ، وجدوا أن الفاتورة كانت بآلاف الدولارات أكثر مما كان متوقعًا ، عادةً بسبب الحفر الثلاث التالية:
التجميع القسري لـ NVMe SSD المحلي: عندما تختار مثيلات A2 (مثل بطاقة 8) أو A3 عالية الجودة ، ستجبر Google على تجميع عدة محركات أقراص صلبة NVMe محلية 3 تيرابايت (Local SSD) من أجل ضمان سرعة قراءة البيانات دون سحب وحدة معالجة الرسومات. يتم شحن هذا الجزء من القرص الصلب بمعدل مستقل في الساعة ، حتى لو لم تستخدمه لتخزين البيانات ، فسيتم خصم الأموال.
رسوم نقل الشبكة لوحدات معالجة الرسومات المتطورة (Egress): يتطلب تدريب الذكاء الاصطناعي عادةً سحب مجموعات بيانات ضخمة (عدة تيرابايت هي القاعدة). إذا كان لديك مجموعة بيانات في مكان آخر (مثل AWS S3 ، أو دلو تخزين غير إقليمي) ، أو قمت بتنزيل نموذج الوزن المدرب بشكل متكرر إلى المنطقة المحلية ، فإن رسوم التدفق عبر المناطق/الخروج ستكون مذهلة للغاية.
فخ القسيمة "الخاملة": غالبًا ما ترسل Google آلاف الدولارات من حد الاختبار لمستخدمي الأعمال الجدد. ومع ذلك ، يرجى ملاحظة أن 8 بطاقات H100 يمكن أن تحرق ما يقرب من 1000 دولار في اليوم عند تشغيله. إذا تم كتابة الرمز بشكل غير صحيح ولم يتم مطابقة البيئة بشكل جيد ، فإن البطاقة موجودة (تصحيح الأخطاء) لبضعة أيام ، وسيتم إعادة الحصة إلى الصفر على الفور ، ثم سيتم خصم رسوم التحقق من كيان بطاقة الائتمان المرتبطة مباشرة.
5. استراتيجية توفير المال على مستوى الرماد
GPU هي رفاهية في الحوسبة السحابية ، وسيتم حرق تمويل الشركة قريبًا دون حفظ. فيما يلي مواقف توفير المال المعترف بها في الدائرة:
1. موصى به بشدة: استخدم Spot GPU (نوع الاستباق)-خصم 3-4 ٪ مباشرة
إذا كنت تفعل ذلك
التدريب الذي يجب أن يكون نقطة توقف
(أي أن الكود يدعم حفظ نقاط التفتيش Checkpoint في الوقت المناسب) ، أو تشغيل مهام معالجة الدُفعات دون اتصال بالإنترنت ،
يجب وضع علامة على Spot VM
.
معدل توفير المال: السعر الأصلي 41 دولارًا/ساعة لمثال H100 ، سعر Spot عادة 12 دولارًا فقط ~ 14 دولار/ساعة.
قاعدة البقاء على قيد الحياة: قد تستعيد Google الجهاز في أي وقت ، وتكتب نصوصًا ، وتزامن وزن النموذج تلقائيًا مع دلو تخزين Google Cloud Storage (GCS) كل نصف ساعة.
2. الالتزام باستخدام الخصومات (CUD) -الاستسلام للأعمال طويلة الأجل
إذا كان النموذج الكبير الخاص بك يتطلب 24 ساعة في اليوم لتقديم خدمات استدلال API عبر الإنترنت ، فإن الدفع الفوري هو الأكثر غباء.
يعد شراء GPU لمدة عام واحد على وحدة تحكم GCP باستخدامه ، وعادة ما يحصل على خصم حوالي 60 ٪.
قبل الشراء ، تأكد من حساب عدد البطاقات التي تحتاجها بدقة ، لأنه بمجرد الوعد ، بغض النظر عن التشغيل وإيقاف التشغيل ، سيتم خصم الأموال من بطاقة الائتمان كل شهر في العام المقبل.
3-تجميع البيانات في الإنترانت: مع Cloud Storage
لا تستخدم الشبكة العامة لنقل مجموعات البيانات. قم بتحميل جميع مجموعات التدريب إلى مجموعة تخزين Google Cloud Storage (GCS) في نفس المنطقة (نفس المنطقة ، مثل us-central1-a) مثل خادم GPU. في نفس المنطقة ، رسوم نقل البيانات من برميل إلى خادم GPU هي
$0/مجانا
، والإنتاجية كبيرة.
6. ملخص: كيف تختار ؟
فريق بدء التشغيل/البحث الأكاديمي/الضبط الشخصي: لا تستحوذ على H100. حدد a2-highgpu-1g (A100 40G) مع وضع Spot ، واستخدم أقل تكلفة لتشغيل الكود واسترجاء النموذج إلى النموذج الأولي.
الأعمال على مستوى المؤسسة الرئيسية LLM/المجال الرأسي الضبط الدقيق: اختيار a2-megagpu-1g (A100 80G). يمكن أن يسمح لك Dachiankun بتعبئس أكبر من Batch Size ، وهو أمر غير قابل للانفجار (OOM).
نموذج كبير صلب قبل التدريب/متعدد الوسائط/السعي لتحقيق الكفاءة القصوى: سلسلة A3 بدون دماغ (H100). على الرغم من أن ساعة واحدة باهظة الثمن ، إلا أنه بفضل شبكة الإنترنت الخاصة بالحساب والرعب FP8 ، تم تقصير المدة الإجمالية للتدريب بشكل كبير. التكلفة الإجمالية للوقت والتكلفة الإجمالية للأموال أكثر فعالية من حيث التكلفة من استخدام البطاقة القديمة.

