ขั้นตอนการสมัครพลังการประมวลผล AI ของ Huawei Cloud Shengteng: จะปรับใช้บริการการให้เหตุผลแบบจำลองขนาดใหญ่ในปี2569ได้อย่างไร?

2026-05-14 阅读 76

ในปี2569ความต้องการพลังคอมพิวเตอร์ของ Big Model (LLM) ได้เปลี่ยนจาก "การเล่นแร่แปรธาตุในห้องปฏิบัติการ" เป็น "การให้เหตุผลทางธุรกิจขนาดใหญ่" เมื่อเผชิญกับความต้องการพลังงานคอมพิวเตอร์ที่สูง Huawei Cloud Ascend (Ascend) ต้องพึ่งพา

ซีรีส์ Shengteng 910

(การฝึกอบรม) และ

เซิ่งเต็ง310/710ซีรีส์

(การให้เหตุผล) วุฒิภาวะทางนิเวศวิทยาได้กลายเป็นฐานที่ต้องการสำหรับองค์กรและนักพัฒนาในประเทศในการปรับใช้โมเดลขนาดใหญ่

หากคุณถือมิเรอร์โมเดลขนาดใหญ่ไว้ในมือแต่กำลังหมุนไปรอบๆในแอปพลิเคชันทรัพยากรที่ยุ่งยากและการกำหนดค่าสภาพแวดล้อมบทช่วยสอนเชิงปฏิบัตินี้จะพาคุณหลีกเลี่ยงหลุมทั้งหมดและดำเนินการปรับใช้บริการเหตุผลให้เสร็จโดยเร็วที่สุด

ขั้นตอนแรก: การเลือกที่ถูกต้อง-การสมัคร "แพ็คเกจการคำนวณ" ตามความต้องการ

การจัดประเภทตลาดพลังงานคลาวด์ของ Huawei ในปี2569มีรายละเอียดมากก่อนสมัครคุณต้องคิดว่าคุณต้องการสถาปัตยกรรมแบบใด:

เซิร์ฟเวอร์ระบบคลาวด์ (AI Server): เหมาะสำหรับโครงการที่ต้องการสภาพแวดล้อมที่ปรับแต่งได้อย่างล้ำลึก (เช่นการติดตั้งไดรเวอร์เฉพาะและกรอบการพัฒนา)

ModelArts Studio (รุ่นใหญ่เป็นบริการ): แนะนำตัวเลือกแรกนี่คือกระแสหลักของอุตสาหกรรมในปัจจุบันซึ่งรวมเอาสแต็กซอฟต์แวร์ CANN (Compute Architecture for Neural Networks) ที่พัฒนาโดย Ascend Computers และ Huawei โดยตรงและพร้อมใช้งานนอกกรอบ

ขั้นตอนการสมัครไปข้างหน้าอย่างรวดเร็ว:

การลงทะเบียนและชื่อจริง: เข้าสู่เว็บไซต์อย่างเป็นทางการของ Huawei Cloud เพื่อให้แน่ใจว่าการรับรองความถูกต้องด้วยชื่อจริงขององค์กรเสร็จสมบูรณ์ (แอปพลิเคชันบัญชีขององค์กรมีความสามารถในการประมวลผลระดับสูงที่สูงขึ้นและการอนุมัติที่เร็วขึ้น)

เข้าสู่คอนโซลการจัดการ ModelArts: ค้นหา "Shengteng Cloud Power" และเลือก "Reasoning Resource Pool"

การเลือกข้อมูลจำเพาะ: สำหรับรุ่น7B/13B ขอแนะนำให้เลือกข้อกำหนดหน่วยความจำวิดีโอ Ascend 310P/910B (เช่นการ์ดเดียว32GB หรือ64GB) หากเป็นรุ่นที่สูงกว่าหลายหมื่นล้านอย่าลืมตรวจสอบการให้เหตุผลแบบกระจายหลายเครื่องและหลายการ์ด

ขั้นตอนที่สอง: การเตรียมสภาพแวดล้อม-การกำหนดค่าของ CANN Software Stack

แกนหลักของพลังคอมพิวเตอร์ที่เพิ่มขึ้นคือ

CANN

。 CANN 8.x รุ่น2026เข้ากันได้อย่างสมบูรณ์แบบกับไลบรารีคอมพิวเตอร์หลักแต่เพื่อเพิ่มประสิทธิภาพสูงสุดขอแนะนำให้ปฏิบัติตามเกณฑ์ต่อไปนี้:

1.เลือกกระจก

อย่าติดตั้งไดรเวอร์ตั้งแต่เริ่มต้น! ค้นหาในศูนย์กระจก ModelArts

"Ascend-PyTorch-Llama"

รอให้ภาพที่ตั้งไว้ล่วงหน้ากระจกเหล่านี้ได้รับการติดตั้งไว้ล่วงหน้า:

Firmware/Driver: ไดรเวอร์ด้านล่างที่เพิ่มขึ้น

MindSpore/PyTorch (รุ่นปลั๊กอินที่เพิ่มขึ้น): ตรวจสอบให้แน่ใจว่าโค้ดสามารถทำงานบน NPU ที่เพิ่มขึ้นแทน CPU ได้

2.รุ่นแปลง (MindIE)

ความลับของความเร็วในการให้เหตุผลของโมเดลขนาดใหญ่คือ

MindIE (Mind Inference Engine)

。

รูปแบบ HuggingFace ที่ใช้กันทั่วไป (เช่น. Safetensors หรือ. Bin)

แปลงเป็นรูปแบบโมเดลออฟไลน์ที่ปรับให้เหมาะสม

เคล็ดลับ: ในปี2026 Huawei Cloud รองรับ "ตัวดำเนินการแบบไดนามิก" โมเดลกระแสหลักส่วนใหญ่สามารถข้ามการแปลงแบบคงที่ที่น่าเบื่อและโหลดโดยตรงผ่านเฟรมเวิร์ก vLLM-Ascend

ขั้นตอนที่สาม: ปรับใช้บริการเหตุผลอย่างรวดเร็ว (ขั้นตอนการปฏิบัติ)

สมมติว่าคุณได้ใช้ทรัพยากรคอมพิวเตอร์แล้วต่อไปนี้คือ "สามขั้นตอน" สำหรับการปรับใช้โมเดลหลักในปี2026:

ขั้นตอนที่1: ติดตั้งระบบไฟล์แบบขนาน (SFS Turbo)

รุ่นใหญ่มีน้ำหนักหลายสิบ GB และฮาร์ดไดรฟ์บนคลาวด์ธรรมดาอ่านและเขียนช้าเกินไปแนะนำให้สมัคร

SFS Turbo เร่งแคช

, ติดตั้งลงในภาชนะเหตุผล

/Data

ไดเรกทอรี

ขั้นตอนที่2: กรอบเหตุผลเริ่มต้น (vLLM-Ascend)

เครื่องมือให้เหตุผลที่ร้อนแรงที่สุดในปัจจุบันได้รับการปรับให้เข้ากับ vLLM ที่เพิ่มขึ้นดำเนินการในเทอร์มินัลคอนเทนเนอร์:

บาช

Python-m vllm.entrypoints. openai. api_server\

-- Model/data/your-model-path \

-- Device npu \

-- Tensor-parallel-size 2 \

-- Trust-remote-code

หมายเหตุ: -- device npu เป็นกุญแจสำคัญที่จะบอกให้เฟรมที่จะละทิ้งกราฟิกการ์ดและเรียกแกน AI ที่เพิ่มขึ้น

ขั้นตอนที่3: การกำหนดค่าความยืดหยุ่นและ API เกตเวย์

เพื่อรับมือกับการรับส่งข้อมูลอย่างกะทันหันให้เปิดบนคอนโซลระบบคลาวด์ของ Huawei

"การขยายตัวอัตโนมัติ"

。เมื่ออัตราการใช้งาน NPU เกิน80% ระบบจะดึงโหนดพลังคอมพิวเตอร์ใหม่ขึ้นโดยอัตโนมัติสุดท้ายผ่าน

เกตเวย์ API

แมปพอร์ต HTTPS และบริการให้เหตุผลโมเดลขนาดใหญ่ของคุณจะออนไลน์

คู่มือการหลีกเลี่ยงหลุมในปี2026: 3คำแนะนำสำหรับนักพัฒนา

ให้ความสนใจกับความเข้ากันได้ของ PagedAttention: ไดรเวอร์ของ Ascend 2026ได้รับการปรับให้เหมาะสมอย่างสมบูรณ์สำหรับการประมวลผลข้อความแบบยาวอย่าลืมอัปเกรดเป็น CANN เวอร์ชันล่าสุดเพื่อเปิด PagedAttention มิฉะนั้นการให้เหตุผลในการสนทนาแบบยาวจะค้างมาก

ใช้รูปแบบการรวม "เติมเงินตามความต้องการ": บริการให้เหตุผลระยะยาวและการชำระเงินเต็มจำนวนตามความต้องการจะทำให้การเงินร้องไห้ขอแนะนำให้ซื้อฐาน "แพ็คเกจพลังคอมพิวเตอร์" รวมกับการขยายตามความต้องการสามารถลดต้นทุนได้ประมาณ40%

ใช้ประโยชน์จาก ModelZoo ของชุมชน Shengteng: Huawei ได้เปิดพารามิเตอร์การกำหนดค่าที่เหมาะสมของโมเดลกระแสหลัก (DeepSeek, Llama 3, Qwen ฯลฯ) บน Shengteng อย่าสำรวจด้วยตัวเองไปที่เว็บไซต์อย่างเป็นทางการเพื่อคัดลอก config ที่เกี่ยวข้อง

สรุป

ในปี2569เราได้สมัครและปรับใช้โมเดลขนาดใหญ่บน Huawei Cloud และตรรกะหลักได้เปลี่ยนจาก "การปรับพารามิเตอร์" เป็น "การเลือกมิเรอร์และการจัดสรรเครื่องยนต์" เพียงแค่เลือกที่เหมาะสม

Ascend

910/310ข้อมูลจำเพาะ

, ใช้ดี

MindIE หรือ vLLM รุ่นอะแดปเตอร์

คุณสามารถดำเนินการตามขั้นตอนทั้งหมดของการเรียก API จากการคำนวณได้ภายใน30นาที

พลังการคำนวณไม่ใช่เกณฑ์วิธีใช้พลังการคำนวณอย่างมีประสิทธิภาพ

ไปที่พื้นหลังเพื่อสมัคร NPU ที่เพิ่มขึ้นครั้งแรกของคุณตอนนี้!