ฉันควรทำอย่างไรหาก ECS เซิร์ฟเวอร์ Alibaba Cloud หยุดทำงานภาพรวมการมิเรอร์และกลยุทธ์การกู้คืนการย้ายข้อมูลข้ามพื้นที่พร้อมใช้งาน

2026-05-07 阅读 72

ในการใช้งานและการบำรุงรักษาระบบคลาวด์คอมพิวติ้งจริงแม้ว่าแพลตฟอร์มคลาวด์จะมีความเสถียรสูงมากแต่ "การหยุดชะงักของโซนเดียว (AZ)" ที่เกิดจากเหตุสุดวิสัยเช่นแผ่นดินไหวและไฟฟ้าขัดข้องยังคงเป็นความเสี่ยงที่ต้องพิจารณาในการออกแบบสถาปัตยกรรมสำหรับธุรกิจที่ไม่ได้ปรับใช้ "ชีวิตคู่ในเมืองเดียวกัน" หรือ "ชีวิตที่หลากหลายในสถานที่ต่างๆ" เนื่องจากการพิจารณาด้านต้นทุนให้เชี่ยวชาญ

การสำรองข้อมูลอย่างรวดเร็วและการโยกย้ายข้ามพื้นที่ว่าง

แผนฉุกเฉินเป็นด่านสุดท้ายในการป้องกันความต่อเนื่องทางธุรกิจ

บทความนี้จะจัดเรียงโซลูชันทางเทคนิคสำหรับการกู้คืนธุรกิจโดยใช้แพลตฟอร์มการโยกย้ายสแนปชอตการมิเรอร์และ SMC

1.ฉากการกู้คืนระบบหลักและวิธีการทางเทคนิค

สำหรับความลึกของความล้มเหลวที่แตกต่างกันเรามักจะใช้กลยุทธ์การกู้คืนสามมิติต่อไปนี้:

กลยุทธ์การกู้คืน

หลักการทางเทคนิค

สถานการณ์ที่เหมาะสม

การติดตามข้อมูลดิสก์บนคลาวด์

ECS ตามภาพรวมดิสก์ใหม่ที่สร้างขึ้นโดยการย้อนกลับสแนปชอตหรือติดตั้งสแนปชอตจะถูกเรียกคืนไปยังจุดเวลาที่กำหนด

ข้อมูลถูกลบโดยไม่ได้ตั้งใจพบ ransomware และข้อผิดพลาดทางตรรกะของฐานข้อมูล

การสร้างสภาพแวดล้อมของระบบใหม่

ขึ้นอยู่กับกระจกที่กำหนดเองบรรจุอินสแตนซ์ทั้งหมดคืนค่าระบบปฏิบัติการและสภาพแวดล้อมที่ติดตั้งไว้ล่วงหน้าอย่างรวดเร็ว

ระบบล่มการกำหนดค่าถูกทำลายและจำเป็นต้องโคลนสภาพแวดล้อมการทำงานที่สอดคล้องกันอย่างสมบูรณ์

แปลข้ามพื้นที่ว่าง

ด้วยความช่วยเหลือของ SMC (ศูนย์การโยกย้าย) คัดลอกอินสแตนซ์โดยรวมและทรัพยากรที่เกี่ยวข้องไปยังพื้นที่ว่างอื่นๆในภูมิภาคเดียวกัน

การหลบหนีโดยรวมเมื่อเกิดความล้มเหลวทางกายภาพ (เช่นไฟฟ้าดับเครือข่ายขัดข้อง) ในพื้นที่ใช้งานทั้งหมด

2.ตัวเลือกที่1: การกู้คืนข้อมูลระดับคลาวด์ดิสก์ (เทคโนโลยีสแนปชอต)

สแนปชอตเป็นวิธีการป้องกันข้อมูลขั้นพื้นฐานและมีประสิทธิภาพที่สุดบนคลาวด์

1.กลยุทธ์การสำรองข้อมูล

การสำรองข้อมูลด้วยตนเอง: สร้างสแนปชอตสำหรับดิสก์ระบบและดิสก์ข้อมูลด้วยตนเองก่อนการอัปเดตระบบที่สำคัญหรือการเผยแพร่แอปพลิเคชัน

การสำรองข้อมูลกลยุทธ์: ผ่าน "นโยบายสแนปชอตอัตโนมัติ" กำหนดค่ารอบการเก็บรักษา (เช่นการสำรองข้อมูลในตอนเช้าทุกวันเก็บไว้7วัน) เพื่อให้ได้การสำรองข้อมูลโดยไม่ต้องดูแล

การสำรองข้อมูลแบทช์: ใช้การดำเนินการและการบำรุงรักษา (OOS) คลิกเดียวเพื่อถ่ายภาพรวมของหลายร้อยอินสแตนซ์ในเวลาเดียวกัน

2.กลับสู่การต่อสู้จริง

การย้อนกลับในแหล่งกำเนิด: หากอินสแตนซ์ยังคงอยู่ให้เรียกใช้ "Cloud Disk Back Roll" โดยตรงและข้อมูลจะถูกกู้คืนไปยังสแนปชอตทันที

การติดตั้งข้ามโซน: หากไม่สามารถใช้โซน A ที่มีอยู่ในปัจจุบันได้คุณสามารถใช้สแนปชอตเพื่อสร้างดิสก์คลาวด์ใหม่ในโซนที่มีอยู่ B และติดตั้งบนอินสแตนซ์ใหม่ของโซน B เพื่อให้เกิดการดึงข้อมูลระยะไกล

3.ตัวเลือกที่2: การกู้คืนด้วยปุ่มเดียวระดับสิ่งแวดล้อม (เทคโนโลยีมิเรอร์)

มิเรอร์ไม่เพียงแต่มีข้อมูลเท่านั้นแต่ยังรวมถึงการกำหนดค่าระบบปฏิบัติการตัวแปรสภาพแวดล้อมและการอนุญาตซอฟต์แวร์

การสร้างมิเรอร์: ขอแนะนำให้สร้าง "มิเรอร์ที่กำหนดเอง" ผ่านตัวอย่างทันทีหลังจากการเริ่มต้นสภาพแวดล้อมทางธุรกิจเสร็จสิ้น

การโคลนสิ่งแวดล้อม: เมื่อระบบอินสแตนซ์ดั้งเดิมไม่สามารถเริ่มทำงานได้เนื่องจากการบุกรุกที่ผิดกฎหมายหรือมลภาวะต่อสิ่งแวดล้อมการใช้มิเรอร์เพื่อซื้ออินสแตนซ์ใหม่จะช่วยให้มั่นใจได้ว่า "นอกกรอบและใช้งานได้" โดยไม่ต้องติดตั้งซอฟต์แวร์ใหม่

การปรับใช้ข้ามภูมิภาค: มิเรอร์ที่กำหนดเองเป็นทรัพยากรระดับภูมิภาคและสามารถดึงอินสแตนซ์ใหม่ได้โดยตรงในพื้นที่ที่มีอยู่ในภูมิภาคเดียวกัน

4.ตัวเลือกที่3: การหลบหนีโดยรวม (SMC ย้ายข้ามพื้นที่ว่าง)

ใช้ศูนย์การโยกย้ายเซิร์ฟเวอร์ (SMC) เมื่อพื้นที่ว่างได้รับการยืนยันว่ามีความล้มเหลวขนาดใหญ่และไม่สามารถกู้คืนได้ในระยะสั้น

การโยกย้ายโดยรวมเป็นเส้นทางที่ดีที่สุด

1.หลักการโยกย้าย

SMC จะเรียกความสามารถในการจำลองแบบข้ามโซนของที่เก็บข้อมูลบล็อกพื้นฐานไม่เพียงแต่โยกย้ายข้อมูลเท่านั้นแต่ยังซิงโครไนซ์คุณสมบัติของอินสแตนซ์ด้วย

2.กระบวนการโยกย้าย

การเตรียมสภาพแวดล้อม: ตรวจสอบให้แน่ใจว่ามีทรัพยากรเพียงพอ (vCPU, ส่วนแบ่งหน่วยความจำ) ในพื้นที่ว่างเป้าหมายและเปิดใช้งานการอนุญาต RAM และบริการสแนปชอต

สร้างงาน: เลือก "โยกย้ายข้ามพื้นที่ว่าง" ในคอนโซล SMC ระบุพื้นที่ว่างเป้าหมายและสวิตช์ใหม่ (VPC)

การสลับที่ราบรื่น: SMC จะเสร็จสิ้นการซิงโครไนซ์ข้อมูลการจัดเก็บบล็อกในแบ็กเอนด์โดยอัตโนมัติหมายเหตุ: การย้ายข้อมูลจะทำให้อินสแตนซ์รีสตาร์ทและ IP ส่วนตัวจะเปลี่ยนไปโปรดตรวจสอบให้แน่ใจว่ารหัสแอปพลิเคชันหรือโหลดบาลานซ์ (SLB) ของคุณผูกไว้กับชื่อโดเมนแบบไดนามิกแทนที่จะเป็นที่อยู่ที่ตายแล้ว

5.การเจาะล้มเหลว: จะตรวจสอบประสิทธิภาพของการกู้คืนระบบได้อย่างไร?

"แผนการกู้คืนระบบที่ยังไม่ได้รับการฝึกฝนล้วนเป็นแผนปลอม" ขอแนะนำให้ทำการทดสอบการจำลองต่อไปนี้เป็นประจำ:

เจาะความเสียหายของดิสก์บนคลาวด์: ลบข้อมูลบางส่วนด้วยตนเองและทดสอบเวลาที่ต้องใช้ในการม้วนกลับไปที่สถานะ100% ผ่านสแนปชอต (RTO)

แบบฝึกหัดที่ผิดปกติด้านสิ่งแวดล้อม: จำลองความเสียหายของไฟล์หลักของระบบและติดตั้งระบบใหม่ผ่านมิเรอร์เพื่อตรวจสอบว่าธุรกิจสามารถดึงขึ้นโดยอัตโนมัติได้หรือไม่

การหลบหนีการจำลอง SMC: ดำเนินการย้ายข้อมูลข้ามพื้นที่ที่มีอยู่ในช่วงที่มีธุรกิจต่ำบันทึกผลกระทบของการเปลี่ยนแปลง IP เครือข่ายสาธารณะ/ส่วนตัวที่มีต่อธุรกิจต้นน้ำและปลายน้ำและปรับกระบวนการเปลี่ยนให้เหมาะสม

สรุป

สำหรับธุรกิจที่มีข้อกำหนดในการกู้คืนระบบต่ำหรือต้นทุนที่ละเอียดอ่อน "การสำรองข้อมูลรอบสแน็ปช็อตการสำรองข้อมูลสภาพแวดล้อมมิเรอร์การโยกย้ายฉุกเฉิน SMC" เป็นโซลูชันที่คุ้มค่าที่สุดไม่จำเป็นต้องให้คุณจ่ายค่าใช้จ่ายในการดำเนินการเซิร์ฟเวอร์เป็นสองเท่าแต่สามารถให้วิธีการกู้คืนธุรกิจที่เชื่อถือได้ในช่วงวิกฤต