ฉันควรทำอย่างไรหาก ECS เซิร์ฟเวอร์ Alibaba Cloud หยุดทำงานภาพรวมการมิเรอร์และกลยุทธ์การกู้คืนการย้ายข้อมูลข้ามพื้นที่พร้อมใช้งาน
ในการใช้งานและการบำรุงรักษาระบบคลาวด์คอมพิวติ้งจริงแม้ว่าแพลตฟอร์มคลาวด์จะมีความเสถียรสูงมากแต่ "การหยุดชะงักของโซนเดียว (AZ)" ที่เกิดจากเหตุสุดวิสัยเช่นแผ่นดินไหวและไฟฟ้าขัดข้องยังคงเป็นความเสี่ยงที่ต้องพิจารณาในการออกแบบสถาปัตยกรรมสำหรับธุรกิจที่ไม่ได้ปรับใช้ "ชีวิตคู่ในเมืองเดียวกัน" หรือ "ชีวิตที่หลากหลายในสถานที่ต่างๆ" เนื่องจากการพิจารณาด้านต้นทุนให้เชี่ยวชาญ
การสำรองข้อมูลอย่างรวดเร็วและการโยกย้ายข้ามพื้นที่ว่าง
แผนฉุกเฉินเป็นด่านสุดท้ายในการป้องกันความต่อเนื่องทางธุรกิจ
บทความนี้จะจัดเรียงโซลูชันทางเทคนิคสำหรับการกู้คืนธุรกิจโดยใช้แพลตฟอร์มการโยกย้ายสแนปชอตการมิเรอร์และ SMC
1.ฉากการกู้คืนระบบหลักและวิธีการทางเทคนิค
สำหรับความลึกของความล้มเหลวที่แตกต่างกันเรามักจะใช้กลยุทธ์การกู้คืนสามมิติต่อไปนี้:
กลยุทธ์การกู้คืน
หลักการทางเทคนิค
สถานการณ์ที่เหมาะสม
การติดตามข้อมูลดิสก์บนคลาวด์
ECS ตามภาพรวมดิสก์ใหม่ที่สร้างขึ้นโดยการย้อนกลับสแนปชอตหรือติดตั้งสแนปชอตจะถูกเรียกคืนไปยังจุดเวลาที่กำหนด
ข้อมูลถูกลบโดยไม่ได้ตั้งใจพบ ransomware และข้อผิดพลาดทางตรรกะของฐานข้อมูล
การสร้างสภาพแวดล้อมของระบบใหม่
ขึ้นอยู่กับกระจกที่กำหนดเองบรรจุอินสแตนซ์ทั้งหมดคืนค่าระบบปฏิบัติการและสภาพแวดล้อมที่ติดตั้งไว้ล่วงหน้าอย่างรวดเร็ว
ระบบล่มการกำหนดค่าถูกทำลายและจำเป็นต้องโคลนสภาพแวดล้อมการทำงานที่สอดคล้องกันอย่างสมบูรณ์
แปลข้ามพื้นที่ว่าง
ด้วยความช่วยเหลือของ SMC (ศูนย์การโยกย้าย) คัดลอกอินสแตนซ์โดยรวมและทรัพยากรที่เกี่ยวข้องไปยังพื้นที่ว่างอื่นๆในภูมิภาคเดียวกัน
การหลบหนีโดยรวมเมื่อเกิดความล้มเหลวทางกายภาพ (เช่นไฟฟ้าดับเครือข่ายขัดข้อง) ในพื้นที่ใช้งานทั้งหมด
2.ตัวเลือกที่1: การกู้คืนข้อมูลระดับคลาวด์ดิสก์ (เทคโนโลยีสแนปชอต)
สแนปชอตเป็นวิธีการป้องกันข้อมูลขั้นพื้นฐานและมีประสิทธิภาพที่สุดบนคลาวด์
1.กลยุทธ์การสำรองข้อมูล
การสำรองข้อมูลด้วยตนเอง: สร้างสแนปชอตสำหรับดิสก์ระบบและดิสก์ข้อมูลด้วยตนเองก่อนการอัปเดตระบบที่สำคัญหรือการเผยแพร่แอปพลิเคชัน
การสำรองข้อมูลกลยุทธ์: ผ่าน "นโยบายสแนปชอตอัตโนมัติ" กำหนดค่ารอบการเก็บรักษา (เช่นการสำรองข้อมูลในตอนเช้าทุกวันเก็บไว้7วัน) เพื่อให้ได้การสำรองข้อมูลโดยไม่ต้องดูแล
การสำรองข้อมูลแบทช์: ใช้การดำเนินการและการบำรุงรักษา (OOS) คลิกเดียวเพื่อถ่ายภาพรวมของหลายร้อยอินสแตนซ์ในเวลาเดียวกัน
2.กลับสู่การต่อสู้จริง
การย้อนกลับในแหล่งกำเนิด: หากอินสแตนซ์ยังคงอยู่ให้เรียกใช้ "Cloud Disk Back Roll" โดยตรงและข้อมูลจะถูกกู้คืนไปยังสแนปชอตทันที
การติดตั้งข้ามโซน: หากไม่สามารถใช้โซน A ที่มีอยู่ในปัจจุบันได้คุณสามารถใช้สแนปชอตเพื่อสร้างดิสก์คลาวด์ใหม่ในโซนที่มีอยู่ B และติดตั้งบนอินสแตนซ์ใหม่ของโซน B เพื่อให้เกิดการดึงข้อมูลระยะไกล
3.ตัวเลือกที่2: การกู้คืนด้วยปุ่มเดียวระดับสิ่งแวดล้อม (เทคโนโลยีมิเรอร์)
มิเรอร์ไม่เพียงแต่มีข้อมูลเท่านั้นแต่ยังรวมถึงการกำหนดค่าระบบปฏิบัติการตัวแปรสภาพแวดล้อมและการอนุญาตซอฟต์แวร์
การสร้างมิเรอร์: ขอแนะนำให้สร้าง "มิเรอร์ที่กำหนดเอง" ผ่านตัวอย่างทันทีหลังจากการเริ่มต้นสภาพแวดล้อมทางธุรกิจเสร็จสิ้น
การโคลนสิ่งแวดล้อม: เมื่อระบบอินสแตนซ์ดั้งเดิมไม่สามารถเริ่มทำงานได้เนื่องจากการบุกรุกที่ผิดกฎหมายหรือมลภาวะต่อสิ่งแวดล้อมการใช้มิเรอร์เพื่อซื้ออินสแตนซ์ใหม่จะช่วยให้มั่นใจได้ว่า "นอกกรอบและใช้งานได้" โดยไม่ต้องติดตั้งซอฟต์แวร์ใหม่
การปรับใช้ข้ามภูมิภาค: มิเรอร์ที่กำหนดเองเป็นทรัพยากรระดับภูมิภาคและสามารถดึงอินสแตนซ์ใหม่ได้โดยตรงในพื้นที่ที่มีอยู่ในภูมิภาคเดียวกัน
4.ตัวเลือกที่3: การหลบหนีโดยรวม (SMC ย้ายข้ามพื้นที่ว่าง)
ใช้ศูนย์การโยกย้ายเซิร์ฟเวอร์ (SMC) เมื่อพื้นที่ว่างได้รับการยืนยันว่ามีความล้มเหลวขนาดใหญ่และไม่สามารถกู้คืนได้ในระยะสั้น
การโยกย้ายโดยรวมเป็นเส้นทางที่ดีที่สุด
1.หลักการโยกย้าย
SMC จะเรียกความสามารถในการจำลองแบบข้ามโซนของที่เก็บข้อมูลบล็อกพื้นฐานไม่เพียงแต่โยกย้ายข้อมูลเท่านั้นแต่ยังซิงโครไนซ์คุณสมบัติของอินสแตนซ์ด้วย
2.กระบวนการโยกย้าย
การเตรียมสภาพแวดล้อม: ตรวจสอบให้แน่ใจว่ามีทรัพยากรเพียงพอ (vCPU, ส่วนแบ่งหน่วยความจำ) ในพื้นที่ว่างเป้าหมายและเปิดใช้งานการอนุญาต RAM และบริการสแนปชอต
สร้างงาน: เลือก "โยกย้ายข้ามพื้นที่ว่าง" ในคอนโซล SMC ระบุพื้นที่ว่างเป้าหมายและสวิตช์ใหม่ (VPC)
การสลับที่ราบรื่น: SMC จะเสร็จสิ้นการซิงโครไนซ์ข้อมูลการจัดเก็บบล็อกในแบ็กเอนด์โดยอัตโนมัติหมายเหตุ: การย้ายข้อมูลจะทำให้อินสแตนซ์รีสตาร์ทและ IP ส่วนตัวจะเปลี่ยนไปโปรดตรวจสอบให้แน่ใจว่ารหัสแอปพลิเคชันหรือโหลดบาลานซ์ (SLB) ของคุณผูกไว้กับชื่อโดเมนแบบไดนามิกแทนที่จะเป็นที่อยู่ที่ตายแล้ว
5.การเจาะล้มเหลว: จะตรวจสอบประสิทธิภาพของการกู้คืนระบบได้อย่างไร?
"แผนการกู้คืนระบบที่ยังไม่ได้รับการฝึกฝนล้วนเป็นแผนปลอม" ขอแนะนำให้ทำการทดสอบการจำลองต่อไปนี้เป็นประจำ:
เจาะความเสียหายของดิสก์บนคลาวด์: ลบข้อมูลบางส่วนด้วยตนเองและทดสอบเวลาที่ต้องใช้ในการม้วนกลับไปที่สถานะ100% ผ่านสแนปชอต (RTO)
แบบฝึกหัดที่ผิดปกติด้านสิ่งแวดล้อม: จำลองความเสียหายของไฟล์หลักของระบบและติดตั้งระบบใหม่ผ่านมิเรอร์เพื่อตรวจสอบว่าธุรกิจสามารถดึงขึ้นโดยอัตโนมัติได้หรือไม่
การหลบหนีการจำลอง SMC: ดำเนินการย้ายข้อมูลข้ามพื้นที่ที่มีอยู่ในช่วงที่มีธุรกิจต่ำบันทึกผลกระทบของการเปลี่ยนแปลง IP เครือข่ายสาธารณะ/ส่วนตัวที่มีต่อธุรกิจต้นน้ำและปลายน้ำและปรับกระบวนการเปลี่ยนให้เหมาะสม
สรุป
สำหรับธุรกิจที่มีข้อกำหนดในการกู้คืนระบบต่ำหรือต้นทุนที่ละเอียดอ่อน "การสำรองข้อมูลรอบสแน็ปช็อตการสำรองข้อมูลสภาพแวดล้อมมิเรอร์การโยกย้ายฉุกเฉิน SMC" เป็นโซลูชันที่คุ้มค่าที่สุดไม่จำเป็นต้องให้คุณจ่ายค่าใช้จ่ายในการดำเนินการเซิร์ฟเวอร์เป็นสองเท่าแต่สามารถให้วิธีการกู้คืนธุรกิจที่เชื่อถือได้ในช่วงวิกฤต
