ไม่กลัวไฟไหม้ห้องคอมพิวเตอร์? ดิสก์พื้นถิ่นผ่านอาลีบาบาคลาวด์โหลดบาลานซ์ SLB ระดับภัยพิบัติและความพร้อมใช้งานสูง

2026-05-26 阅读 14
cloud

เมื่อพูดถึงสถาปัตยกรรมที่มีความพร้อมใช้งานสูงพี่น้องหลายคนมีความเข้าใจผิดพวกเขาคิดว่า: "ฉันมีเซิร์ฟเวอร์แบ็คเอนด์10เครื่องและฐานข้อมูลก็มีสแตนด์บายหลักด้วยและสถาปัตยกรรมของฉันก็มั่นคงเหมือนภูเขา"

แต่คุณเคยคิดบ้างไหมว่าเซิร์ฟเวอร์10ตัวนี้

จะเกิดอะไรขึ้นถ้า "ปาร์ตี้ชั้นนำ"-Load Balancing (SLB) ถูกวางสาย? ไม่ว่า ECS ส่วนหลังของคุณจะมีประสิทธิภาพเพียงใดปริมาณการใช้งานของผู้ใช้ก็ไม่สามารถเข้าประตูได้และระบบทั้งหมดจะเป็นอัมพาตทันทีนี่เป็นความล้มเหลวจุดเดียวทั่วไป (SPOF)

ในฐานะ "ประตูหลัก" ของการรับส่งข้อมูลเครือข่ายทั้งหมด SLB แบบโหลดบาลานซ์ของ Alibaba Cloud (ปัจจุบันแบ่งออกเป็น CLB แบบดั้งเดิมและ ALB ประยุกต์) จะทำได้อย่างไรแม้ว่าห้องคอมพิวเตอร์จะถูกไฟไหม้และเครือข่ายกระดูกสันหลังถูกตัดการเชื่อมต่อแต่ก็ยังคงมีเสถียรภาพเหมือนสุนัขตัวเก่าส่งต่อการเข้าชม? วันนี้เราจะไม่ดึงสิ่งสมมติเหล่านั้นออกไปเพียงแค่เปิดฝากระโปรงเพื่อดูแชสซีที่มีความพร้อมใช้งานสูง

1.เกราะช่วยชีวิตชั้นแรก: กลไก "ยางอะไหล่" ข้ามโซนว่าง (โซน)

หากคุณซื้อ SLB ในพื้นหลังของ Alibaba Cloud คุณจะพบว่าระบบจะให้คุณเลือกสองสิ่งอย่างแน่นอน:

พื้นที่ใช้งานหลัก (Primary Zone)

และ

พื้นที่พร้อมใช้งาน (Backup Zone)

。ตัวอย่างเช่น: ตัวเลือกหลักคือ Beijing Available Area A และทางเลือกอื่นสำหรับ Beijing Available Area B

นี่คือสถาปัตยกรรมที่มีความพร้อมใช้งานสูงแบบข้ามห้องคอมพิวเตอร์ขั้นพื้นฐานและหลักที่สุดของ SLB

สถานะปกติ (โฮสต์และสแตนด์บายชัดเจน): SLB เปิดใช้งานตัวอย่างฮาร์ดแวร์หรือเครื่องเสมือนอย่างน้อยสองชุดสำหรับคุณในห้องคอมพิวเตอร์พื้นฐานโดยปกติการจราจรทั้งหมดจะไปที่อินสแตนซ์ SLB ของพื้นที่ใช้งานหลัก A 100% ตัวอย่างของพื้นที่ว่าง B อยู่ในสถานะ "สแตนด์บายร้อน" เช่นเดียวกับยางอะไหล่ของรถในขณะที่หมุนไปรอบๆในขณะที่เฝ้าดูอย่างเงียบๆ

สถานะที่รุนแรง (การสลับระดับที่สอง): สมมติว่าห้องคอมพิวเตอร์ในพื้นที่ว่างของปักกิ่ง A ถูกตัดกะทันหันหรือสายเคเบิลออปติคอลถูกตัดระบบการตรวจสุขภาพพื้นฐานของ Alibaba Cloud จะตอบสนองภายใน2-5วินาทีโดยลอย IP เสมือน (VIP) ของชื่อโดเมนไปยังอินสแตนซ์ SLB ของพื้นที่ว่าง B โดยตรง

การรับรู้ของผู้ใช้: คำขอเครือข่ายของผู้ใช้อาจกะพริบเนื่องจากการตัดการเชื่อมต่อและการเชื่อมต่อใหม่แต่การเข้าถึงตามปกติสามารถเรียกคืนได้ทันทีคุณไม่จำเป็นต้องแก้ไขความละเอียด DNS ใดๆและคุณไม่จำเป็นต้องไปที่พื้นหลังเพื่อสลับด้วยตนเองชั้นล่างเป็นแบบอัตโนมัติทั้งหมด

2.การโจมตีแบบลดมิติระดับที่สอง: การกู้คืนระบบที่ราบรื่นของคลัสเตอร์ขนาดใหญ่พิเศษและ Anycast

"จะเกิดอะไรขึ้นถ้าพื้นที่ว่างสองแห่งในบางพื้นที่ถูกแขวนในเวลาเดียวกัน" (แม้ว่าความน่าจะเป็นจะต่ำมากแต่การยกระดับทางเทคนิคเป็นประเพณีที่ดีของการดำเนินการและการบำรุงรักษา)

ในขณะนี้ขึ้นอยู่กับการออกแบบคลัสเตอร์ที่ด้านบนของ SLB SLB ของ Alibaba Cloud ไม่ใช่เซิร์ฟเวอร์เดียวที่กำลังต่อสู้อยู่เบื้องหลังมันคือขนาดใหญ่

LVS (สี่ชั้น) + Tengine (เจ็ดชั้น)

คลัสเตอร์ทางกายภาพ

ในการจัดสรรภาระงานสี่ชั้น (CLB) Alibaba Cloud ใช้

Anycast BGP (ออกอากาศใดๆ)

เทคโนโลยี:

บนเครือข่ายกระดูกสันหลัง Alibaba Cloud อนุญาตให้ห้องคอมพิวเตอร์หลักหลายห้องทั่วโลกประกาศ SLB เดียวกันในเวลาเดียวกัน

ที่อยู่ IP ของเครือข่ายสาธารณะ

ในขณะที่ปริมาณการใช้งานของผู้ใช้เข้าสู่เครือข่าย Alibaba Cloud เราเตอร์ BGP ของผู้ให้บริการจะถูกจัดสรรโดยอัตโนมัติไปยังคลัสเตอร์ SLB ที่ใกล้ที่สุดและดีต่อสุขภาพที่สุดตาม "สถานการณ์ความแออัด" ของเครือข่าย

หากคลัสเตอร์ SLB ของห้องคอมพิวเตอร์ห้องใดห้องหนึ่งสูบบุหรี่โดยรวมโปรโตคอลการกำหนดเส้นทาง BGP จะส่งการรับส่งข้อมูลไปยังคลัสเตอร์ SLB ในเมืองอื่นโดยอัตโนมัติภายในไม่กี่วินาทีโครงสร้าง "หลายชีวิต" นี้ได้ก้าวข้ามข้อจำกัดของภูมิภาคเดียว

3.ระดับที่สามของแนวป้องกันขนาดเล็ก: SLB "ชื่อชีวิตและความตาย" ของ ECS ส่วนหลัง

ความพร้อมใช้งานสูงของ SLB นั้นไม่เพียงพอนอกจากนี้ยังต้องตรวจสอบให้แน่ใจว่าเซิร์ฟเวอร์ที่แจกจ่ายในอดีตยังมีชีวิตอยู่สิ่งนี้เกี่ยวข้องกับ

ตรวจสุขภาพ (Health Check)

มือใหม่หลายคนกำหนดค่าการตรวจสุขภาพแบบสุ่มซึ่งนำไปสู่ "เอฟเฟกต์หิมะถล่ม" การตรวจสุขภาพ SLB ช่วยให้คุณมีชีวิตอยู่ในลักษณะนี้:

การโทรสี่ชั้น (TCP): SLB เปรียบเสมือนเครื่องตอกบัตรที่ไร้ความปรานีทุกๆสองสามวินาทีคุณจะจับมือกับพอร์ต ECS ส่วนหลังของคุณ (เช่นพอร์ต80) หากการจับมือสำเร็จแสดงว่าคุณยังมีชีวิตอยู่หากการจับมือล้มเหลว3ครั้งติดต่อกัน SLB จะเตะคุณออกจากคิวในระดับมิลลิวินาทีการเข้าชมใหม่จะไม่แบ่งให้คุณอย่างแน่นอน

การตรวจร่างกายเชิงลึกเจ็ดชั้น (HTTP): หลายครั้งที่พอร์ตเปิดอยู่แต่รหัสส่วนหลังติดอยู่ (เช่นโยนข้อผิดพลาด500) SLB จะจำลองเบราว์เซอร์เพื่อเข้าถึง URL ที่คุณระบุ (เช่น/health.html) หากรหัสสถานะที่ส่งคืนไม่ใช่2xx หรือ3xx เซิร์ฟเวอร์จะถูกบล็อกโดยตรง

การรักษาตัวเองของความล้มเหลว: เมื่อ ECS ของคุณรีสตาร์ทรหัสจะกลับสู่สภาวะปกติหลังจาก SLB ผ่านการตรวจร่างกายอีกครั้งระบบจะดึงกลับไปที่คิวโดยอัตโนมัติเพื่อทำงานต่อไปการแทรกแซงด้วยตนเองเป็นศูนย์ตลอดกระบวนการ

4.คู่มือการต่อสู้จริงเพื่อหลีกเลี่ยงหลุม: เราจะไม่รุนแรงได้อย่างไร?

Alibaba Cloud ประสบความสำเร็จสูงสุดของ SLB ที่มีความพร้อมใช้งานสูงแต่ถ้าคุณโง่ในการกำหนดค่าความพร้อมใช้งานสูงนี้จะไร้ประโยชน์โปรดจำกฎเหล็กสามข้อต่อไปนี้:

1.ECS ส่วนหลังต้องปรับใช้ในพื้นที่ว่าง

นี่คือข้อผิดพลาดที่พบบ่อยที่สุด! หลายคนซื้อ SLB (พื้นที่หลัก A พื้นที่สำรอง B) ข้ามพื้นที่ว่างแต่เพื่อความสะดวกพวกเขาซื้อ ECS ทั้งสี่ที่ด้านหลังในพื้นที่ว่าง A

ด้วยเหตุนี้เมื่อพื้นที่ว่าง A ถูกปิด SLB ก็เปลี่ยนไปใช้พื้นที่สำรอง B ได้สำเร็จแต่ SLB ของพื้นที่สำรอง B มองย้อนกลับไป-ว่างเปล่าไม่มีเซิร์ฟเวอร์ความสามารถในการทำลายโดยตรงที่มีอยู่สูง

ท่าทางที่ถูกต้อง: SLB ข้ามพื้นที่ A/B และ ECS ด้านหลังควรกระจายอย่างเท่าเทียมกันในพื้นที่ A/B

2.ต้องเปิด "Session Stickiness" หรือไม่?

หากธุรกิจของคุณต้องการให้ผู้ใช้เข้าสู่ระบบ (สถานะจะถูกบันทึกไว้ในหน่วยความจำเซิร์ฟเวอร์) การเปิดเซสชันจะช่วยให้สามารถส่งคำขอของผู้ใช้รายเดียวกันไปยัง ECS เดียวกันได้

แต่ว่า! ถ้า EC

เมื่อ S วางสายเซสชันของผู้ใช้จะถูกตัดการเชื่อมต่ออย่างหลีกเลี่ยงไม่ได้สำหรับความพร้อมใช้งานสูงอย่างแท้จริง

ขอแนะนำอย่างยิ่งให้ถอดเซสชันออกและรวมไว้ในแคช Redis (เช่นเวอร์ชัน Redis ของ Alibaba Cloud)

ทำให้ ECS ส่วนหลัง "ไร้สัญชาติ" ด้วยวิธีนี้ ECS ใดๆจะเสียชีวิตอย่างกะทันหัน SLB สามารถตัดการรับส่งข้อมูลไปยังเซิร์ฟเวอร์อื่นๆได้อย่างราบรื่นและผู้ใช้ก็ไม่รู้สึกเลย

3.การตั้งค่าที่เหมาะสม TTL และเกณฑ์การตรวจสุขภาพ

อย่ากำหนดช่วงเวลาของการตรวจสุขภาพนานเกินไป (เช่นตรวจทุกๆ10วินาทีและยืนยันความล้มเหลว5ครั้งติดต่อกันซึ่งหมายความว่าเซิร์ฟเวอร์จะพบว่า SLB จะพบว่าผู้ใช้จำนวนมากจะรายงานข้อผิดพลาดภายในหนึ่งนาที) แต่อย่าตั้งรุนแรงเกินไป (เช่นตรวจสอบทุกๆ1วินาที) มิฉะนั้นในช่วงที่มีการทำงานพร้อมกันสูงการรับส่งข้อมูลของการตรวจสุขภาพจะบดขยี้เซิร์ฟเวอร์ของคุณ

คำแนะนำทองคำ: หมดเวลาการตอบสนอง3วินาทีช่วงเวลาการตรวจสอบ2-3วินาทีเกณฑ์ที่ไม่แข็งแรง3ครั้งและเกณฑ์สุขภาพ2ครั้ง

สรุป

ความพร้อมใช้งานสูงของ Alibaba Cloud SLB เป็นชุดของ

การกำหนดเส้นทาง BGP ทั่วโลกไปยังฮาร์ดแวร์โฮสต์และสแตนด์บายข้ามห้องคอมพิวเตอร์จากนั้นไปยังเซิร์ฟเวอร์ส่วนหลังการตรวจสอบสุขภาพระดับที่สอง

ระบบป้องกันสามมิติ

สำหรับการดำเนินงานและการบำรุงรักษาและสถาปนิก SLB เป็นส่วนประกอบที่คุ้มค่าที่สุดในระบบทั้งหมดคุณไม่จำเป็นต้องศึกษาวิธีการจับคู่ Keepalived ที่ซับซ้อนวิธีดริฟท์ IP เสมือนและวิธีดูแลคลัสเตอร์ LVS คุณสามารถเพลิดเพลินกับเกตเวย์ระดับภัยพิบัติที่ได้รับการปรับแต่งโดยสถาปนิกชั้นนำของโรงงานขนาดใหญ่ด้วยเงินเพียงเล็กน้อยในหนึ่งเดือนมอบสิ่งที่เป็นมืออาชีพให้กับ SLB สิ่งเดียวที่คุณต้องทำคือแบ่งเซิร์ฟเวอร์ส่วนหลังออกเป็นห้องคอมพิวเตอร์ที่แตกต่างกัน

1
← 返回新闻中心