Azure Microsoft Cloud Bill Payment: Azure Synapse Analytics Modern Data Warehouse Speed Tutorial

เมฆ 2026-06-01 阅读 106

ในยุคของข้อมูลขนาดใหญ่ในปัจจุบันหลายบริษัทมักตกอยู่ใน "ภาวะท้องผูก" ที่น่าอับอายอย่างยิ่งเมื่อทำการวิเคราะห์ข้อมูลและรายงาน:

บริษัทได้รวบรวมข้อมูล TB หรือ PB หลายรายการหลังจากดำเนินการมาหลายปีซึ่งกระจัดกระจายอยู่ในที่ต่างๆ (ฐานข้อมูลธุรกิจไฟล์บันทึกแพลตฟอร์ม SaaS ของบุคคลที่สามต่างๆ) ผู้จัดการผลิตภัณฑ์หรือผู้จัดการฝ่ายปฏิบัติการต้องการดึงรายงานการวิเคราะห์ภาพผู้ใช้แบบ "ข้ามไตรมาสหลายมิติ" และด้วยเหตุนี้จึงคลิก "การดำเนินการ" ในฐานข้อมูล SQL แบบเดิมเวลาผ่านไปกว่าครึ่งวันและระบบยังคงหมุนวนอย่างบ้าคลั่งในที่สุดฉันก็รอจนถึงช่วงบ่ายไม่เพียงแต่รายงานจะไม่ออกมาแต่ยังเป็นเพราะการสอบถามที่สูงเสียดฟ้านี้ทำให้ซีพียูฐานข้อมูลของสภาพแวดล้อมการผลิตออนไลน์เต็มโดยตรงทำให้แอปส่วนหน้าติดขัดทันทีและลูกค้าก็บ่นอย่างเหมาะสม

สถาปัตยกรรมข้อมูลแบบ "ปล่องไฟ" หรือ "เวิร์กช็อปขนาดเล็ก" แบบดั้งเดิมนี้มีความเสี่ยงต่อข้อมูลจำนวนมหาศาลความเจ็บปวดทางธุรกิจความเหนื่อยล้าในการพัฒนาและการดำเนินการและการบำรุงรักษาทำให้กลัวตาย

เพื่อที่จะลดขนาดลงอย่างสมบูรณ์เพื่อต่อสู้กับจุดเจ็บปวดของการสืบค้นข้อมูลที่ช้าและข้อมูลจำนวนมากที่กระจัดกระจายไปทุกหนทุกแห่ง Microsoft Cloud (Azure) ได้นำอาวุธที่ดีที่สุดในด้านการวิเคราะห์ข้อมูลออกมา-

Azure Synapse Analytics (บริการคลังข้อมูล/การวิเคราะห์ที่ทันสมัย)

。

ตรรกะหลักของมันหยาบและสง่างาม:

มันบังคับให้ "คลังข้อมูลระดับองค์กร" แบบดั้งเดิมและ "การวิเคราะห์ข้อมูลขนาดใหญ่" ที่ทันสมัยในพื้นที่หลังคาอิสระที่มีการจัดการอย่างสมบูรณ์

ชั้นล่างสุดของมันขึ้นอยู่กับ

สถาปัตยกรรมการประมวลผลแบบขนานขนาดใหญ่ (MPP) สามารถแยกข้อความค้นหาขนาดใหญ่ที่ซับซ้อนซึ่งเดิมใช้เวลาหลายชั่วโมงออกเป็นงานเล็กๆหลายสิบหรือหลายร้อยงานและส่งมอบให้กับคลัสเตอร์คอมพิวเตอร์ส่วนหลังเพื่อทิ้งระเบิดในเวลาเดียวกันคุณจะต้องเขียนคำสั่ง SQL มาตรฐานให้เสร็จแล้วกด Enter หน้าข้อมูลจำนวนมหาศาลมันยังสามารถตอบสนองระดับที่สองให้คุณได้

。

วันนี้เราปฏิเสธการเทศนาอย่างเป็นทางการและพารามิเตอร์ทางทฤษฎีที่น่าเบื่อและตัดตรงจากแนวทางการผลิตที่แท้จริงของโรงงานที่ทันสมัยและจับมือคุณเพื่อเปิดเผยความลึกลับของ Azure Synapse Analytics โดยไม่เจ็บปวดและสร้างชุดของคุณเองในระบบคลาวด์ใน10นาทีตำแหน่งการวิเคราะห์ข้อมูลขนาดใหญ่ที่รวดเร็วมาก

ขั้นตอนที่1: การรื้อลึก "แบบจำลองจักรวาลหลายมิติ" ของ Azure Synapse

ก่อนที่จะคลิกที่คอนโซลคุณต้องสร้างแบบจำลองโลกทางกายภาพของ Azure Synapse ในใจของคุณหลายคนจะหลงทางเมื่อเข้าสู่คอนโซลเพราะพวกเขาไม่เข้าใจว่าจริงๆแล้วมี "พลังคอมพิวเตอร์จักรวาลคู่ขนาน" ที่แตกต่างกันอย่างสิ้นเชิงสามประการ:

Universe 1: Server SQL Pool (Server SQL Pool, Exploring Pioneer): นี่คือเทคโนโลยีสีดำที่ประหยัดที่สุดและมีมนต์ขลังที่สุดไม่มีเซิร์ฟเวอร์จริงและคำนวณเงินตามจำนวนข้อมูลที่คุณสอบถาม (ประมาณ $5ต่อ1 TB) งานเดียวของมันคือเมื่อคุณมีไฟล์ CSV, JSON หรือ Parquet ที่ยุ่งเหยิงอยู่ในระบบคลาวด์

เมื่อจัดเก็บข้อมูลคุณไม่จำเป็นต้องสร้างตารางใดๆเพียงแค่ใช้คำสั่ง SQL มาตรฐานเพื่อ "เจาะ" และสืบค้นไฟล์เหล่านี้เช่นการค้นหาฐานข้อมูลเหมาะสำหรับการสำรวจข้อมูลอย่างกะทันหัน

Universe 2: Dedicated SQL Pool (Dedicated SQL Pool ซึ่งเป็นทหารม้าหนักหลัก): นี่คือคลังข้อมูลระดับองค์กรขนาดใหญ่ (เดิมชื่อ Azure SQL DW) ในความหมายดั้งเดิมเป็นคลัสเตอร์ทางกายภาพที่เก็บเงินเป็นประจำทุกชั่วโมงใช้สถาปัตยกรรมแบบกระจาย MPP มาตรฐาน (การประมวลผลแบบขนานขนาดใหญ่) และข้อมูลจะถูกแยกและแจกจ่ายไปยังหน่วยเก็บข้อมูลพื้นฐาน60หน่วยหลังจากเข้ามาเมื่อคุณต้องการเรียกใช้รายงานขนาดใหญ่ประจำวันของแกนหลักของบริษัทที่มีข้อมูลหลายร้อยล้านชิ้นคลัสเตอร์ทหารม้าหนักนี้จะทำงานด้วยความเร็วเต็มที่และให้การตอบสนองระดับที่สองคงที่

จักรวาล3: Synapse Pipelines (Synapse Pipelines, Brick machter): คุณสามารถเข้าใจได้ว่าเป็น Azure Data Factory(ADF) ในตัวไม่จำเป็นต้องให้คุณเขียนโค้ดเพียงบรรทัดเดียวมันสามารถ "ดึง" ข้อมูลไปยังคลังสินค้านี้โดยอัตโนมัติจากห้องคอมพิวเตอร์ที่สร้างขึ้นเองในพื้นที่ของบริษัทของคุณหรือฐานข้อมูลภายนอกต่างๆ

ความฉลาดของ Dachang: จักรวาลทั้งสามนี้เชื่อมต่อกันอย่างสมบูรณ์ในอินเทอร์เฟซเดียวกันการแบ่งปันข้อมูลและการแยกพลังคอมพิวเตอร์นี่คือเพดานของแพลตฟอร์มกลางข้อมูลสมัยใหม่ที่ทันสมัย

ขั้นตอนที่สอง: การฝึกซ้อมการต่อสู้จริง-10นาทีในการสร้างอาคารสูงบนพื้นดินและสร้างคลังสินค้าที่ทันสมัยและรวดเร็ว

โปรดตรวจสอบให้แน่ใจว่าคุณมีบัญชี Azure อยู่แล้วและได้สร้างพื้นฐานแล้ว

Azure Data Lake Storage Gen2 (เก็บข้อมูลทะเลสาบ)

ใช้ในการจัดเก็บไฟล์ต้นฉบับ

ขั้นตอนที่1: เปิด Synapse พื้นที่ทำงานอิสระของจักรวาล (Workspace)

ลงชื่อเข้าใช้พอร์ทัล Azure (Portal)

ป้อน "Azure Synapse Analytics" ในแถบค้นหาด้านบนแล้วคลิกเพื่อเข้าสู่คอนโซลหลัก

คลิก "สร้าง" ที่ด้านบน: ข้อมูลพื้นฐาน: เลือกกลุ่มทรัพยากรของคุณตั้งชื่อพื้นที่ทำงานว่า synapse-workspace-prod และเลือกพื้นที่ที่ใกล้ที่สุด (เช่น East Asia HongKong) ระบุ Data Lake Storage Gen2: เลือกบัญชีที่เก็บข้อมูลที่คุณสร้างไว้ล่วงหน้าและระบุคอนเทนเนอร์ (Container) ชื่อ raw-data หมายเหตุ: ภาชนะนี้จะทำหน้าที่เป็น "ฐานด้านหลังขนาดใหญ่" ของคลังสินค้าทั้งหมดและเอกสารต้นฉบับทั้งหมดจะถูกโยนที่นี่

ป้อนชื่อผู้ใช้และรหัสผ่านผู้ดูแลระบบของคุณและคลิกต่อไปจนกว่าการสร้างจะเสร็จสมบูรณ์

ขั้นตอนที่2: ลงชื่อเข้าใช้ God View Workbench (Synapse Studio)

หลังจากสร้างเสร็จแล้ว (โดยปกติจะใช้เวลาประมาณ2นาที) ให้คลิกเพื่อเข้าสู่หน้าทรัพยากร

ตรงกลางคุณจะ

ฉันเห็นปุ่มสีฟ้าสว่างขนาดใหญ่ที่สะดุดตามาก: "Open Synapse Studio"

คลิกโดยไม่ลังเล! หน้านี้จะข้ามไปยังโต๊ะทำงานของโลกข้อมูลไซไฟที่เป็นอิสระอย่างสมบูรณ์โดยอัตโนมัตินักวิทยาศาสตร์ข้อมูลวิศวกร BI และผู้ดูแลระบบเครือข่ายทั้งหมดในโรงงานขนาดใหญ่ทำงานเคียงข้างกันในอินเทอร์เฟซนี้ทุกวัน

ขั้นตอนที่สาม: แบบฝึกหัดการต่อสู้จริง2-ใช้ SQL Serverless เพื่อ "เจาะ" เพื่อค้นหาไฟล์ต้นฉบับจำนวนมากในหนึ่งวินาที

ตอนนี้เรากำลังจำลองสถานการณ์การพัฒนาที่สมจริงที่สุด: ระบบอีคอมเมิร์ซในต่างประเทศของบริษัทเพิ่งส่งบันทึกธุรกรรมการสั่งซื้อของผู้ใช้ทั่วโลกหลายสิบล้านรายการ (รูปแบบ Parquet หรือรูปแบบ CSV) ที่บีบอัดด้วย GB หลายตัวเมื่อเดือนที่แล้วและจำนวนทั้งหมดจะถูกส่งไปยังเรา

Raw-data

ในภาชนะทะเลสาบข้อมูล

ตอนนี้ผู้จัดการผลิตภัณฑ์กังวลที่จะดู: "ใครคือผู้ใช้ทรราชในท้องถิ่น10อันดับแรกที่มีการบริโภคมากที่สุดในโลกเมื่อเดือนที่แล้ว"

ตามแนวทางปฏิบัติก่อนหน้านี้คุณต้องสร้างตารางเขียนโค้ดและเขียน ETL เพื่อนำเข้าข้อมูลหลายสิบล้านชิ้นเหล่านี้ลงในฐานข้อมูลและทิ้งไว้นานแต่ต่อหน้า Synapse เราใช้

Serverless SQL

เล่นแบบสายฟ้าแลบมาก

ที่ด้านซ้ายของอินเทอร์เฟซ Synapse Studio ให้คลิกที่ไอคอน "ข้อมูล"

สลับไปที่แท็บ "Linked" (ลิงก์) ขยายบัญชีที่เก็บข้อมูล Lake ของคุณและค้นหาโฟลเดอร์ที่จัดเก็บไฟล์คำสั่งซื้อ

ร่วมเป็นสักขีพยานในช่วงเวลาแห่งเทคโนโลยีสีดำ: คลิกขวาที่ไฟล์คำสั่งซื้อขนาดใหญ่นั้นแล้วเลือก "New SQL script"-> "Select TOP 100 rows"

ระบบจะสร้างคำสั่ง SQL ที่น่าอัศจรรย์สำหรับคุณโดยอัตโนมัติลองเปลี่ยนมันเล็กน้อยและเขียนตรรกะหลักที่ผู้จัดการผลิตภัณฑ์ต้องการโดยตรง:

คลิกที่ด้านบน

"Run" (เรียกใช้)

。

พลังการประมวลผล Serverless ที่อยู่ด้านหลังระเบิดทันทีไม่จำเป็นต้องใช้ดัชนีใดๆและกวาดและอ่านไฟล์ที่กระจัดกระจายทั้งหมดในทะเลสาบข้อมูลโดยตรงเพียงไม่กี่วินาทีต่อมา ID และการบริโภคทั้งหมดของผู้ใช้ทรราชในท้องถิ่น10คนก็ปรากฏขึ้นอย่างเรียบร้อยในหน้าต่าง Results ด้านล่าง

ดึงผู้จัดการผลิตภัณฑ์และเปิดหน้าจอให้เขากระบวนการทั้งหมดเป็นไปอย่างง่ายดายนี่คือความเร็วของคลังสินค้าดิจิทัลที่ทันสมัยแบบดั้งเดิมของคลาวด์

ขั้นตอนที่สี่: ประวัติความเป็นมาของการหลีกเลี่ยงเลือดและน้ำตาภายใต้โครงสร้างการทำงานพร้อมกันสูงของโรงงานขนาดใหญ่

แพลตฟอร์มข้อมูลขนาดใหญ่ที่มีการโฮสต์อย่างสมบูรณ์นี้ใช้งานได้อย่างรวดเร็วและจะช่วยให้คุณมีความซับซ้อนทั้งหมดของการกระจายพื้นฐานได้โดยตรงแต่เพื่อให้อยู่รอดได้อย่างมั่นคงในสนามรบที่มีปริมาณการใช้งานเชิงพาณิชย์สูงและการรายงานพร้อมกันสูงในฐานะหัวหน้าสถาปนิกข้อมูลคุณต้องออกคำสั่งทางปกครองทันทีก่อนที่จะปิดคอมพิวเตอร์เพื่อเชื่อมหลุมที่มองไม่เห็นสองหลุมต่อไปนี้:

1.โศกนาฏกรรมทางการเงินที่เกิดจาก "Server SQL Blind Sweeping" ที่ร้ายแรง

ดังที่ได้กล่าวไว้ก่อนหน้านี้ Serverless SQL สะดวกมากและไม่จำเป็นต้องเปิด

เครื่องคำนวณเงินตามจำนวนข้อมูลที่สอบถาม (ประมาณ $5ต่อการสแกน1 TB)

ภัยพิบัติ: หากบริษัทของคุณมีการพัฒนาหลักหรือการดำเนินการให้เขียนประโยคการสืบค้นที่ผิดปกติอย่างมาก (เช่นไม่มีการจำกัดกรอบเวลาใช้ SELECT * การจับคู่แบบคลุมเครือโดยตรงเพื่อสแกนทั้งเล่ม) จากนั้นใส่แบบสอบถามนี้ลงในทุกๆ5สคริปต์ลูปจะถูกเรียกใช้โดยอัตโนมัติหนึ่งครั้งในไม่กี่นาทีเนื่องจากมันจะสแกนบันทึกต้นฉบับหลายร้อย GB อย่างบ้าคลั่งทุกครั้งหลังจากนั้นไม่กี่วันค่าสแกนของ Serverless SQL นี้สามารถเผาผลาญได้อย่างง่ายดายหลายพันดอลลาร์และการเงินจะมาหาคุณโดยตรงด้วยมีด

การกำหนดค่าเหรียญทองฟรีมาตรฐานสถาปนิก: ล็อคจำกัดความเร็วทางกายภาพ: ใน Synapse Studio คลิกเพื่อเข้าสู่ "Manage"-> "SQL pools" คลิกเพื่อควบคุมการตั้งค่าในตัวของพูล SQL ของ Serverless และกำหนดค่า "ข้อมูลรายวัน/รายสัปดาห์/รายเดือน" (ขีดจำกัดการประมวลผลข้อมูลสูงสุดรายวัน/รายสัปดาห์/รายเดือน) ตัวอย่างเช่นสามารถสแกนได้สูงสุด2 TB ต่อวันเมื่อมีรหัสสแปมหรือการเรียกใช้สคริปต์แบบไม่สิ้นสุดเกินมาตรฐานระบบจะตัดการสืบค้นอย่างไร้ความปรานีและรายงานข้อผิดพลาดในหนึ่งวินาทีและปกป้องตลาดทุนของบริษัท

2.ห้ามใช้ "Row-by-Row Updates" (Row-by-Row Updates) ในพูล SQL เฉพาะโดยเด็ดขาด

เมื่อคุณเปิดใช้งาน

Dedicated SQL Pool (เฉพาะสระว่ายน้ำ SQL)

เมื่อใช้เป็นคลังสินค้าหลักนิสัยรหัสของคุณจะต้องเปลี่ยนจากการคิดแบบ "เวิร์กช็อปขนาดเล็ก" ไปเป็นการคิดแบบ "กระจาย" โดยสิ้นเชิง

การเปิดเผยข้อมูลภายใน: ในฐานข้อมูลเชิงสัมพันธ์แบบดั้งเดิม (เช่น SQL Server / MySQL) เรามักเขียน UPDATE my_table SET status = 1 WHERE id = 123; แต่ในสถาปัตยกรรมแบบกระจายของ Synapse ข้อมูลจะกระจัดกระจายและกระจายในโหนดหน่วยเก็บข้อมูล60โหนดหากคุณใช้ลูปอย่างบ้าคลั่งเพื่อเรียกใช้อัปเดตหรือ Insert ของระเบียนเดียวดังกล่าวในกระบวนการโค้ดหรือ ETL จะทำให้สมองตายอย่างสมบูรณ์เพื่อล็อกตารางและซิงโครไนซ์เครือข่ายบ่อยๆและความเร็วจะสูงกว่าฐานข้อมูลแบบสแตนด์อะโลนช้ากว่าร้อยเท่า!

ข้อกำหนดการเสริมแรงแบบฮาร์ดคอร์: ใช้ประเภท "Bulk Load ในปริมาณมาก" เสมอหากคุณต้องการอัปเดตข้อมูลให้ใช้คำสั่ง PolyBase หรือ COPY ที่มีการกำหนดค่าสูงเสมอเพื่อทุบข้อมูลใหม่หลายหมื่นรายการลงในตารางการแบ่งชั่วคราวจากนั้นใช้คำสั่งที่มุ่งเน้นการรวบรวมที่สะอาดและบริสุทธิ์สำหรับการครอบคลุมหรือการรวมแบทช์เขียนโค้ดให้สอดคล้องกับความอยากอาหารของคลัสเตอร์แบบกระจายและจะให้การตอบสนองระดับที่สองที่แท้จริงแก่คุณ

รวม

结

การใช้ Azure Synapse Analytics เพื่อสร้างคลังข้อมูลที่ทันสมัยระดับองค์กรได้อย่างรวดเร็วสาระสำคัญของอุตสาหกรรมหลักนั้นง่ายขึ้นเป็น16คำ:

การแบ่งกำลังการคำนวณการสำรวจการเจาะการล็อกทั้งหมดปริมาณงานจำนวนมาก

。

คุณอำลาอดีตโดยสิ้นเชิงและขอให้คุณปู่บอกคุณย่าของคุณเพื่อขอระบบต่างๆเพื่อนำทางข้อมูลกังวลเกี่ยวกับการเรียกใช้รายงานขนาดใหญ่เพื่อปิดกั้นระบบออนไลน์และล้นเส้นผมทุกวันสำหรับหน่วยความจำเครื่องเสมือนความกดดันในการประมวลผลขนาดใหญ่ที่หนักที่สุดทั้งหมดได้รับการจัดการอย่างสมบูรณ์สำหรับสมองดั้งเดิมบนคลาวด์ MPP แบบกระจายที่สร้างโดย Microsoft ด้วยเงินหลายหมื่นล้านดอลลาร์นั่งอยู่หน้าคอมพิวเตอร์เปิดตลาดข้อมูลที่สวยงามอย่างสง่างามและดูข้อมูลหลายร้อยล้านชิ้นอย่างใจเย็นในพริบตานี่คือท่าทางการสร้างรายได้ที่สง่างามที่สุดของสถาปนิกในยุคข้อมูลสมัยใหม่