Azure Microsoft Cloud Pay: Azure Synapse Analytics تحديث مستودع البيانات
في عصر البيانات الكبيرة اليوم ، غالبًا ما تقع العديد من الشركات في "حالة إمساك" محرجة للغاية عند إجراء تحليل البيانات وإعداد التقارير:
قامت الشركة بتجميع العديد من تيرابايت أو حتى بيتابايت من البيانات لعدة سنوات ، وهي منتشرة في أماكن مختلفة (قواعد بيانات الأعمال ، وملفات السجل ، ومختلف منصات SaaS التابعة لجهات خارجية). من الناحية المثالية ، يقوم مدير المنتج أو رئيس العمليات بسحب تقرير تحليل صورة المستخدم "عبر الربع ، متعدد الأبعاد". ونتيجة لذلك ، نقر على "التنفيذ" في قاعدة بيانات SQL التقليدية. لقد مر معظم الوقت ، ولا يزال النظام في دائرة محمومة. بعد الانتظار أخيرًا في فترة ما بعد الظهر ، لم ينفد التقرير فحسب ، بل امتلأ أيضًا وحدة المعالجة المركزية لقاعدة البيانات لبيئة الإنتاج عبر الإنترنت مباشرة بسبب هذا الاستعلام عن السعر المرتفع ، مما تسبب في أن التطبيق الأمامي عالق على الفور واشتكى العميل من أنه غير لائق.
هذا النوع من بنية البيانات التقليدية "نوع المدخنة" أو "نوع الورشة الصغيرة" ضعيف أمام البيانات الضخمة. العمل مؤلم ، التنمية مرهقة ، النقل والصيانة مخيفة حتى الموت.
من أجل الحد من نقطة الألم هذه المتمثلة في الاستعلام البطيء للبيانات الضخمة والبيانات المنتشرة في كل مكان ، قامت Microsoft Cloud (Azure) بسحب سلاحها النهائي في مجال تحليل البيانات-
Azure Synapse Analytics (مستودع البيانات الحديثة/خدمات التحليل)
.
منطقها الأساسي قاس وأنيق:
إنه يجبر "مستودع البيانات على مستوى المؤسسة" التقليدي و "Big Data Analytics" الحديث في مساحة سماء مستقلة مستضافة بالكامل.
يعتمد على القاع
يمكن لبنية المعالجة المتوازية واسعة النطاق (MPP) تقسيم الاستعلامات العملاقة المعقدة التي كانت تستغرق عدة ساعات إلى عشرات أو حتى مئات المهام الصغيرة ، وتسليمها إلى مجموعات الحوسبة الخلفية للقصف في نفس الوقت. تحتاج فقط إلى كتابة جملة SQL قياسية ، ثم اضغط على السيارة الخلفية. في مواجهة البيانات الضخمة ، لا يزال بإمكانها تحقيق استجابة ثانية.
.
اليوم ، نرفض أي وعظ رسمي ومعلمات نظرية مملة ، ونقطع مباشرة من ممارسات الإنتاج الحقيقية للمصنعين الحديثين. ستأخذك المقبض للكشف عن لغز Azure Synapse Analytics دون ألم ، ونبني مجموعة خاصة بك في السحابة في غضون 10 دقائق. موقع تحليل البيانات الكبيرة.
المرحلة الأولى: التفكيك العميق ، "نموذج الكون متعدد الأبعاد" من Azure Synapse
قبل أن تذهب إلى وحدة التحكم ، يجب عليك بناء نموذج العالم المادي في الجزء السفلي من Azure Synapse في عقلك. سيضيع الكثير من الناس عندما يدخلون وحدة التحكم الخاصة بهم لأنهم لا يفهمون أن هناك بالفعل ثلاث "قوى حوسبة كونية موازية" مختلفة تمامًا:
Cosmos 1: مجمع SQL بدون خادم (Serverless SQL Pool ، رائد الاستكشاف): هذه هي التكنولوجيا السوداء الأكثر اقتصادا وسحرًا. لا يحتوي على خادم مادي ، ويتم حساب الأموال حسب كمية البيانات التي تستفسر عنها (حوالي 5 دولارات للتيرابايت). مهمتها الوحيدة هي عندما يكون لديك مجموعة من ملفات CSV أو JSON أو Parquet في يدك
عند التخزين ، لا تحتاج إلى إنشاء أي جدول ، يمكنك "اختراق" الاستعلام عن هذه الملفات باستخدام جملة SQL القياسية مثل التحقق من قاعدة البيانات. مناسبة لاستكشاف البيانات المفاجئة.
Cosmos 2: مجمع SQL مخصص (سلاح الفرسان الثقيل الرئيسي): هذا هو مستودع بيانات على مستوى المؤسسة (المعروف سابقًا باسم Azure SQL DW) بالمعنى التقليدي. إنها مجموعة من الكيانات التي تجمع الأموال بانتظام كل ساعة. يستخدم بنية موزعة قياسية MPP (معالجة متوازية واسعة النطاق) ، وبعد دخول البيانات ، سيتم تفجيرها وتوزيعها على 60 وحدة تخزين أساسية. عندما تحتاج إلى تشغيل التقرير اليومي الكبير الثابت لمئات الملايين من البيانات الأساسية للشركة ، ستعمل مجموعة الفرسان الثقيلة هذه بأقصى سرعة ، مما يوفر استجابة ثانية ثابتة.
Cosmos 3: Synapse Pipelines (Synapse Pipelines ، عامل الطوب): يمكنك فهمه على أنه مصنع بيانات Azure (ADF) مدمج فيه. لا يتطلب منك كتابة سطر من التعليمات البرمجية. فقط عن طريق السحب والسحب ، يمكنك تلقائيًا "سحب" مصدر البيانات تلقائيًا إلى هذا المستودع من غرفة الكمبيوتر المحلية التي تم بناؤها ذاتيًا لشركتك أو قواعد البيانات الخارجية المختلفة.
سمو داتشانغ: هذه الأكوان الثلاثة متصلة تمامًا في نفس الواجهة ، ويتم مشاركة البيانات ، ويتم عزل القوة الحسابية. هذا هو سقف المنصة في البيانات الحديثة.
المرحلة الثانية: التدريبات القتالية الفعلية-10 دقائق من المباني الشاهقة على الأرض ، وبناء مستودع حديث سريع
تأكد من أن لديك بالفعل حساب Azure ، وقد تم بناء قاعدة
Azure Data Lake Storage Gen2 (تخزين بحيرة البيانات)
تستخدم لتخزين الملفات الأصلية.
الخطوة 1: فتح مساحة العمل الكونية المستقلة Synapse (Workspace)
سجّل الدخول إلى بوابة Azure (البوابة).
أدخل "Azure Synapse Analytics" في شريط البحث أعلاه ، وانقر على إدخال وحدة التحكم الأساسية.
انقر فوق "Create" في الجزء العلوي: المعلومات الأساسية: حدد مجموعة الموارد الخاصة بك ، واسمي منطقة العمل synapse-workspace-prod ، وحدد المنطقة الأقرب إليك (مثل East Asia Hong Kong). Select Data Lake Storage Gen2: حدد حساب Storage (حساب التخزين) الذي قمت ببناؤه مسبقًا ، وحدد حاوية (Container) باسم raw-data. ملاحظة: ستكون هذه الحاوية بمثابة "القاعدة الخلفية الكبيرة" للعدد الكامل من المستودعات ، وسيتم إلقاء جميع المستندات الأصلية هنا.
أدخل اسم المستخدم وكلمة المرور الخاصة بالمشرف ، واضغط على التالي على التوالي حتى يكتمل الإنشاء.
الخطوة 2: تسجيل الدخول إلى طاولة عمل منظور الله (Synapse Studio)
بعد الانتهاء من الإنشاء (عادة ما يستغرق حوالي دقيقتين) ، انقر على صفحة المورد.
في الوسط ، سوف
شاهد زر أزرق كبير لامع بشكل لافت للنظر: "Open Synapse Studio".
لا تتردد في طلبها! تنتقل الصفحة تلقائيًا إلى طاولة عمل مستقلة تمامًا وعلمية للغاية في عالم البيانات. جميع علماء البيانات ومهندسي BI ومشرفي الشبكات في المصنع الكبير يقاتلون جنبًا إلى جنب في هذه الواجهة كل يوم.
المرحلة الثالثة: التمرين القتالي الفعلي 2-استخدام Serverless SQL "لاختراق" ثانية واحدة للاستعلام عن عدد كبير من الملفات الأصلية
نحن الآن نحاكي سيناريو التطوير الأكثر واقعية: لقد قام نظام التجارة الإلكترونية الخارجي للشركة للتو بتضميد عشرات الملايين من سجلات معاملات طلبات المستخدم العالمية (تنسيق Parquet أو تنسيق CSV) التي تم ضغطها عدة غيغابايت في الشهر الماضي ، وتم إلقاء الحجم الكامل تلقائيًا في حالتنا
Raw-data
البيانات في حاوية البحيرة.
الآن يتوق مديرو المنتجات إلى النظر: "من هم أكبر 10 مستخدمين محليين لديهم أعلى استهلاك في جميع أنحاء العالم الشهر الماضي ؟"
وفقًا للممارسة السابقة ، يجب عليك إنشاء جداول وكتابة التعليمات البرمجية وكتابة ETL لاستيراد هذه عشرات الملايين من البيانات في قاعدة البيانات وقذف معظم اليوم. لكن أمام Synapse ، استخدمنا
Serverless SQL
لعب الحرب الخاطفة المتطرفة.
على الجانب الأيسر من واجهة Synapse Studio ، انقر على أيقونة البيانات.
قم بالتبديل إلى علامة التبويب "Linked" (المرتبطة) ، وافتح حساب تخزين Data Lake الخاص بك ، وابحث عن المجلد الذي يحتوي على ملفات الطلب.
شاهد لحظة التكنولوجيا السوداء: انقر بزر الماوس الأيمن على ملف الطلب الضخم هذا وحدد "New SQL script"-> "Select TOP 100 rows".
سيقوم النظام تلقائيًا بإنشاء جملة SQL معجزة لك. قمنا بتغييره قليلاً وكتبنا المنطق الأساسي الذي أراده مدير المنتج مباشرة:
انقر في الأعلى
"Run" (تشغيل)
.
تندلع قوة حساب Serverless في النهاية الخلفية على الفور ، ولا تحتاج إلى أي فهرس ، وتكتسح مباشرة في بحيرة البيانات لقراءة جميع الملفات المتناثرة. بعد بضع ثوانٍ فقط ، قفزت معرفات المستخدمين المحليين العشرة وإجمالي الاستهلاك بدقة في نافذة Results أدناه.
سحب مدير المنتج ونقل الشاشة إليه ، العملية برمتها دون أي جهد ، هذه هي سرعة تحديث السحابة الأصلية.
المرحلة الرابعة: تاريخ الدم والدموع لتجنب الحفر في ظل الهيكل المتزامن على مستوى داتشانغ
هذه المجموعة من منصة البيانات الكبيرة المستضافة بالكامل منعشة بحيث ترتفع ، فهي تساعدك مباشرة على تسوية جميع تعقيد التوزيع الأساسي. ولكن من أجل البقاء على قيد الحياة في ساحة المعركة التجارية الصارمة حقًا والتقارير عالية التزامن ، بصفتك كبير مهندسي البيانات ، يجب عليك على الفور إصدار أمر إداري لحام الحفر الخفية التالية قبل إغلاق الكمبيوتر:
1. المأساة المالية الناجمة عن "الكنس الأعمى لـ Serverless SQL" المميت
كما ذكرنا سابقًا ، فإن Serverless SQL مريحة للغاية ولا تحتاج إلى فتح
الجهاز ، يتم حساب الأموال وفقًا لكمية البيانات التي تم الاستعلام عنها (حوالي 5 دولارات أمريكية لكل 1 تيرابايت يتم مسحها ضوئيًا).
حدثت كارثة: إذا كان لدى شركتك تطوير أو تشغيل أولي ، فقد كتبت جملة استعلام غير قياسية للغاية (على سبيل المثال ، لا يوجد حد للنطاق الزمني ، استخدم SELECT * المطابقة الضبابية لمسح الكل) ، ثم قم بتقييد هذا الاستعلام كل 5 دقائق في البرنامج النصي الدائري الذي يتم تشغيله تلقائيًا مرة واحدة. نظرًا لأنه يقوم بمسح مئات غيغابايت من السجلات الأصلية بشكل محموم في كل مرة ، في غضون أيام قليلة ، يمكن لفواتير رسوم المسح الضوئي لـ Serverless SQL هذه أن تحرق بسهولة آلاف الدولارات ، وسيأتي إليك التمويل مباشرة بسكين.
تكوين الميدالية الذهبية القياسية للمهندس المعماري: قفل حد السرعة المادي: في Synapse Studio ، انقر فوق "Manage"-> "SQL pools". انقر للتحكم في الإعدادات المضمنة في تجمع SQL الخاص بـ Serverless ، وفرض تكوين "Daily/Weekly/Monthly Data Proced limits" (حد أقصى لمعالجة البيانات اليومية/الأسبوعية/الشهرية). على سبيل المثال ، قم بمسح 2 تيرابايت فقط يوميًا. بمجرد أن يؤدي رمز القمامة أو البرنامج النصي الدائري الميت إلى تجاوز المعيار ، سيقطع النظام الاستعلام بلا رحمة لمدة ثانية ويأبلغ عن الأخطاء ، ويحافظ على رأس مال الشركة.
2. يُمنع منعًا باتًا استخدام "Row-by-Row Updates" (Row-by-Row Updates) في تجمع SQL المخصص
عندما تفتح
Dedicated SQL Pool (تجمع SQL مخصص)
عند استخدامه كمستودع أساسي ، يجب أن تتحول عادات الكود الخاصة بك تمامًا من التفكير "الورشة الصغيرة" إلى التفكير "الموزع".
التعرض من الداخل: في قواعد البيانات العلائقية التقليدية (مثل SQL Server / MySQL) ، غالبًا ما نكتب UPDATE my_table SET status = 1 معرف WHERE = 123 ؛. ولكن في البنية الموزعة لـ Synapse ، يتم تفكيك البيانات وتوزيعها في 60 عقدة تخزين. إذا كنت تستخدم بشكل محموم حلقات لتشغيل هذا النوع من التحديث أو Insert أحادي السجل في عملية الكود أو عملية ETL ، فسيؤدي ذلك إلى موت الدماغ المنسق الموزع الأساسي (Control Node) تمامًا من أجل قفل الجداول بشكل متكرر ومزامنة الشبكة ، والسرعة أبطأ بمئات المرات من قاعدة البيانات المستقلة!
مواصفات التعزيز الأساسية: دائمًا ما يتم اعتماد النوع (Bulk Load) الذي "يتم إصلاحه بكميات كبيرة". إذا كنت بحاجة إلى تحديث البيانات ، فاستخدم دائمًا أمر PolyBase أو COPY عالي المستوى لتحطيم عشرات الآلاف من البيانات الجديدة في جدول تجزئة مؤقت. ثم استخدم عبارة نظيفة ونقية موجهة نحو المجموعة للتغطية أو الدمج على دفعات. اتبع شهية المجموعة الموزعة لكتابة الكود ، وسوف يعطيك استجابة ثانية حقيقية.
مجموع
عقدة
باستخدام Azure Synapse Analytics لإنشاء مستودع بيانات حديث على مستوى المؤسسة بسرعة ، يتم تبسيط الجوهر الصناعي الأساسي في الواقع إلى ستة عشر كلمة:
تحويل القوة الحسابية ، استكشاف الاختراق ، قفل المبلغ الإجمالي ، عدد كبير من الإنتاجية
.
لقد قلت وداعًا تمامًا للماضي وطلبت من الجد أن يخبر جدتك أن تطلب من أنظمة مختلفة توجيه البيانات ، وتخشى الخوف من تشغيل التقرير الكبير عالق في النظام عبر الإنترنت ، وتفيض الشعر لذاكرة الجهاز الافتراضي كل يوم. قم باستضافة جميع الضغوط الحسابية الضخمة بالكامل إلى العقول الأصلية لسحابة MPP الموزعة التي أنشأتها Microsoft بعشرات المليارات من الدولارات. عند الجلوس أمام الكمبيوتر ، قم بفتح سوق بيانات رائع بأناقة ، ومشاهدة مئات الملايين من البيانات بهدوء ترويض مطيعًا في غمضة عين ، وهذا هو أكثر وضعية تحقيق أناقة للمهندس المعماري في عصر البيانات الحديثة.
