Azureマイクロソフトのクラウド請求書の支払い: Azure Synapse Analytics現代化データウェアハウスの迅速なチュートリアル

クラウド 2026-06-01 阅读 107

今のビッグデータ時代には、多くの企業がデータ分析やレポートをしている時、非常に気まずい「便秘状態」に陥っている。

会社は数年走って数TBからPB級のデータを蓄積し、異なる場所 (業務データベース、ログファイル、各種第三者SaaSプラットフォーム) に散在した。製品マネージャまたは運営の理想は「四半期間、多次元的」なユーザー画像分析レポートを引っ張って、結果は従来のsqlデータベースで「実行」をクリックして、半日が過ぎたシステムはまだ狂ったように回転している。やっと午後になって、報告書が出てこないだけでなく、この天価照会がオンライン生産環境のデータベースCPUを直接いっぱいにして、フロントエンドAPPが瞬時に詰まって、客先から苦情が出てしまった。

このような伝統的な「煙突式」または「小さなワークショップ式」のデータアーキテクチャは、大量のデータの前では圧倒されます。業務が痛くて、開発が疲れて、運送が怖くてたまらない。

このような大量のデータ照会が遅く、データが散らばっている痛点を徹底的に減らすために、マイクロソフトのクラウド (Azure) はデータ分析分野でのエースの究極の武器を取り出した --。

Azure Synapse Analytics (最新化データウェアハウス/分析サービス)

。

その核心的な論理は乱暴で優雅である

伝統的な「企業レベルのデータウェアハウス」と現代化された「ビッグデータ分析(Big Data Analytics) 」を強制的に完全にホストされた独立した天幕空間に揉みました。

その基盤は

大規模な並列処理 (MPP) アーキテクチャは、もともと数時間走る必要があった複雑な巨大なクエリを、数十個から数百個の小さなタスクに分割し、バックエンドのコンピューティングクラスタに渡して同時に爆撃することができる。標準的なSQL文を書いて、enterキーを押すだけで、大量のデータの前で、まだ秒レベルの応答を実現できます

。

今日、私たちは公式説教と退屈な理論パラメータを拒否して、真実の現代化大工場の生産実践から直接切り込んで、手を持って無痛にAzure Synapse Analyticsの神秘的なベールをはがす10分でクラウドに自分のスピードの速いデータ分析陣地を構築します。

第一段階: 深さ分解、Azure Synapseの「多次元宇宙モデル」

コンソールに手を出す前に、Azure Synapseの基礎となる物理世界モデルを頭の中に構築しなければならない。多くの人がそのコンソールに入ると道に迷います。その中には三つの全く異なる「平行宇宙計算力」が併存していることが分かりません。

宇宙一: サーバレスSQLプール (Serverless SQLプール、探索先駆者): これは最もコストを節約し、最も不思議な黒技術である。物理サーバはありません。照会したデータ量で計算します (1 TBは約5ドル)。その唯一の任務は、あなたの手に混乱したCSV、JSON、またはParquetファイルがクラウドに横たわっていることです

保存するときは、テーブルを作成することなく、標準的なSQL文を使ってデータベースを調べるように、これらのファイルを「貫通」して照会することができます。突発的なデータ探索に適しています。

宇宙2: 専用SQLプール (専門SQLプール、主力の重騎兵): これは伝統的な意味での大工場企業クラスのデータウェアハウス (元名Azure SQL DW) である。時間ごとに固定的にお金を受け取る実体クラスタです。標準的なMPP(大規模並列処理) 分散アーキテクチャを採用しており、データが入ってくると60の基盤となるストレージユニットに配布される。会社の中核的な数億件のデータの日常的な固定大報告書を走る必要がある場合、この重騎兵クラスタは全速力で運行し、死死固定の秒レベルの応答を提供する。

宇宙三:一体化されたデータ統合 (Synapse Pipelines、移動煉瓦工): それを内蔵されたAzure Data Factory(ADF) と理解できる。コードを書く必要はありません。ドラッグするだけで、会社の地元の自分の機械室や外部の様々なデータベースから自動的にデータを次々と自動的にこの倉庫に「抽出」する。

大工場の賢いところ: この3つの宇宙は同じインタフェースで完全に通じており、データ共有、計算力が隔離されている。これこそが現代現代化データセンターの天井である。

第二段階: 実戦演習 ― 10分でビルを立ち上げ、現代化のスピードを上げた倉庫を建設する

Azureアカウントを持っていて、基礎ができていることを確認してください

Azure Data Lake Storage Gen2 (データ湖ストレージ)

元のファイルを保存します。

ステップ1: Synapse独立宇宙作業エリア (Workspace) を開く

Azureポータルにログインします。

上の検索バーに「Azure Synapse Analytics」と入力し、クリックしてコアコンソールに入ります。

一番上の「Create」をクリックします。基本情報: あなたのリソースグループを選んで、ワークスペースにsynapse-workspace-prodと名付けて、地域はあなたに一番近いものを選びます (East Asia香港など)。データレイクの指定 (Select Data Lake Storage Gen2): 事前に作成したStorage Accountを選択し、コンテナの名前をraw-dataと指定します。注: この容器は数倉全体の「大後方基地」として、すべてのオリジナルファイルがここに投げられます。

管理者のユーザー名とパスワードを入力し、作成が完了するまで「次へ」をクリックし続けます。

ステップ2: 神の視点テーブル (Synapse Studio) にログインします

作成が完了したら (通常は2分ほどかかります) 、クリックしてこのリソースページに入ります。

真ん中にいます

目立つ明るい青いボタン「Open Synapse Studio」を見た。

躊躇しないで! ページは自動的に独立したsf感のあるデータ世界のワークベンチにジャンプします。大工場のすべてのデータ科学者、BIエンジニアとネット管理者は、毎日このインタフェースで一緒に戦っている。

第三段階: 実戦演習二 -- Serverless SQLで一秒「貫通」して大量のオリジナルファイルを照会する

ここでは、最も現実的な開発シナリオをシミュレートします会社の海外電気商システムは先月数千万本、いくつかのGBが圧縮したグローバルユーザー注文取引ログ (Parquet形式またはCSV形式) を、すべて自動的に私たちのものに投げたばかりです

Raw-data

データレイク容器に入っています。

現在、製品マネージャは「先月、世界的に消費金額が最も高い上位10人の土豪ユーザーは誰ですか?」と急いで見ている。

以前のやり方では、表を作ったり、コードを書いたり、ETLを書いたりして、この数千万件のデータをデータベースにインポートして、長い間苦労しなければならない。Synapseの前では

Serverless SQL

極限電撃戦をします。

Synapse Studioインターフェースの左侧にある「Data」 (データ) アイコンをクリックします。

「リンクされた」タブに切り替えて、Data Lakeストレージアカウントを展開し、注文ファイルを格納するフォルダを見つけます。

黒科学技術を目撃した瞬間: その大きな注文ファイルを右クリックし、「New SQL script」-> 「Select TOP 100 rows」を選択します。

奇跡的なSQL文が自動的に生成されます。私たちはそれを少し変えて、製品マネージャが必要とする核心的な論理を直接書いた

上部をクリックしてください

「Run」 (実行)

。

バックエンドのServerless計算力が瞬時にその場で爆発し、インデックスを必要とせず、直接データ湖で分散したファイルをすべてスキャンして読み取る。わずか数秒後、下のResultsウィンドウには、その10人の土豪ユーザーのIDと消費総額がきちんと飛び出した。

製品マネージャーを引っ張って、スクリーンを彼に見せて、全過程は苦労しない、これが雲の原始的な現代化のスピードである。

第四段階: 大工場級高合併構造でのピット血涙歴

この完全にホストされた大規模なデータセンターは、飛び上がるほど爽快になって、基礎的な分散の複雑さを解消するのに役立ちます。しかし、本当に厳しいビジネス大流量、高合併レポートの戦場で安定して生きて、最高のデータ設計者として、コンピューターを閉じる前にすぐに行政命令を出して、次の二つの見えない大きな穴を溶接しなければならない

1. 致命的な「Serverless SQL盲目的スキャン」による財務惨劇

前述したように、Serverless SQLは非常に便利で、起動する必要はありません

機械は、照会したデータ量で計算する (1 TBあたり約5ドル)。

災害発生: もしあなたの会社が初級開発や運営を持っていて、非常に規範的でない照会文を書いた場合 (例えば、時間範囲の制限がない、SELECT * ファジーマッチを使って全面的にスキャンするなど) そして、このクエリを5分ごとに自動的にトリガーされる循環スクリプトに詰め込んだ。毎回数百GBのオリジナルログを狂ったようにスキャンしているので、数日後、このServerless SQLのスキャン料金の請求書は数千ドルを簡単に焼くことができ、財務は直接ナイフを持ってあなたを探しに来ます。

設計者の標準的な死を免除する金メダルの配置:物理制限速度ロック: Synapse Studioで「Manage」 (管理) -> 「SQL pools」をクリックします。Serverless SQLプールを制御する組み込み設定をクリックして、「Daily/Weekly/Monthly data processed limits」 (毎日/毎週/毎月の最大データ処理量制限) を強制的に設定します。例えば、1日に最大2 TBしかスキャンできないと設定します。ごみコードや死循環スクリプトが基準を超えた場合、システムは1秒で容赦なく問い合わせを断ち切ってエラーを報告し、会社の資金の大皿を死守する。

2.専用SQLプールで「従来の行レベルの乱れ」 (Row-by-Row Updates) を狂ったように使用することは厳禁です

開通したら

専門SQLプール

コア数倉を作るとき、あなたのコード習慣は徹底的に「小さなワークショップ」の思考から「分散」の思考に変えなければならない。

内部者露出: SQL Server/MySQLなどの従来のリレーショナルデータベースでは、UPDATE my _ table SET status = 1 WHERE id = 123; を選択します。しかしSynapseの分散アーキテクチャでは、データは60のストレージノードに分散されて配布されている。コードやETLプロセスで、このような単一のレコードのUpdateやInsertをループで実行すると基礎的な分散協調脳 (Control Node) は、頻繁なロックテーブルとネットワーク同期のために完全に脳死し、逆に単体データベースよりも100倍遅くなる!

ハードコア補強規範: 永遠に「大量に全代で修理する」という流派(Bulk Load) を採用する。データを更新する必要がある場合は、常に高配合のPolyBaseまたはCOPYコマンドを使用して、数万本の新しいデータを脳、ロット (Bulk) を一時的なセグメントテーブル (Staging Table) に打ち込む。そして、きれいで純粋な集合指向の文で一括独占または合併を行う。分散クラスタの食欲に応じてコードを書くと、本当の秒レベルの応答が報われます。

総

結び

Azure Synapse Analyticsを利用して企業レベルの現代化データウェアハウスを迅速に設置し、コアの工業レベルの真髄は実際には16文字に簡略化されている

計算力の分流、貫通探索、総量のロック、大量の飲み込み

。

あなたは過去におじいさんに別れを告げて、おばあちゃんに異なるシステムのデータを求めて、大きなレポートを走らせてオンラインシステムを殺すのを恐れて、毎日仮想マシンのメモリのために髪をこぼした原始的な苦海を求めている。最も重い大量の計算力をすべて、マイクロソフトの百億ドルで作られた分散MPPクラウドの原生脳に完全にホストしている。パソコンの前に座って、優雅に美しいデータの大皿を開いて、何億ものデータが瞬く間におとなしくしているのを淡々と見て、これが現代現代化データ時代の設計者の最も優雅な姿勢である。