マイクロソフトのクラウドは、機械室のダウンタイムを恐れていない突発的な事件: Azure siterecoveryを利用して高可用性災害対策プログラムを構築する
IT圏では、「世界には2種類のサーバしかなく、1つはすでにダウンしているもう一つはダウンに向かっている。」と言いました
地元の機械室が突然豪雨で浸水したり、壊滅的な物理的停電があったり、クラウドのある地域が珍しい極端な天気に遭遇したりしても、コア業務システムが数時間停止すると企業にもたらす直接経済損失とブランド信頼危機は往々にして壊滅的である。過去には、機械室を越えた「オフサイトの多活」や「ホットスペア災害」環境を構築するだけでなく、何百万ものハードウェアやレンタル専用線を買う必要があった巨大な専門家チームを備えて毎日メンテナンスします。
しかし、クラウドの原始時代に、マイクロソフトのクラウドは「次元を下げる打撃」と呼ばれる災害の神器を提供しました。
Azure siterecovery (ASR)
。ローカルの物理マシン、VMware/Hyper-V仮想マシン、さらには他のパブリッククラウドのサーバを
非常に低コストの秒レベルでAzureクラウドにコピーします
。今日のこの深いチュートリアルは、標準的なAVS/ローカルからAzureへの高可用性災害復旧アーキテクチャを構築し、どのようにするかを教えてくれます
ゼロ業務中断の真銃実弾災害訓練
。
一、核心概念: ASRとは何ですか?RPOとRTOはどう計算しますか?
手を出す前に、災害対策の設計者は、まず二つのハードコア指標を握らなければならない。これも上司が最も関心を持っている二つの問題である
RPO (リカバリポイント目標、Recovery Point Objective): 簡単に言えば、データをどれだけ廃棄できるかということです。ASRが5分ごとにデータを同期すると、最悪の場合、5分の最新の注文データを失う可能性があります。
RTO (リカバリ時間目標、Recovery Time Objective): 簡単に言えば、コアルームがハングアップした後、Azureでバックアップマシンを起動するのにどれくらいの時間がかかるか。1分か10分か半日か。
Azure siterecoveryのタフな点は、それを利用したことです
軽量連続コピー技術
。普段は、マスターノードの増分的に変更されたディスク・ブロックだけを、Azureのストレージ・アカウントに暗号化して転送しています (この場合、クラウドは仮想マシンを開かず、ディスク・データだけを受け取るため)。
普段はほとんどお金を使わない
) 大災害が発生すると、クラウドでこれらのディスクを新しい仮想マシンに瞬時にマウントし、ビジネスを引き継ぎ、実現します
RPOは分級で、RTOは十数分以内です。
の企業レベルの究極の表現。
二、核心構造設計: 災害を許す「三台馬車」
完全なASR災害対策プログラムは、次の3つのコアプレートで構成する必要があります
ソース環境 (Source): コアビジネスを実行しています
の場所 (ローカルVMware環境、物理マシン、または別のAzureゾーン)。
Recovery Services Vault (Recovery Services Vault): Azureクラウドのベースキャンプ。すべてのレプリケーション・ポリシーを管理し、暗号化されたディスク・データを格納し、困難な場合に「起動コマンド」を発行します。
独立した演習ネットワーク (Test VNet): 多くの人が災害を許す演習をしているのは「芝居をする」ことを恐れ、生産環境のIPを衝突させた。私たちはAzureで普段は完全に孤立しているが、イントラネットセグメントと本番環境がそっくりなテストネットワークを計画し、演習に特化して使用する必要がある。
三、第一段階: Azure側で災害を許す本営地を初期化する
まず、Azureポータルにログインし、上の検索欄に入力します
「復旧サービス保管庫」
(Recovery Services Vaults) をクリックし、「作成」をクリックします。
1.保管庫の作成
リソースグループ: DR-Framework-RGなどの専用の災害復旧リソースグループを作成することをお勧めします。
名称: 大きな名前をつけます。例えば、べべ-to-Azure-Vaultです。
エリア: 極めて重要です。ソースルームとは異なる地理的な場所から独立したAzureゾーンを選択する必要があります。例えば、あなたの業務は香港で、災害を許す本営地はシンガポールに選ぶことができる。
2.インフラストラクチャの準備の構成 (Azure仮想マシンまたはローカル環境のコピーを例にとると)
作成した保管庫に入り、左側のメニューで見つけます。
「Siterecovery」
-> クリック
「インフラストラクチャーの準備」
。
あなたのマシンはどこにありますか?AzureやVMwareなどのソース側を選択します。
どこにコピーしますか?「Azureへ」を選択します。
構成ソフトウェアの導入 (ローカル環境向け): ローカル・ルームの移行の場合、ASRはASRレプリケーション・デバイス (OVAテンプレート) をダウンロードしてローカルに導入するよう求められます。これは「引っ越し隊長」のようなもので、ローカルのディスクデータを暗号化、圧縮、脱感作した後、Azureに安全に配達する責任がある。
四、第二段階: 保護対象の「狂気のコピー」を開く
インフラが通じた後、私たちはどのコア仮想マシンがこの「防弾チョッキ」を着る必要があるかを選ぶ。
保管庫で「 + レプリケーション」をクリックします。
ソース仮想マシンの選択: コアWebサーバまたはデータベースサーバ (Prod-DB-01など) をチェックします。
ターゲット設定: ターゲットリソースグループ: 災害が発生したとき、クラウドマシンはどこに建設されていますか?事前に準備したリソースグループを選択します。ターゲットネットワーク (VNet): クラウドの生産を選択します
ネットワーク (真の災害時に引き継ぐため)。テストネットワーク (Test VNet) :( ポイント!) を参照してください私たちが先に述べた孤立したテストネットワークを選びます。
レプリケーション・ポリシー: クラッシュ・整合性リカバリ・ポイントとアプリケーション・整合性リカバリ・ポイントの保持時間を設定します (通常はデフォルトの24時間のままでよい)。アプリケーションの整合性: ASRはWindowsのVSS技術やLinuxの一時停止スクリプトを利用して、メモリ内のデータを安全に落としてからコピーしますこれは、SQL Server/Oracleなどのデータベースにとって重要です。
「コピーを有効にする」をクリックします。次に、システムは最初の「フル初期化同期」を行います (時間はローカル帯域幅とディスク・サイズによって異なります)。リストにステータスが表示されると
「保護されている」
緑の健康に合わせて、災害を許す本営地が正式に完成しました。
五、第三段階: 実戦演習 ― ゼロ中断の「軍事演習」
災害対策案があって練習しないのは、保険を買って請求電話を知らないことに等しい。ASRの最も偉大な発明はサポートです。
「テストフェイルオーバー」
。ローカルの本番環境の正常な動作に影響を与えず、オンラインのお客様のアクセスを中断することなく、クラウドで完全な機械室の引き継ぎをシミュレートすることができます。
演習操作フロー:
AVS/ASR仮想マシンのリストに入り、保護されているデータベース仮想マシンを選択します。
上部にある「テストフェイルオーバー」をクリックします。
リカバリポイントを選択: 「最新の処理」または「最新のアプリケーションの整合性」ポイントを選択します。
テストネットワーク: 隔離されたテストVNetを選択する必要があります。
「Ok」をクリックします。ASRは、クラウドでストレージアカウントのディスク・イメージを黙々とコピーし、数分以内に同じ仮想マシンを作成します。
検証結果: クラウドで「復活」したばかりのテスト仮想マシンにログインし、データベースサービスが正常に起動しているかどうかをチェックし、データが破損していないかどうかをチェックします。
ワンクリックでクリーンアップ: 演習が終わったら、「テストフェイルオーバーをクリア」をクリックします。あなたの演習ログ (「演習成功、RTO 8分」など) を書いて、Azureは演習で発生した一時的な仮想マシンとディスクを瞬時に破棄して、無駄なお金を使わないようにします。
六、究極のピットガイドと生産調整
ASRを生産環境にプッシュするとき、上級設計者は次の詳細に注意します
ダイナミックディスク・アウトプット: ASRは、単一ディスク・ディスクの1秒あたりの書き込み量 (スループット) に上限があります。もしあなたのデータベースが超高同時の巨大な飲み込みモンスターであれば、データベースを
SQL Serverのtempdbなどの一時的なログディスクは、レプリケーション・リストから除外され、コア・データ・ディスクのみがレプリケートされます。これにより、ASRのスループット上限を超えないようにするだけでなく、多額のネットワークトラフィック料金を節約することができる。
リカバリ・プラン (Recovery Plans) の編成: 実際のビジネスには、多くのマシン (フロントエンド、バックエンド、データベース) が含まれています。本当に大変なダウンタイムになったら、むやみに電源を入れてはいけない。ASRの「リカバリ計画」機能を利用して、スクリプトを書くことができます。ステップ1はまず基礎データベースを開き、ステップ2は3分間データベースのヘルスチェックが通過するのを待って、ステップ3はフロントエンドWebマシンを開きます。これにより、全自動化されたワンクリック・システムの復活を実現できます。
まとめ
クラウドコンピューティングがない前に、災害を許すのはトップ金融大手と多国籍大工場だけが遊べる「贅沢品」です。Azure siterecoveryの出現は、この高い技術を完全に民間レベルに引き上げた。
普段は、非常に安価なディスクストレージと基礎ライセンス料を支払うだけです本当の機械室の発火、停電、ハッカーの脅迫などの突発的な災害に直面した場合、事前に編成された回復計画を通じて十数分以内に、会社全体のIT資産をクラウドで安全に再生することができます。これは現代のクラウドアーキテクチャが各企業に最もハードコアな「安心感」を与えていることである。
