阿里雲サーバECSがダウンしたらどうしますかスナップショット、ミラーリング、空き領域間の移行リカバリの全攻略
クラウドコンピューティングの実際の運営では、クラウドプラットフォームは非常に安定しているにもかかわらずしかし、地震や電力の故障などの不可抗力による「シングルゾーン (AZ) の中断」は依然としてアーキテクチャ設計で考慮しなければならないリスクである。コストを考慮して「同城双活」や「オフサイト多活」を展開していない業務については、一連のことを把握する
高速データバックアップと空き領域間の移行
緊急案は、業務の継続性を保障する最後の防御線である。
この記事では、スナップショット、ミラーリング、sc移行プラットフォームに基づくビジネスリカバリ技術案を整理します。
一、核心的な災害状況と技術手段
障害の深さによっては、通常、次の3つの次元のリカバリ・ポリシーを使用します
回復ポリシー
技術原理
適用シーン
クラウドデータのトレースバック
ECSベースのスナップショット。スナップショットをロールバックするか、スナップショットをマウントして作成した新しいディスクを特定の時点に復元します。
データが誤って削除され、脅迫ウイルス、データベース論理エラーに遭遇した。
システム環境の再構築
カスタムミラーに基づいています。インスタンスを完全にパッケージ化し、オペレーティングシステムとプリインストールされた環境を迅速に復元します。
システムがクラッシュし、構成が破壊され、完全に一貫した実行環境を一括クローンする必要がある。
使用可能エリア間のパン
Sc (移行センター) を利用します。インスタンスとその関連リソースを全体的に同じ地域の他の空き領域にコピーします。
使用可能なゾーン全体に物理的な障害 (停電、ネットワークの中断など) が発生した場合の全体的な脱出。
二、方案一: クラウドレベルのデータ回復 (スナップショット技術)
スナップショットは、クラウド上で最も基本的で効率的なデータ保護手段です。
1.バックアップポリシー
手動バックアップ: 重要なシステム更新またはアプリケーションリリースを行う前に、システムディスクとデータディスクのスナップショットを手動で作成します。
ポリシー・バックアップ: 「自動スナップショット・ポリシー」を使用して、毎日午前中のバックアップ、7日間のバックアップなどの保存サイクルを構成し、無人バックアップを実現します。
一括バックアップ: オペレーション編成 (OOS) を利用して、ワンクリックで数百台のインスタンスを同時にスナップショットします。
2.実戦回復
その場でのロールバック: インスタンスがまだ存在している場合は、「クラウドディスクのロールバック」を直接実行し、データをスナップショットポイントに瞬時に復元します。
区間マウント: 現在の空きエリアAが使用できない場合は、空きエリアBでこのスナップショットを使用して新しいクラウドディスクを作成し、エリアBの新しいインスタンスにマウントして、オフサイトのデータ抽出を実現できます。
三、方案二: 環境レベルのワンクリック還元 (ミラー技術)
ミラーには、データだけでなく、オペレーティングシステムの構成、環境変数、ソフトウェアライセンスも含まれています。
ミラー作成: ビジネス環境の初期化が完了したら、すぐにインスタンスからカスタムミラーを作成することをお勧めします。
環境クローン: 元のインスタンスシステムが不正な侵入や環境汚染で起動できない場合、このイメージを使用してインスタンスを再購入すると、ソフトウェアを再インストールする必要がなく、「すぐに使える」ことが保証されます。
クロスゾーン配置: カスタムミラーは地域レベルのリソースで、同じ地域の任意の利用可能な地域で新しいインスタンスを直接引き出すことができます。
四、方案三: 全体的な避難 (scが利用可能エリアを越えて移動する)
使用可能なゾーンで大面積の障害が発生し、短期的に回復できないことが確認された場合は、サーバ移行センター (SMC) を使用して行います
全体的な移行が最適な経路である。
1.移行原理
SMCは、基盤となるブロックストレージの区間レプリケーション機能を呼び出します。データを移行するだけでなく、インスタンスの仕様属性も同期します。
2.移行プロセス
環境準備: ターゲットの空き領域に十分なリソース (vCPU、メモリシェア) があることを確認し、RAMライセンスとスナップショットサービスを有効にします。
タスクの作成: scコンソールで「空き領域間の移行」を選択し、ターゲット空き領域と新しいスイッチ (VPC) を指定します。
スムーズな切り替え: scはバックエンドのブロックストレージデータ同期を自動的に完了します。注意: 移行によってインスタンスが再起動し、プライベートIPが変更されます。アプリケーションコードまたは負荷分散 (SLB) には、デッドアドレスではなく動的ドメイン名がバインドされていることを確認してください。
五、故障訓練: 災害の有効性をどのように検証しますか?
「練習したことのない災害復旧案はすべて偽案である」。定期的に以下の模擬テストを実施することを推奨します。
クラウドディスク破損演習: 一部のデータを手動で削除し、スナップショットを介して100% ステータスにロールバックするのにかかる時間 (RTO) をテストします。
環境異常演習: シミュレーションシステムのコアファイルが破損し、ミラーリングでシステムを再インストールし、業務が自動的に引き上げられるかどうかを検証する。
Sc模擬脱出: 業務のピーク期に利用可能な地域間の移行を実行し、パブリックネットワーク/プライベートネットワークIPの変更が上下流業務に与える影響を記録し、切り替えプロセスを最適化する。
まとめ
災害復旧の要求が低い、またはコストに敏感な業務に対して、「スナップショット・サイクル・バックアップ + ミラーリング環境バックアップ + SMC緊急移行」は最もコストパフォーマンスの高い案である。サーバの運用コストを2倍にする必要はありませんが、危機的な時点で信頼できるビジネスリカバリ手段を提供します。

