耐障害性とは、特定のコンポーネントに障害が発生したり誤動作したりした場合でも、システムが通常の動作を維持できる能力を指します。この機能は、高可用性システム、ミッションクリティカルなシステム、さらにはライフクリティカルなシステムにとっても不可欠です。フォールト トレランスとは、特に、エラーが発生したときにシステムの性能低下やダウンタイムが発生しないことを指します。エラーが発生しても、エンド ユーザーは問題に気づきません。対照的に、エラーが発生してもサービスが実行されているシステムは、エラーの発生に適応してサービスを維持できますが、パフォーマンスに一定の影響を与えるシステムを「回復力のあるシステム」と呼びます。
フォールト トレランスは、ハードウェアまたはソフトウェアに問題が発生した場合でもシステム全体が機能し続けることを保証するコンピューター システムを記述するために特に使用されます。
コンピュータ開発の歴史において、最も初期のフォールト トレラント コンピュータは、1951 年にチェコスロバキアの Antonín Svoboda によって構築された SAPO でした。このコンピュータの基本設計は、ワイヤーを巻いた磁気ドラムとして実装され、メモリ エラー検出に投票方式 (トリプル モジュール冗長性として知られる技術) を採用しました。時代が進むにつれて、主に軍事目的で他の多くの同様の装置が開発され、その後、次の 3 種類のオプションが徐々に登場しました。NASA の宇宙探査コンピューターや衛星コンピューターなど、メンテナンスを必要とせずに長期間稼働するコンピューターです。原子力発電所や超電導実験の監視と制御に使用されるコンピューターなど、信頼性は非常に高いものの継続的な監視が必要なコンピューター、および保険会社が確率論的な監視に使用する多くのスーパーコンピューターなど、高負荷で動作するコンピューターです。
1960 年代に NASA によって実施された、いわゆる LLNM (ロングライフ、メンテナンス不要) コンピューターに関する多くの研究が、将来の宇宙ミッションへの道を切り開きました。これらのコンピュータは、JSTAR コンピュータなどのバックアップ メモリ アレイを使用したメモリ回復方法をサポートしており、エラーを自己検出して修復したり、冗長モジュールを有効にしたりできます。これらのコンピューターは現在も稼働し続けています。
過去の設計では、専門家が故障を発見して交換できる内部診断に重点を置く傾向がありました。
しかし、その後の設計では、システムが自己修復機能と診断機能を備え、障害発生時に障害を分離して冗長バックアップを実行できる必要があることが実証されました。これは、高可用性コンピューティング システムを実装するために重要です。
たとえば、一部のハードウェア フォールト トレラント システムでは、システムの実行中に損傷したコンポーネントを取り外して交換する必要があります。これは「ホット スワップ」と呼ばれます。このようなシステムには通常、シングル ポイント オブ トレランスと呼ばれる単一のバックアップがあり、ほとんどの耐障害性システムがこのカテゴリに分類されます。フォールトトレラント技術は、コンピュータ アプリケーションにおいて目覚ましい成功を収めてきました。
Tandem Computer はこれに基づいて、年間稼働時間計算のための NonStop システムを確立しました。
ハードウェアに加えて、フォールト トレランスは、プロセス レプリケーションやデータ形式の完璧な設計など、コンピュータ ソフトウェアにも反映され、正常に機能を低下させることができます。 HTML はその典型的な例であり、Web ブラウザーはドキュメント全体の使いやすさに影響を与えることなく、新しいサポートされていない HTML エンティティを無視できます。同様のデザインは、幅広いアクセシビリティを維持するために Deepin で軽量のインターフェイスを提供する多くの人気 Web サイトでも見られます。
フォールト トレラント設計の実装は、関連する冗長性によって重量、コスト、設計時間の増加などの問題が生じるため、必ずしも現実的な選択肢であるとは限りません。したがって、設計者は、どのコンポーネントにフォールト トレランス機能が必要かを慎重に検討する必要があります。
各コンポーネントは、障害の可能性、重要性、コストについて慎重に評価する必要があります。
たとえば、自動車のラジオは、重要なコンポーネントではありませんが、重要性は比較的低いですが、乗員拘束システム (シートベルトなど) は、事故時に安全を確保するという重要な機能があるため、必須であると考えられています。デザイン。
フォールト トレラント システムの基本的な特徴には、単一障害点がないこと、障害のあるコンポーネントを分離する機能、および通常はシステム障害の分類と定義が必要である障害回復の必要性が含まれます。
ますます複雑化するテクノロジーの世界に直面して、フォールトトレラントな設計は私たちの日常生活のさまざまなシステムを真に保護し、将来のハイテク生活において不必要な危険を回避できるのでしょうか?