Le miracle des ordinateurs anciens : comment SAPO atteint-il la tolérance aux pannes ? 

La tolérance aux pannes fait référence à la capacité d'un système à maintenir un fonctionnement normal même lorsque certains composants tombent en panne ou fonctionnent mal. Cette capacité est essentielle pour les systèmes à haute disponibilité, critiques pour la mission et même pour la vie. La tolérance aux pannes fait spécifiquement référence au système qui ne subit aucune dégradation ou temps d'arrêt lorsqu'une erreur se produit. Lorsqu’une erreur se produit, l’utilisateur final n’a connaissance d’aucun problème. En revanche, un système qui rencontre des erreurs mais dont les services sont toujours en cours d'exécution est appelé « système résilient ». Un tel système peut s'adapter à l'apparition d'erreurs et maintenir les services mais présente certains impacts sur les performances.

La tolérance aux pannes est spécifiquement utilisée pour décrire les systèmes informatiques qui garantissent que l'ensemble du système continue de fonctionner même en cas de problèmes matériels ou logiciels.

Dans l'histoire du développement informatique, le premier ordinateur tolérant aux pannes était le SAPO construit par Antonín Svoboda en Tchécoslovaquie en 1951. La conception de base de l'ordinateur a été mise en œuvre sous la forme d'un tambour magnétique enroulé et a utilisé une méthode de vote pour la détection des erreurs de mémoire, une technique connue sous le nom de redondance triple modulaire. Au fil du temps, de nombreux autres appareils similaires ont été développés, principalement à des fins militaires. Plus tard, trois types d'options ont progressivement émergé : les ordinateurs qui peuvent fonctionner longtemps sans nécessiter aucune maintenance, comme les ordinateurs et les satellites d'exploration spatiale de la NAASA ; qui sont très fiables mais nécessitent une surveillance constante, comme ceux utilisés pour surveiller et contrôler les centrales nucléaires ou les expériences sur les supraconducteurs ; et les ordinateurs qui fonctionnent sous de lourdes charges, comme les nombreux supercalculateurs utilisés pour la surveillance probabiliste par les compagnies d'assurance ;

L'évolution de la tolérance aux pannes

De nombreuses recherches sur les ordinateurs dits LLNM (long life, no maintenance) menées par la NASA dans les années 1960 ont ouvert la voie à de futures missions spatiales. Ces ordinateurs prennent en charge les méthodes de récupération de mémoire grâce à l'utilisation de matrices de mémoire de sauvegarde, telles que l'ordinateur JSTAR, qui peuvent détecter et réparer automatiquement les erreurs ou activer des modules redondants. Ces ordinateurs continuent de fonctionner aujourd'hui.

Les conceptions précédentes avaient tendance à se concentrer sur les diagnostics internes, où les défauts pouvaient être découverts et remplacés par des professionnels.

Cependant, des conceptions ultérieures ont démontré la nécessité pour les systèmes d'être auto-réparateurs et diagnostiques, capables d'isoler les pannes et d'effectuer des sauvegardes redondantes en cas de pannes. Ceci est essentiel pour la mise en œuvre de systèmes informatiques à haute disponibilité.

Utilisation étendue de la technologie de tolérance aux pannes

Par exemple, certains systèmes matériels tolérants aux pannes nécessitent que les composants endommagés soient retirés et remplacés pendant que le système est en cours d'exécution, ce qui est appelé « échange à chaud ». De tels systèmes disposent généralement d'une seule sauvegarde, appelée point de tolérance unique, et la plupart des systèmes tolérants aux pannes entrent dans cette catégorie. Les techniques de tolérance aux pannes ont connu un succès remarquable dans les applications informatiques.

Tandem Computer s'est basé sur cela et a établi le système NonStop pour le calcul annuel de la durée de fonctionnement.

En plus du matériel, la tolérance aux pannes peut également se refléter dans les logiciels informatiques, comme la conception parfaite de la réplication des processus et des formats de données, afin qu'ils puissent se dégrader progressivement. HTML est un exemple typique, permettant aux navigateurs Web d'ignorer les entités HTML nouvelles et non prises en charge sans affecter la convivialité du document dans son ensemble. Des conceptions similaires apparaissent également sur de nombreux sites Web populaires, qui fournissent des interfaces légères dans Deepin afin de maintenir une large accessibilité.

Considérations de conception pour les systèmes tolérants aux pannes

La mise en œuvre d'une conception tolérante aux pannes n'est pas toujours une option pratique car la redondance associée introduit des problèmes tels qu'une augmentation du poids, du coût et du temps de conception. Par conséquent, les concepteurs doivent soigneusement déterminer quels composants nécessitent des capacités de tolérance aux pannes.

Chaque composant doit être soigneusement évalué en fonction de sa probabilité de défaillance, de sa criticité et de son coût.

Par exemple, la radio d'une voiture, bien qu'elle ne soit pas un composant essentiel, est d'une importance relativement faible, alors qu'un système de retenue des occupants (comme une ceinture de sécurité) est considéré comme nécessaire en raison de sa fonction essentielle de sécurité en cas d'accident. conception.

Les caractéristiques de base d'un système tolérant aux pannes incluent : l'absence de point de défaillance unique ; la capacité à isoler les composants défectueux et la nécessité d'une récupération après panne, qui nécessite généralement la classification et la définition des pannes du système.

Fin des pensées

Face à un monde technologique de plus en plus complexe, la conception tolérante aux pannes peut-elle véritablement protéger les différents systèmes de notre vie quotidienne et nous permettre d'éviter les dangers inutiles dans nos futures vies high-tech ?

Trending Knowledge

Innovation étonnante dans la technologie spatiale : comment la NASA assure-t-elle le fonctionnement des sondes spatiales ?
Dans le processus d’exploration spatiale, la stabilité et la fiabilité du système sont les clés du succès. La NASA prend pleinement en compte la technologie de tolérance aux pannes lors de la concepti
La vérité sur les pannes informatiques : pourquoi certains systèmes continuent-ils à fonctionner malgré les pannes ?
Dans l'environnement technologique actuel, la tolérance aux pannes est considérée comme une capacité importante pour qu'un système puisse maintenir un fonctionnement normal, en particulier en cas de h
Le secret de la tolérance aux pannes : pourquoi est-elle si importante dans nos vies ?
Dans notre vie quotidienne, que nous utilisions des ordinateurs, des téléphones portables ou que nous utilisions de gros équipements, l’existence de la tolérance aux pannes est souvent une pi

Responses