Il miracolo di un computer antico: come fa SAPO a raggiungere la tolleranza agli errori?

La tolleranza ai guasti si riferisce alla capacità di un sistema di mantenere il normale funzionamento anche quando determinati componenti si guastano o non funzionano correttamente. Questa funzionalità è essenziale per i sistemi ad alta disponibilità, mission-critical e persino life-critical. La tolleranza agli errori si riferisce specificamente al fatto che il sistema non subisce alcun degrado o tempo di inattività quando si verifica un errore. Quando si verifica un errore, l'utente finale non è a conoscenza di alcun problema. Al contrario, un sistema che presenta errori ma ha ancora servizi in esecuzione è chiamato "sistema resiliente". Tale sistema può adattarsi al verificarsi di errori e mantenere i servizi ma mostra determinati impatti sulle prestazioni.

La tolleranza agli errori viene utilizzata specificamente per descrivere i sistemi informatici che garantiscono che il sistema complessivo continui a funzionare anche se si verificano problemi hardware o software.

Nella storia dello sviluppo dei computer, il primo computer con tolleranza agli errori è stato il SAPO costruito da Antonín Svoboda in Cecoslovacchia nel 1951. Il progetto di base del computer era implementato come un tamburo magnetico a filo avvolto e utilizzava un metodo di voto per il rilevamento degli errori di memoria, una tecnica nota come ridondanza tripla modulare. Con il passare dei tempi furono sviluppati molti altri dispositivi simili, soprattutto per scopi militari. Successivamente emersero gradualmente tre tipi di opzioni: quei computer che possono funzionare a lungo senza richiedere alcuna manutenzione, come i computer per l'esplorazione spaziale e i computer satellitari della NAASA; che sono molto affidabili ma richiedono un monitoraggio costante, come quelli utilizzati per monitorare e controllare le centrali nucleari o gli esperimenti sui superconduttori; e i computer che operano sotto carichi pesanti, come i numerosi supercomputer utilizzati per il monitoraggio probabilistico dalle compagnie di assicurazione;

L'evoluzione della tolleranza agli errori

Molte ricerche sui cosiddetti computer LLNM (lunga durata, senza manutenzione) condotte dalla NASA negli anni '60 hanno aperto la strada alle future missioni spaziali. Questi computer supportano metodi di ripristino della memoria tramite l'uso di array di memoria di backup, come il computer JSTAR, che può rilevare e riparare automaticamente gli errori o abilitare moduli ridondanti. Questi computer continuano a funzionare oggi.

I progetti precedenti tendevano a concentrarsi sulla diagnostica interna, in cui i guasti potevano essere scoperti e sostituiti da professionisti.

Tuttavia, i progetti successivi hanno dimostrato la necessità che i sistemi fossero in grado di autoripararsi e diagnosticarsi, in grado di isolare i guasti ed eseguire backup ridondanti quando si verificavano guasti. Questo è fondamentale per implementare sistemi informatici ad alta disponibilità.

Ampio utilizzo della tecnologia di tolleranza agli errori

Ad esempio, alcuni sistemi hardware con tolleranza agli errori richiedono la rimozione e la sostituzione dei componenti danneggiati mentre il sistema è in funzione, operazione denominata "hot swapping". Tali sistemi di solito hanno un singolo backup, chiamato singolo punto di tolleranza, e la maggior parte dei sistemi tolleranti ai guasti rientra in questa categoria. Le tecniche di tolleranza agli errori hanno ottenuto un notevole successo nelle applicazioni informatiche.

Tandem Computer si basa su questo e ha creato il sistema NonStop per il calcolo del tempo di esecuzione annuale.

Oltre all'hardware, la tolleranza agli errori può riflettersi anche nel software del computer, come la progettazione perfetta della replica dei processi e dei formati dei dati, in modo che possano degradarsi senza problemi. L'HTML è un tipico esempio, poiché consente ai browser Web di ignorare entità HTML nuove e non supportate senza compromettere l'usabilità del documento complessivo. Disegni simili compaiono anche in molti siti Web popolari, che forniscono interfacce leggere in Deepin per mantenere un'ampia accessibilità.

Considerazioni sulla progettazione per sistemi tolleranti agli errori

L'implementazione di una progettazione con tolleranza agli errori non è sempre un'opzione pratica perché la ridondanza associata introduce problemi come aumento di peso, costi e tempi di progettazione. Pertanto, i progettisti devono considerare attentamente quali componenti richiedono capacità di tolleranza ai guasti.

Ogni componente deve essere valutato attentamente in termini di probabilità di guasto, criticità e costo.

Ad esempio, la radio di un'auto, sebbene non sia un componente critico, ha un'importanza relativamente bassa, mentre un sistema di ritenuta degli occupanti (come una cintura di sicurezza) è considerato necessario a causa della sua funzione fondamentale di fornire sicurezza in caso di incidente progetto.

Le caratteristiche di base di un sistema tollerante ai guasti includono: nessun singolo punto di guasto; la capacità di isolare i componenti difettosi e la necessità di ripristino dei guasti, che solitamente richiede la classificazione e la definizione dei guasti del sistema.

Fine dei pensieri

Di fronte a un mondo tecnologico sempre più complesso, la progettazione tollerante ai guasti può davvero proteggere i vari sistemi nella nostra vita quotidiana e permetterci di evitare pericoli inutili nelle nostre future vite high-tech?

Trending Knowledge

Innovazioni sorprendenti nella tecnologia aerospaziale: in che modo la NASA garantisce il funzionamento delle sonde spaziali?
Nel processo di esplorazione spaziale, la stabilità e l'affidabilità del sistema sono le chiavi del successo. La NASA tiene in grande considerazione la tecnologia di tolleranza ai guasti quando proget
La verità sui guasti dei computer: perché alcuni sistemi continuano a funzionare nonostante i guasti?
Nell'ambiente tecnologico odierno, la tolleranza ai guasti è considerata una capacità importante per un sistema per mantenere il normale funzionamento, specialmente in alta disponibilità ed esecuzione
Il segreto della tolleranza agli errori: perché è così importante per le nostre vite?
Nella nostra vita quotidiana, che si tratti di utilizzare computer, telefoni cellulari o grandi apparecchiature, l'esistenza della tolleranza agli errori è spesso un elemento fondamentale di

Responses