Zumindest in Flugzeugen sind die wirklich kritischen Computer redundant. Typischerweise laufen drei identische Kopien der Autopilot-Computer parallel und vergleichen die Ergebnisse; Wenn ein Computer mit den anderen beiden nicht übereinstimmt, wird seine Ausgabe ignoriert. Das System lässt zu, dass einige Prozessoren fehlerhaft sind, während es den Betrieb des Gesamtsystems aufrechterhält.
Aber warum? Ich habe noch nie von Mikroprozessoren gehört, die plötzlich ausfallen. Sicher, es könnte Herstellungsfehler geben, aber diese wären im Werk aufgefallen. Vielleicht ist das Programm (und sein Beweis) falsch, aber es wäre auf die gleiche Weise über die Prozessoren hinweg falsch. In ähnlicher Weise würde eine schlechte Eingabe eine schlechte Ausgabe auf allen drei Computern verursachen. Vor welcher Art von Fehlern schützt diese Redundanz? Rechnen Mikroprozessoren manchmal einfach falsch?
Wenn ein Mikroprozessor überhitzt oder überlastet ist und spontan ausfällt, würde ich erwarten, dass er aufhört, irgendetwas zu tun, und keine Ausgabe erzeugt. Um mit dieser Art von Fehlern fertig zu werden, würden Sie einen Backup-Prozessor haben wollen, aber Sie müssten nicht die Ausgaben von drei Computern vergleichen – jede erzeugte Ausgabe würde als korrekt angesehen, also würden Sie den gerne direkt verwenden Ausgabe jedes Prozessors, der eine Ausgabe produzierte.
Siehe auch: Die Antwort auf Was ist der Zweck mehrerer Autopiloten? sagt einfach "Redundanz", bevor Sie darauf eingehen, wie dies erreicht wird.
Zu berücksichtigende Ausfallarten:
Es ist wichtig zu erkennen, dass Sie in digitalen Hochgeschwindigkeitssystemen keine sauberen „Eins“ und „Null“ erhalten, sondern eine Reihe von ansteigenden und abfallenden Flanken, die durch die parasitäre Kapazität und Induktivität der Verdrahtung verschmiert werden. Dies ist von Natur aus anfällig für Fehlinterpretationen unter elektrischen Randbedingungen.
Als andere Antwort darauf hingewiesen: Eine CPU kann ausfallen. Entweder teilweise (mit fehlerhaften Antworten) oder vollständig.
Außerdem sind alle Computer kosmischen Strahlungen ausgesetzt, die hin und wieder den Speicher etwas umkippen können (neben anderen Fehlerquellen wie Kurzschluss, ...). Aus diesem Grund verwenden wissenschaftliche Experimente und langlebige Server ECC - Speicher. Raumschiffe verwenden auch speziell gehärtete CPUs , um diesen Effekt zu begrenzen, da sie weniger vor solchen Störungen abgeschirmt sind. Flugzeuge fliegen in großen Höhen und sind mehr dieser Störungen ausgesetzt als Ihr erdgebundener Computer.
Auch wenn dieses Ereignis sehr ungewöhnlich (aber nicht unerhört) ist, MÜSSEN Sie sicherstellen, dass die Ergebnisse zu 100 % genau sind. Ein bisschen umgedreht könnte das Verhalten Ihres Flugzeugs auf unvorhersehbare Weise verändern, wie das Umkehren der Steuerung, das Umkehren des Flughüllenschutzgesetzes, ...
Warum sind kritische Flugcomputer überflüssig?
Ein Punkt, der übersehen wurde, ist, dass die redundanten Systeme oft eigenständige Designs sind, insbesondere die Software. Dies schützt vor Konstruktionsfehlern (oder Softwarefehlern), die andernfalls unter selten auftretenden Kombinationen von Umständen Probleme verursachen könnten.
Auch wenn ein Mikroprozessor sehr zuverlässig ist, gibt es eine Reihe von Faktoren, die relevant sein können
Ich habe noch nie von Mikroprozessoren gehört, die plötzlich ausfallen.
- Viele Unfälle ereignen sich ohne „Ausfall“ einer Komponente
- Verursacht durch Gerätebetrieb außerhalb von Parametern und Zeitgrenzen, auf denen Zuverlässigkeitsanalysen basieren.
- Verursacht durch Wechselwirkungen von Komponenten, die alle gemäß Spezifikation arbeiten.
- Hochzuverlässige Komponenten sind nicht unbedingt sicher
Ich weiß, dass diese Frage bereits eine Handvoll Antworten erhalten hat, aber keine davon scheint sich mit der Frage zu befassen, warum es drei Systeme im redundanten Satz gibt und nicht nur zwei.
Zunächst einmal, wie von Simon , Jan Hudec und RedGrittyBrick betont wurde, sind die Designs überhaupt nicht identisch. Tatsächlich sind sie aus gutem Grund oft völlig unterschiedlich : Die Wahrscheinlichkeit, dass ein bestimmtes Problem alle redundanten Systeme betrifft und insbesondere alle redundanten Systeme in gleicher Weise betrifft, reicht von "gering" bis "völlig winzig, fast nicht vorhanden". Vergleichen Wie unterschiedlich sind redundante Flugsteuerungscomputer?
Zweitens, warum es drei gibtSysteme in jeder redundanten Konfiguration. Wenn alles gut funktioniert und sich das Flugzeug im stabilen Flug befindet, melden alle Systeme für einen bestimmten Wert und einen bestimmten Satz von Eingaben, dass eine Korrektur von 0 (von welcher Einheit auch immer) erforderlich ist. An diesem Punkt gibt es kein Problem, und die Computer dienen nur dazu, den gegenwärtigen Zustand beizubehalten. Jetzt versagt eines der Komponentensysteme aus irgendeinem Grund und meldet, dass eine Korrektur von +50 Einheiten erforderlich ist. Das heißt, der Satz von Antworten ändert sich von [0,0,0] zu [0,0,+50]. Zwei Systeme stimmen überein und das dritte meldet etwas anderes, sodass wir den Ausreißer wahrscheinlich ignorieren und mit den beiden Systemen fortfahren können, die dasselbe melden: Behandeln Sie das Ergebnis als [0,0, falsch] und ignorieren Sie das falsche Ergebnis, während Sie technische Details protokollieren und eine Art auffällige Warnung anzeigen, dass die Systeme so schnell wie möglich überprüft werden müssen. Aber was wäre, wenn wir von Anfang an nur zwei Systeme hätten und eines der beiden auf die gleiche Weise ausfällt? Die ermittelte benötigte Korrektur reicht von [0,0] bis [0,+50]. Jetzt schnell: Welcher Wert ist richtig? Sollten Sie den Zustand beibehalten oder um +50 korrigieren?
An diesem Punkt gibt es keine Möglichkeit zu wissen, ob eine Korrektur um 0 oder +50 die richtige Vorgehensweise ist. Sie könnten einen Durchschnitt nehmen, aber die Verwendung eines Durchschnitts aus zwei Zahlen (von denen eine wahrscheinlich falsch ist) könnte tatsächlich schlechter sein als jeder Wert für sich.
Indem Sie dem redundanten Satz ein drittes System hinzufügen, fügen Sie einen Tie-Breaker für die Situation hinzu, in der es ein fehlerhaftes System gibt. Nur wenn zwei der drei Systeme gleichzeitig zu versagen beginnen, haben Sie ein echtes Problem, und wenn das Flugzeug solche Probleme hat, dass zwei von drei redundanten Systemen fehlerhafte Ausgaben liefern, dann haben Sie wahrscheinlich zunächst ernsthafte Probleme .
Die meisten Antworten drehten sich um das Potenzial für Computerhardwarefehler und ähnliche Dinge. Während all das wahr ist, hat niemand erwähnt, was die Computer tatsächlich betrachten.
Angenommen, Sie befinden sich im Anflug und bereiten sich auf eine CAT III-Autolandung vor, und Sie haben nur zwei Computersysteme. Beide Computersysteme vergleichen die Funkhöhenmessersysteme Nr. 1 und Nr. 2. Nur gibt es eine Fehlfunktion bei einem der Funkhöhenmessersysteme, die eine Abweichung von einem willkürlichen Wert verursacht, der nicht innerhalb der Grenzen liegt.
Woher weiß der Computer, was falsch ist? Ein Computer schaut auf Funkhöhenmessersystem Nr. 1 und sieht 500 Fuß. Der andere schaut auf System Nr. 2 und sieht 1000 Fuß. Welches ist richtig und welches falsch? Wie konnte der Computer diese Entscheidung treffen?
Geben Sie den dritten Computer ein. Wenn der Wert dessen, was er sieht, mit dem eines der anderen beiden Computer übereinstimmt, kann er effektiv für den ungültigen Messwert „außerhalb der Insel“ „stimmen“.
Ich sollte anmerken, dass die meisten dieser Computer zwischen zwei und vier Prozessoren haben, die alle ihre eigenen Ergebnisse vergleichen. Das ist die INTERNE Redundanz, um Hardwarefehler zu vermeiden, aber zahlreiche Quervergleiche externer Systeme zu haben, ist größtenteils der Grund, warum ein drittes System existiert.
Hinweis: Als A&P-Mechaniker ist es in 9 von 10 Fällen, dass eines der externen Systeme ausgefallen ist (Funkhöhenmesser, MMR/ILS-Fehlvergleich usw.), was zu einer Verschlechterung der Fähigkeiten führt – NICHT der Computer selbst.
Computer fallen ständig spontan aus. Daran sind Sie nicht gewöhnt, weil Sie nicht viele Computer benutzt haben. Aber stellen Sie sich jemanden wie Google vor, der riesige Rechenzentren mit Tausenden von Computern betreibt. Die Software, die Google ausführt, basiert auf der expliziten Annahme, dass Computer ausfallen, weil dies mehrmals am Tag passiert. Nun, ein Flugzeug enthält nicht sehr viele Computer, aber die darin enthaltenen sind sicherheitskritisch. Sie werden also dupliziert, um sicherzustellen, dass ihr Ausfall kein Problem verursacht.
Wenn wir dies von einem rein technischen Standpunkt aus betrachten, haben Mikroprozessoren wie alles andere eine Zykluslebensdauer. Im Allgemeinen ist es sehr lang, und der PC, von dem Sie dies posten, wird höchstwahrscheinlich veraltet sein, lange bevor es die Zykluslebensdauer erreicht. Obwohl ein Mikroprozessor keine beweglichen Teile hat, nimmt er Eingaben von verschiedenen Sensoren entgegen. Ich kann nur davon ausgehen, dass die Eingänge irgendwie abgesichert sind, aber das bedeutet nicht, dass eventuell auftretende Spikes vollständig eliminiert und isoliert werden. Für das, was es wert ist, werden selbst relativ kleine Überspannungen einen Mikroprozessor braten. In Anbetracht dessen werden mehrere Systeme verwendet, um auf Nummer sicher zu gehen. Mit der immer kleiner werdenden Größe der Technologie ist es einfacher und billiger geworden, ein Ersatzteil mitzuführen, sodass Sie vom Verkaufsstandpunkt aus beruhigt sein können. Wieder es'
Um direkt auf Ihre Frage einzugehen, ich beschäftige mich schon lange mit Mikroprozessoren, Mikrocontrollern und dergleichen. In dieser Zeit hatte ich vielleicht zwei oder drei spontane Ausfälle, normalerweise im Zusammenhang mit Hitze. In einem Flugzeug scheint dies kein Problem zu sein, aber tatsächlich kann extreme Kälte Probleme verursachen, ebenso wie extreme Hitze, wenn es um Elektronik geht. Abgesehen davon habe ich unzählige Einheiten geröstet, indem ich sie mit überladenen Eingängen getroffen habe. Nehmen wir an, Ihr Flugzeug wurde von einem Blitz getroffen (ich weiß, dass moderne Fluggesellschaften dagegen geschützt sind), aber nehmen wir der Argumentation halber an, dass ein Boden schlecht war: Dies würde leicht eine Einheit anstoßen.
Nebenbemerkung: Heutzutage kommt es häufiger vor, dass Speicherchips/Laufwerke ausfallen. Dies ist etwas, das Sie vielleicht nie erfahren werden, da die meisten modernen Computer mit totem Speicher umgehen können, sei es auf der Festplatte oder im Systemspeicher.
Bei spezifischer Redundanz ist die Installationsumgebung dieser Systeme wahrscheinlich der größte Faktor. Viele Systeme sind nicht nur auf engstem Raum eng zusammengepfercht, sondern der Luftstrom ist dort oft sehr begrenzt. Hitze ist ein großer Zerstörer vieler Mikroprozessoren. Flugzeuge vibrieren auch stark aufgrund von drehenden Triebwerken, Turbulenzen während des Fluges und einfach beim Landen. Schlechte Lötverbindungen und unterdurchschnittliche Crimp-Arbeiten oder ein lockeres Anschlussgehäuse, und Sie haben eine schlechte Verbindung, oder schlimmer noch, eine zeitweilige .
Zur Entlassung im Allgemeinen: Wenn Sie einen BSOD bei der Arbeit erleben, ist das vergleichsweise keine große Sache. Möglicherweise haben Sie das Dokument verloren, an dem Sie gearbeitet haben, aber das war es auch schon. Wenn Flugzeugsysteme ausfallen, haben Sie ein echtes Problem. Es ist schwer zu erreichen, aber die Redundanz ist da, weil das Leben von Hunderten von Menschen davon abhängt .
Die Wahrscheinlichkeit eines Prozessorausfalls ist zwar sehr gering, aber nicht null. Was passiert bei Ausfall des Prozessors während der Übergangszeit zwischen Ausfall und voller Funktionalität nach dem Neustart? Könnten wir bei einem seltenen Ereignis wie diesem jemals genug Erfahrung sammeln, um sicher zu sein, dass wir unter allen Umständen getestet haben? Wir reden über < Zahlen hier.
Backups sind anfällig für versteckte Fehler. Die Sicherung wird normalerweise nicht verwendet und nur bei Bedarf eingeschaltet - aber ist etwas durchgerostet, oder hat sich ein fieser Schimmel an einem wohlig warmen Plätzchen eingenistet und beim Einschalten einen Kurzschluss verursacht? Murphy verfolgt immer noch Luft- und Raumfahrtanwendungen. Das Backup kann vor dem Start getestet werden, aber was ist, wenn es sich löst und der Hauptprozessor ausfällt? Die Chancen sind gering, aber alle größeren Unfälle werden heutzutage durch unwahrscheinliche Aneinanderreihungen von Ereignissen wie diesem verursacht.
Redundanz ist nützlich, da sie kontinuierlich zeigt, dass die Hauptgeräte ordnungsgemäß funktionieren, und sie wird für flugkritische Umstände verwendet. Backup-Systeme können verwendet werden, wenn auf das Hauptgerät verzichtet werden kann oder wenn sichergestellt ist, dass das Backup immer funktioniert, wie z. B. die manuelle Betätigung von Flugsteuerungen.
Ein Autopilot im Reiseflug ist nicht flugkritisch und kann ohne schwerwiegende Folgen abgeschaltet werden. Bei einer CAT-III-Landung, bei der die Start- und Landebahn erst beim Befahren einsehbar ist, sind sie unabdingbar. Sie möchten nicht, dass der Autopilot 10 Meter über der Landebahn abschaltet, keine Sicht, böiger Seitenwind - es bleibt keine Zeit, den Backup einzuschalten.
Wenn ein Mikroprozessor überhitzt oder überlastet ist und spontan ausfällt, würde ich erwarten, dass er aufhört, irgendetwas zu tun, und keine Ausgabe erzeugt.
Haben Sie jemals eine CPU übertaktet oder zugesehen, wie ein altes Stück Hardware starb? Sie können alle möglichen seltsamen Artefakte erhalten, während die CPU noch läuft.
In einem Flugzeug ist die Sicherheit wichtiger als jeder andere Faktor (danach kommt das optimale Gewicht für die Kraftstoffeffizienz, und die Gesamtkosten sind das dritte). Wenn Flugzeuge nicht sicher wären, würden nicht genug Menschen fliegen und die Luftfahrtindustrie würde zusammenbrechen. Deshalb gibt es FAA-Vorschriften, und deshalb gibt es so viele Regeln für die Fluggesellschaften. (Die Sicherheitskontrolle am Flughafen ist ein weiteres Thema, das sich auf die nationale/politische Sicherheit bei der Einwanderung usw. bezieht. Wenn wir also von „Sicherheit“ des Flugzeugs sprechen, meine ich die Technik.)
Kritische Systeme an Bord (dh Systeme, die zum Fliegen des Flugzeugs erforderlich sind ) benötigen Redundanz. So wie der Brenner im Strahltriebwerk 2 Zünder hat, obwohl einer reicht. Auch wenn ein Triebwerk ausfällt, kann das andere Triebwerk das Flugzeug fliegen, und der Computer kompensiert das Links/Rechts-Kraftungleichgewicht. Viele Systeme im Flugzeug verlassen sich auf den Computer, daher muss er einen „Plan B“ haben (Redundanz ist einer der „Plan B“).
Denn obwohl die Theorie gut ist, ist die Realität, dass nicht alle Computerkomponenten gleich sind.
Ein konkretes Beispiel aus den frühen 90er Jahren: Intel produzierte die 486/33-CPU (sie war für damalige Verhältnisse ziemlich modern und blitzschnell). Die meisten verließen die Fabrik problemlos, aber einige hatten einen esoterischen Fehler in der FPU, der falsche Antworten erzeugte. Die Zeitschriften des Tages waren voll von Berechnungen, die Sie in Ihre Tabellenkalkulation einfügen konnten, die X ergeben würden, wenn Ihre CPU gut war, oder Y, wenn sie den Fehler hatte.
Wenn Ihr Flugzeug zufällig mit einer der fehlerhaften CPUs läuft und gerade die richtigen Daten gesammelt und in eines der Flugsteuerungsprogramme eingespeist werden und auf diesen FPU-Fehler stoßen, werden Sie froh sein, dass die Die anderen beiden CPUs berechneten den richtigen Wert und warf die fehlerhafte aus der Schleife.
Simon
raptortech97
Simon
raptortech97
raptortech97
Simon
Jan Hudec
raptortech97
Kasperd
raptortech97
Kasperd
raptortech97
Kasperd
raptortech97
Hanky Panky
Anything that can go wrong will go wrong
AE
Min
Ed999