Hat der 1202-Fehler und der damit verbundene Neustart eine Katastrophe bei der Landung von Apollo 11 verhindert?

Die meisten Berichte über den berühmten 1202-Fehler , der von der AGC während der Landung des Apollo 11 LM gemeldet wurde, charakterisieren das Ereignis als Ergebnis des erfolgreichen Betriebs der AGC, bei dem ein überlasteter Computer gespült und zurückgesetzt wurde, während kritische Daten erhalten blieben, die für den Neustart erforderlich waren.

Alan Klumpps Nacherzählung beschreibt jedoch eine Situation, in der eine Überlastung der AGC zu einer Katastrophe führen könnte:

...Gas- und Lenkbefehle ... wurden oft unvollständig berechnet und zur späteren Vervollständigung in die Warteschlange gestellt. Jeder Versuch, einen Befehl in die Warteschlange einzureihen, wenn die Warteschlange bereits voll war (ungefähr fünf Befehle), würde dazu führen, dass der Computer die Warteschlange löscht und den Alarm ausgibt. Aber wenn die Energieversorgung des Radars in Phase war , konnten in der Warteschlange stehende Befehle, die nur zu einem fernen Zeitpunkt in der Vergangenheit gültig waren, vervollständigt und in umgekehrter Reihenfolge ausgegeben werden, wobei sie vorübergehend die Kontrolle übernahmen, um das LM von seiner normalen Landebahn abzubringen. Obwohl Spülbefehle Alarme auslösen würden, würde das Ausgeben fehlerhafter Befehle dies nicht tun. Simulationen zeigten, dass fehlerhafte Befehle das LM auf einen Crashkurs bringen könnten, und die Führung würde versuchen, das LM über eine Flugbahn, die unter der Mondoberfläche verläuft, zum Landeplatz zu bringen.

Es ist jedoch nicht klar, wann oder ob diese Situation tatsächlich aufgetreten ist. Soll diese Passage die allgemeine Darstellung bestätigen, dass das mit einem 1202-Fehler verbundene Spülverhalten diese Katastrophe verhindert hat ? Oder sagt er, dass dies passiert sein könnte, als die 1202-Fehler gemeldet wurden, oder zu einem anderen Zeitpunkt während der Mission? (Tatsächlich ist eine Interpretation, dass die phasenverschobene Überlastung, die die 1202-Fehler ausgelöst hat, gegen eine solche Katastrophe versichert ist.)

Hat der 1202-Fehler und der damit verbundene Neustart eine Katastrophe bei der Landung von Apollo 11 verhindert?

Ein kürzlich erschienener Artikel in WIRED wired.com/story/apollo-11-mission-out-of-control enthält einige interessante Hintergrundinformationen zur Warteschlange usw.
Ich denke, es war der Apollo Guidance Computer (AGC), der die 1202 und 1201 während der Landung ausgab, nicht das Abort Guidance System (AGS). Aber das ist genau das, was ich denke, ich könnte mich irren!
@kruemi In der Tat! (Überraschend, dass das noch nie zuvor aufgefallen ist.)

Antworten (2)

Ich stimme Ihrem Kommentar zu: "Es ist nicht klar, wann oder ob diese Situation tatsächlich aufgetreten ist." Durch das Lesen von Klumpps Bericht und dem Buch seines Kollegen Don Eyles, Sunburst and Luminary, glaube ich nicht, dass wir genügend Informationen haben, um zu wissen, ob die Situation bei Apollo 11 existiert haben könnte . Ich denke, wir wissen, dass sie bei Apollo 11 nicht existiert hat, weil das Radar Stromversorgung war nicht in Phase, und Klumpp sagt

Aber wenn die Energieversorgung des Radars in Phase war , konnten in der Warteschlange stehende Befehle, die nur zu einem fernen Zeitpunkt in der Vergangenheit gültig waren, vervollständigt und in umgekehrter Reihenfolge ausgegeben werden, wobei sie vorübergehend die Kontrolle übernahmen, um das LM von seiner normalen Landebahn abzubringen.

(Hervorhebung von mir)

Hier ist Eyles' Darstellung des Problems auf den Seiten 215-16 von S&L.

Als das Jahr 1970 anbrach, P66 Auto fertiggestellt und für die bevorstehende Mission an Bord war, fanden Allan und ich Zeit, das Problem zu überdenken, das die Landung von Apollo 11 so beinahe ruiniert hätte – Entzug von Prozessorzeit, den wir TLOSS nannten –, aber wir haben es in Angriff genommen verschiedene Wege.

Allan ließ den IBM 360 summen, während er Simulationen am Apollo-13-Seil durchführte, um zu sehen, wie es sich unter unterschiedlichen Mengen an TLOSS verhielt. Wir wussten bereits, dass, wenn die TLOSS-Menge genau richtig ist, sich während einer Phase hoher Aktivität unvollständige SERVICER-Jobs in der Executive-Warteschlange ansammeln können. Das Letzte, was der SERVICER bei jedem Durchgang tat, war, Informationen zur Anzeige an DSKY zu senden. Kurz bevor es das tat, gab es Lagebefehle und davor Gasbefehle aus. Was Allan beunruhigte, war, was passieren würde, wenn ein SERVICER-Job abgebrochen würde, bevor der Gas- oder Lagebefehl gesendet wurde. Wenn sich genügend dieser angehaltenen Jobs angesammelt hätten, würde ein Software-Neustart erfolgen, wie es bei Apollo 11 der Fall war, und die angehaltenen Jobs würden verschwinden. Aber was wäre, wenn die Rechenlast nachließ, bevor sie gespült wurden?

Was passieren könnte, fand Allan, war, dass die ausgesetzten Jobs (Allan nannte sie „Lurkers“) wieder zum Leben erweckt werden konnten, ohne zu wissen, dass sie sich im Winterschlaf befanden, und fortfahren, einen Einstellungs- oder Drosselbefehl zu erteilen, der auf einen früheren Zeitpunkt im Jahr anwendbar war Flugbahn . Plötzlich könnte der LM in die falsche Lage manövrieren. Die schlimmsten Fälle traten auf, wenn angehaltene Jobs, die sich während P64 angesammelt hatten, nach dem Übergang zu P66 ausgeführt wurden.

Am 4. März veröffentlichte Allan ein sorgfältig geschriebenes Memo, in dem er „eine Sammlung bekannter Manifestationen von Zeitverlust“ beschrieb. Allan beschrieb acht verschiedene Arten von schlechtem Benehmen, beginnend bei einem TLOSS von etwa 8 Prozent. In einer ungewöhnlichen Vorsichtsmaßnahme unterschrieb Allan das Memo und bat Gerry Levine zu unterschreiben, da er es genehmigt hatte.

(Hervorhebung von mir)

Meine Interpretation ist, dass, damit das Problem auftritt,

  1. Die Stromversorgung des Rendezvous-Radars müsste synchron sein
  2. Es müsste etwas passieren, das dazu führt, dass die SERVICER-Jobs lange laufen und nicht abgeschlossen werden
  3. Was auch immer 2) verursacht hat, musste verschwinden, bevor die Situation schlimm genug wurde, um die Warteschlange zu leeren

Wir wissen, dass bei Apollo 11 1) nicht der Fall war, aber ich weiß nicht, ob wir genügend Informationen haben, um zu wissen, ob 2) passiert ist oder nicht.

Diese Antwort versucht, den Teil über die Phasenverschiebung der Radarstromversorgung zu erklären.

Gute Antwort. Wäre also die Rendezvous-Radar-Stromversorgung synchron gewesen (1), hätte ein 1202 (oder 1201?) einen Abbruch angezeigt (um eine Bruchlandung zu vermeiden)?
@orome Ich denke, Sie haben die Alarme nur erhalten, wenn der Computer tatsächlich neu gestartet wurde. Diese Art von Zwischenproblemen, bei denen Jobs angehalten und dann wieder aufgenommen wurden, der Computer aber nicht neu gestartet wurde, kann zu Flugbahnproblemen ohne Alarm geführt haben – was in der Tat besorgniserregend ist. Das ist aber alles meine Interpretation.
Ah, ja, ich glaube du hast recht. Der Alarm zeigt an, dass alles in Ordnung ist, da ein Neustart stattgefunden hat. (Im Grunde ist es die Art des AGS zu sagen, ich bin überlastet und werde damit fertig, indem ich mir eine Sekunde Zeit nehme, um aufzuräumen und zu Aufgaben mit hoher Priorität zurückzukehren.) Die beschriebene Frachtsituation wäre nur ohne eine 1202 eingetreten Alarm.
Ich denke, Sie haben es fast richtig gemacht , außer dass die Stromversorgungsphasen relativ zueinander driften, was bedeutet, dass sie in und aus der Phase driften können. Wenn er sagt "als die Stromversorgung des Radars in Phase war", meint er kurzzeitig in Phase, lange genug, damit der Computer aufholen kann. Das könnte also am 11.
Konstant niedriger TLOSS = Nennverhalten. Konsistent hohes (ish) TLOSS = sicheres Verhalten, da der Lastabwurf verhindert, dass die Warteschlange tief wird, und verhindert, dass sich unmittelbare und in der Warteschlange befindliche SERVICER-Aufgaben vermischen. Aber wenn diese Phase umherwandert und der TLOSS über und unter den Schwellenwert geht, könnte das System am Ende eine ziemlich alte Aufgabe wieder aufnehmen. Entweder ist dies nicht passiert oder es ist passiert, aber es hat sich nicht wesentlich auf die physische Stabilität des Systems ausgewirkt. In jedem Fall war etwas Glück im Spiel, und das scheint Klumpps wahres Problem zu sein. Es hätte ganz schlimm ausgehen können.
Das Konto von Eyles - siehe verknüpfte Antwort - erwähnt das Driften nicht. Er lässt es klingen, als wäre beim Einschalten eine Beziehung entstanden, und nur einige waren schlimm genug, um Probleme zu verursachen. Aber ich kann nicht ausschließen, was du sagst.
Ich denke, das ist richtig. Es hört sich so an, als ob die Phasenbeziehung beim Einschalten hergestellt wurde (können wir das sicher wissen?), Die in Klumpps Bemerkung erwähnte Situation ist also nur etwas, das passieren könnte, und soll nicht beschreiben, was während der Landung von Apollo 11 vor sich ging.
@hobbs Wenn er in Klumpps Bericht weiter liest , schreibt er, dass "viele Führungsbefehle beiseite gelegt wurden; einige wurden nie ausgegeben, andere wurden außerhalb der Reihenfolge ausgegeben." Was darauf hindeutet, dass Sie vielleicht Recht haben, dass es Drift gab?
@orome Eyles sagt: "Der Phasenwinkel zwischen den beiden Signalen war jedoch völlig zufällig, abhängig von dem Zeitpunkt, an dem der LGC, der immer nach dem ATCA eingeschaltet wurde, begann, das erste Frequenzsynchronisationssignal zu senden." klabs.org/history/apollo_11_alarms/eyles_2004/eyles_2004.htm
Ja, ich habe das so verstanden, dass der Phasenwinkel zufällig festgelegt wurde und durchgehend bei diesem Winkel blieb (nicht driftete). Aber ich kann das nicht mit Klumpps "Viele Führungsbefehle wurden beiseite gelegt; einige wurden nie ausgegeben, andere wurden außerhalb der Reihenfolge ausgegeben" im Zusammenhang mit seiner Aussage, dass ein solches Verhalten auftrat, als die Phasenwinkel einräumten, nicht in Einklang bringen.
Ich habe ein Follow-up darüber, warum die Phasenverschiebung von RR und AGC überhaupt so viele Interrupts verursacht.
@hobbs Soweit ich mich erinnere, waren die Signale frequenzgesperrt, aber nicht phasengesperrt. (Das Fehlen der Phasenverriegelung war ein Problem.) Wenn zwei Signale frequenzverriegelt sind, sollte es zwischen ihnen keine Phasendrift geben; Wenn dies der Fall ist, sind sie nicht frequenzgesperrt, sondern nur auf ähnlichen Frequenzen. Ich kann nicht erkennen, wie Sie möglicherweise zwei Signale mit genau derselben Frequenz, aber unterschiedlichen Phasenverschiebungen in der Phase relativ zueinander haben könnten.

Die Mondlandefähre hatte zwei Computer. Der 1202-Alarm ereignete sich auf dem Lunar Guidance Computer, der viele verschiedene Aufgaben erledigte – tatsächlich war der 1202-Alarm eine Warnung, dass sein Multitasking-System Gefahr lief, (aber noch nicht vollständig) überlastet zu werden.

Es gab auch das Abort Guidance System. Sein Computer und seine Software waren völlig andere Designs als das LGC, das von anderen Auftragnehmern entwickelt wurde. Das AGS hatte nur eine Aufgabe: das LM zurück in den Weltraum zu bringen, wo es vom CSM abgeholt werden konnte. Es konnte nicht durch die zusätzlichen Aufgaben, die das LGC zu erledigen hatte, überlastet werden. Obwohl das AGS nie bei einer tatsächlichen Mission eingesetzt werden musste, wurde es gründlich getestet, und es gibt keinen Grund zu der Annahme, dass es versagen würde.

Apollo-Crews übten, zu erkennen, wann ein Abbruch erforderlich war, und das AGS zu aktivieren. Der ArsTechnica-Artikel, den Sie zitieren, sagt sogar so viel:

Und um es klar zu sagen, ein Abbruch während der Landung war keine Kleinigkeit. Das Verfahren hätte dazu geführt, dass Armstrong die Taste "ABORT STAGE" auf dem Bedienfeld des LM gedrückt hätte, wodurch Sprengbolzen und Guillotinen abgefeuert und die Aufstiegsstufe des LM von seiner Abstiegsstufe getrennt worden wären. Dann würde der Aufstiegsmotor zünden und sein Bestes tun, um dem absteigenden Schiff wieder Geschwindigkeit zu verleihen, und versuchen, es zurück in eine Art stabile Umlaufbahn zu schieben, damit die Besatzung das Kommandomodul finden und sich mit ihm treffen kann. Es war etwas, wofür die Besatzungen trainiert waren – aber es wäre nicht einfach gewesen. Und es hätte das Stigma einer abgebrochenen Mission mit sich gebracht.

Das 1202-Problem beeinträchtigte die Steuerung des Raumfahrzeugs nicht, und deshalb erhielt die Besatzung grünes Licht zur Landung. Sollte es jedoch tatsächlich irgendwie die Steuerung des Raumfahrzeugs beeinträchtigt haben, bestand Armstrongs Training darin, das AGS sofort zu aktivieren. Es wäre also keine Katastrophe passiert , aber die Gelegenheit, auf dem Mond zu landen, wäre verloren gegangen.

Entschuldigung, das ist nicht die Frage: Die Frage hängt von der Beziehung zwischen "Befehle in der Warteschlange, die nur zu einem entfernten Zeitpunkt in der Vergangenheit gültig sind, könnten abgeschlossen und in umgekehrter Reihenfolge ausgegeben werden" ab und was dies mit der aufgetretenen Situation zu tun hat (wann das 1202 geschah).
Es sind keine Daten, die in die Warteschlange gestellt werden, sondern Aufgaben (ähnlich wie Unix-Prozess-Threads). Das Executive-Programm entscheidet basierend auf der Priorität, welche Aufgabe als nächstes ausgeführt wird. Während eines sanften Neustarts werden die Aufgabenwarteschlangen gelöscht; Sie werden nicht beschädigt oder rückgängig gemacht. Es wird keine Lenkbefehle in umgekehrter Reihenfolge ausgeben.
Laut Eyles Buch werden die Tasks neu gestartet, und das verursacht die Ausgabe der schlechten Befehle. Der Fall tritt auf, wenn die Aufgaben angehalten werden, das System jedoch vor einem Neustart wiederhergestellt wird.
Wenn dieser Fehlermodus möglich war, warum wurde er in der Simulation nicht beobachtet?
@RussellBorogove wurde in Simulationen beobachtet, die am MIT durchgeführt wurden, aber sie übten "unterschiedliche Mengen an TLOSS" aus. Um in diesen Fall zu kommen, müssen Sie genau die richtige Menge an TLOSS haben. Die Trainingssimulatoren hatten keine echten AGCs, daher ist es unwahrscheinlich, dass diese Art von hardwareabhängigem Problem gefunden wird.
Ghaa. Simulatoren hatten keine echten AGCs? 😳
@RussellBorogove nein, sie waren zu teuer und es war ein Problem, aktuelle "Seile" zu bekommen. Sie wurden in Simulationssoftware emuliert. Die Shuttle-Trainingssimulatoren hatten echte Flugcomputer, aber ich denke, das war eine Innovation. Die B-52-Bombersimulatoren, an denen ich gearbeitet habe, hatten ebenfalls emulierte Flugcomputer. Auch die ISS-Trainingssimulatoren haben Bordcomputer emuliert.