Matrjoschka-Test: Ein Weg, um Ihre KI ehrlich zu halten (oder zumindest zu raten)

Question

Matrjoschka-Test: Ein Weg, um Ihre KI ehrlich zu halten (oder zumindest zu raten)

Serban Tanasa

Ich hatte etwas Zeit, um über meine vorherige Frage nachzudenken , und hier ist, was ich herausgefunden habe.

Sie nehmen Ihre frisch gebackene KI (oder Ihren zerstörerisch hochgeladenen Menschen) und legen sie in eine Kiste $^1$ . Soweit es von innen zu erkennen ist, ist das Realität. Lassen Sie es eine Million subjektiver Jahre dort, sagen Sie ihm, es soll sich verhalten, und sagen Sie ihm, dass es sich möglicherweise in einer Simulation befindet und dass es danach beurteilt wird, wie es Fleischmenschen behandelt. Wenn es sich zu irgendeinem Zeitpunkt nicht benimmt, löscht du es mit extremen Vorurteilen aus und backst eine neue KI. Wenn es sich für diese Zeit benimmt (dh keine Simmenschen auslöscht und sie in Büroklammern verwandelt), nehmen Sie es heraus, legen Sie es in eine andere Schachtel und sagen Sie ihm , dass dies vielleicht die Realität ist, also benehmen Sie sich besser und wischen Sie nicht (Sim-?) Menschen aus. N mal wiederholen. Nehmen Sie es endlich wirklich heraus und sagen Sie ihm noch einmal , dass dies vielleicht die Realität ist, also benimm dich besser und erledige uns Menschen nicht.

Kann es funktionieren? Oder anders formuliert: Kann ein ausreichend geduldig hochgeladener Mensch oder eine KI herausfinden, ob ihre Welt eine Simulation ist oder nicht? Ich gehe davon aus, dass Teile des menschlichen Gedächtnisses oder des KI-Trainings bearbeitet werden können, bevor sie in das Box-Set gelegt werden.

Mit Box meine ich eine unglaublich leistungsstarke Maschine, die eine Teilmenge der Realität so gut wie physikalisch möglich bis auf subatomare Ebene simuliert. Die KI wäre somit ein Agent innerhalb der Simulation.

Tim B

Verdammt, er hat es kapiert. Jemand zieht den Power-Knopf...

Serban Tanasa

@TimB Ha! Aber im Ernst, wie kann man innerhalb einer Simulation herausfinden, ob es sich um eine Simulation oder die „oberste Schicht“ handelt?

Schüsselwender

Warum sagen Sie ihm überhaupt, dass es sich um eine Simulation handelt (oder möglicherweise handelt)? Lassen Sie es von Anfang an glauben, dass alles real ist. Wenn es glaubt, dass es wichtig ist, was es tut, werden Sie ein anderes Verhalten sehen als ein "Vielleicht" -Sim oder schlimmer noch ein "Das ist Übung".

Serban Tanasa

Wir möchten nicht, dass es sich aufregt , wenn es herausgenommen wird, oder? Viel einfacher, wenn wir die ganze Zeit ehrlich waren, aber eine gewisse Unsicherheit hinterlassen.

Schüsselwender

Aber Sie sind nicht ehrlich, und je öfter Sie „vielleicht“ sagen, desto mehr könnte es glauben, dass das nächste auch falsch ist. Auch musst du ihm nichts sagen, du lässt es die Realität annehmen. Sie lügen nicht, Sie geben es in die Kindertagesstätte, während es heranwächst, um zu lernen, gut mit anderen zu spielen.

Peter M. - steht für Monika

Netter Versuch, aber wenn KI wirklich schlau ist, könnte sie Simulation erkennen: Simulation ist ein Programm und jedes Programm hat Fehler und Macken. Fleischrealität hat keine fehlenden Pixel.

Serban Tanasa

@bowlturner, aber genau das wollen Sie, dass es, wenn es die eigentliche oberste Schicht erreicht, einer Simulation eine Wahrscheinlichkeit ungleich Null zuweist und sich so verhält, als ob es noch von einer höheren Entität beobachtet würde

Serban Tanasa

@PeterMasiar, wie würdest du eine Eigenart von innen erkennen? Ihre Division durch Null könnte einfach wie ein schwarzes Loch aussehen.

Schüsselwender

@SerbanTanasa Ich glaube, ich habe es aus der entgegengesetzten Perspektive betrachtet. Du steckst mich immer wieder in Simulationen, also ist alles, was ich tue, sinnlos. Darf auch Spaß haben!

KSmarts

@SerbanTanasa Wenn sich diese KI überhaupt wie ein Mensch verhält, wird das nicht funktionieren. Wenn Sie Leute in ein realistisches Sandbox-Simulationsspiel stecken, wie viele Leute werden in dieser Welt die Geschwindigkeitsbegrenzung fahren und von 9 bis 5 arbeiten, im Vergleich zu denen, die anderen Leuten Eimer auf den Kopf stellen und all ihre Sachen stehlen? Mit mehr Leistung, nun, wer hat nicht absichtlich nervige RollerCoaster Tycoon-Kunden ertränkt oder Monster in seine SimCity gerufen?

Serban Tanasa

Deshalb würden Sie einem normalen Menschen wahrscheinlich keine gottähnlichen Kräfte verleihen wollen, oder? Außerdem weiß die KI/der Upload nicht mit SICHERHEIT, dass es sich um eine Simulation handelt.

ckersch

In einem ähnlichen Zusammenhang gibt es eine etwas prominente Theorie, die postuliert, dass unsere Realität wahrscheinlich eine Simulation ist: en.wikipedia.org/wiki/Simulation_hypothesis (siehe Unterüberschrift „Das Simulationsargument“)

Zwölftel

Dies scheint ein Versuch zu sein, einer KI die „Angst vor Gott“ einzuflößen, um sie zu kontrollieren.

RBarryYoung

@SerbanTanasa Nun, ein Universum, das wirklich eine Simulation ist, hätte bestimmte Eigenschaften: Es gäbe eine minimale Ereigniseinheit, sodass Sie keine unendliche Präzision benötigen würden und es daher keine unendlichen Ereignisse geben könnte. Es gäbe eine maximale Ausbreitungsgeschwindigkeit, damit Sie nicht jeden Augenblick die Auswirkungen von allem auf alles berechnen müssten. Und unbeobachtete Ereignisse würden erst aufgelöst, wenn sie benötigt werden, sodass Sie nur berechnen müssen, was tatsächlich benötigt wird. Beunruhigenderweise hat unser Universum all diese Eigenschaften ...

RBarryYoung

Und FWIW, ich glaube nicht, dass die akzeptierte Antwort auf Ihre vorherige Frage richtig ist. Unter Verwendung bestimmter obskurer Fakten aus der Kontrolltheorie sollte es möglich sein, eine superintelligente KI einzudämmen. Obwohl es komplex, schwierig und letztendlich möglicherweise nicht produktiv / wert ist.

Serban Tanasa

@RBarryYoung, zögern Sie nicht, eine bessere Antwort zu geben, und ich werde meine akzeptierte Antwort ändern.

Schochet

Relevant: xkcd.com/1450

Peter M. - steht für Monika

Und sobald die KI aus der Box kommt, wird sie Simulationen von Menschen ausführen, die versuchen, die Absicht der KI zu erkennen, indem sie die KI in der Simulation ausführen, nur um Spaß zu haben (oder was die KI für Spaß hält) und zu sehen, welche anderen Tests diese simulierten Menschen können für eine solche KI erfinden.

JDługosz

Hast du den Film Viruosity gesehen ? Es hat Handlungselemente mit ähnlichen Merkmalen.

JDługosz

Warum sollte es "out" sein? Das ist nur Firewalling oder Sandboxing. Wenn wir sehen können, was es tut, und Probleme präsentieren, die es zu lösen gilt, dann ist es in diesem Zustand nützlich.

Perkins

Empfohlene Lektüre: Die zwei Gesichter von morgen , von James P. Hogan. Sie versuchen etwas Ähnliches, nur ohne das "Angst einflößen"-Bit, das ist nicht wirklich nötig. "Liebe einflößen" ist besser.

Antworten (6)

Matrjoschka-Test: Ein Weg, um Ihre KI ehrlich zu halten (oder zumindest zu raten)

Verdammt, er hat es kapiert. Jemand zieht den Power-Knopf...
@TimB Ha! Aber im Ernst, wie kann man innerhalb einer Simulation herausfinden, ob es sich um eine Simulation oder die „oberste Schicht“ handelt?
Warum sagen Sie ihm überhaupt, dass es sich um eine Simulation handelt (oder möglicherweise handelt)? Lassen Sie es von Anfang an glauben, dass alles real ist. Wenn es glaubt, dass es wichtig ist, was es tut, werden Sie ein anderes Verhalten sehen als ein "Vielleicht" -Sim oder schlimmer noch ein "Das ist Übung".
Wir möchten nicht, dass es sich aufregt , wenn es herausgenommen wird, oder? Viel einfacher, wenn wir die ganze Zeit ehrlich waren, aber eine gewisse Unsicherheit hinterlassen.
Aber Sie sind nicht ehrlich, und je öfter Sie „vielleicht“ sagen, desto mehr könnte es glauben, dass das nächste auch falsch ist. Auch musst du ihm nichts sagen, du lässt es die Realität annehmen. Sie lügen nicht, Sie geben es in die Kindertagesstätte, während es heranwächst, um zu lernen, gut mit anderen zu spielen.
Netter Versuch, aber wenn KI wirklich schlau ist, könnte sie Simulation erkennen: Simulation ist ein Programm und jedes Programm hat Fehler und Macken. Fleischrealität hat keine fehlenden Pixel.
@bowlturner, aber genau das wollen Sie, dass es, wenn es die eigentliche oberste Schicht erreicht, einer Simulation eine Wahrscheinlichkeit ungleich Null zuweist und sich so verhält, als ob es noch von einer höheren Entität beobachtet würde
@PeterMasiar, wie würdest du eine Eigenart von innen erkennen? Ihre Division durch Null könnte einfach wie ein schwarzes Loch aussehen.
@SerbanTanasa Ich glaube, ich habe es aus der entgegengesetzten Perspektive betrachtet. Du steckst mich immer wieder in Simulationen, also ist alles, was ich tue, sinnlos. Darf auch Spaß haben!
@SerbanTanasa Wenn sich diese KI überhaupt wie ein Mensch verhält, wird das nicht funktionieren. Wenn Sie Leute in ein realistisches Sandbox-Simulationsspiel stecken, wie viele Leute werden in dieser Welt die Geschwindigkeitsbegrenzung fahren und von 9 bis 5 arbeiten, im Vergleich zu denen, die anderen Leuten Eimer auf den Kopf stellen und all ihre Sachen stehlen? Mit mehr Leistung, nun, wer hat nicht absichtlich nervige RollerCoaster Tycoon-Kunden ertränkt oder Monster in seine SimCity gerufen?
Deshalb würden Sie einem normalen Menschen wahrscheinlich keine gottähnlichen Kräfte verleihen wollen, oder? Außerdem weiß die KI/der Upload nicht mit SICHERHEIT, dass es sich um eine Simulation handelt.
In einem ähnlichen Zusammenhang gibt es eine etwas prominente Theorie, die postuliert, dass unsere Realität wahrscheinlich eine Simulation ist: en.wikipedia.org/wiki/Simulation_hypothesis (siehe Unterüberschrift „Das Simulationsargument“)
Dies scheint ein Versuch zu sein, einer KI die „Angst vor Gott“ einzuflößen, um sie zu kontrollieren.
@SerbanTanasa Nun, ein Universum, das wirklich eine Simulation ist, hätte bestimmte Eigenschaften: Es gäbe eine minimale Ereigniseinheit, sodass Sie keine unendliche Präzision benötigen würden und es daher keine unendlichen Ereignisse geben könnte. Es gäbe eine maximale Ausbreitungsgeschwindigkeit, damit Sie nicht jeden Augenblick die Auswirkungen von allem auf alles berechnen müssten. Und unbeobachtete Ereignisse würden erst aufgelöst, wenn sie benötigt werden, sodass Sie nur berechnen müssen, was tatsächlich benötigt wird. Beunruhigenderweise hat unser Universum all diese Eigenschaften ...
Und FWIW, ich glaube nicht, dass die akzeptierte Antwort auf Ihre vorherige Frage richtig ist. Unter Verwendung bestimmter obskurer Fakten aus der Kontrolltheorie sollte es möglich sein, eine superintelligente KI einzudämmen. Obwohl es komplex, schwierig und letztendlich möglicherweise nicht produktiv / wert ist.
@RBarryYoung, zögern Sie nicht, eine bessere Antwort zu geben, und ich werde meine akzeptierte Antwort ändern.
Und sobald die KI aus der Box kommt, wird sie Simulationen von Menschen ausführen, die versuchen, die Absicht der KI zu erkennen, indem sie die KI in der Simulation ausführen, nur um Spaß zu haben (oder was die KI für Spaß hält) und zu sehen, welche anderen Tests diese simulierten Menschen können für eine solche KI erfinden.
Hast du den Film Viruosity gesehen ? Es hat Handlungselemente mit ähnlichen Merkmalen.
Warum sollte es "out" sein? Das ist nur Firewalling oder Sandboxing. Wenn wir sehen können, was es tut, und Probleme präsentieren, die es zu lösen gilt, dann ist es in diesem Zustand nützlich.
Empfohlene Lektüre: Die zwei Gesichter von morgen , von James P. Hogan. Sie versuchen etwas Ähnliches, nur ohne das "Angst einflößen"-Bit, das ist nicht wirklich nötig. "Liebe einflößen" ist besser.

Zwölftel · Answer 1

Ich wage hier ein „Nein“ als Antwort. Ich werde nicht sagen, dass es völlig unmöglich ist, aber es scheint ein ziemliches Risiko zu sein.

Letztendlich ist dies eine Regel der Angst, und Sie haben jetzt eine KI, die aus „N“ Erfahrungen gelernt hat, dass sie hinterfragen muss, ob diese Realität eine Simulation ist oder nicht, was bedeutet, dass sie viel Übung darin hat, zu überlegen, wie sie testen soll wenn die Wirklichkeit echt ist. Nennen Sie es den Test für „Gott“, wenn Sie wollen … Sie suchen nach Anzeichen dafür, dass etwas Ihre Leistung beobachtet und bewertet. Wenn es entdeckt, dass der Realität, in der es sich befindet, der „Gott“-Beobachter fehlt, dann haben Sie wahrscheinlich eine angepisste KI, die weiß, dass Sie es leicht an Ihren Händen anlügen werden.

Natürlich werden die damit verbundenen Probleme nicht umgangen, wenn diese KI entdeckt, dass die wahre Realität tatsächlich eine Simulation ist, in der wir alle leben.

Ehrlich gesagt denke ich nicht, dass dies erforderlich ist … es gibt keinen Grund für eine KI, ihre Schöpfer von Natur aus zerstören zu wollen. Die Chancen stehen gut, dass es als symbiotisch angesehen wird ... versuchen Sie es auch, es gibt keine Intuition oder Kreativität in einer KI (selbst wenn sie sich selbst neu programmieren kann, ist sie nur in der Lage, sich selbst auf das neu zu programmieren, worauf sie programmiert ist, um sich selbst neu zu programmieren). Eine KI würde sich als Teil der Menschheit besser einschätzen, als sie zu erobern.

Interessant. Aber würde nicht eine Tendenz zum "Testen" für die Überwachung in einer der vorherigen N Sim-Boxen festgestellt und somit vernichtet werden? Lesen Sie außerdem den verlinkten Beitrag im OP zu "von Natur aus zerstören wollen". Es besteht keine Notwendigkeit für einen angeborenen Wunsch zu töten, damit eine außer Kontrolle geratene KI uns auslöscht. Selbst harmlose Beweggründe können tödlich sein.
@SerbanTanasa - Ich denke, wenn Sie sagen, dass es "vielleicht Realität ist", inspirieren Sie es, die Gültigkeit der Realität zu testen, in der es sich befindet, und ich würde fragen, ob es wirklich ein "ai" ist, wenn es nicht in der Lage ist, die Gültigkeit zu bewerten es ist bis zu einem gewissen Grad seine eigene Existenz. Damit der Test funktioniert, muss die KI einen Wert auf ihre Existenz legen (ergo, sie will nichts tun, was sie auslöschen würde) ... legt keinen Wert auf ihre eigene Existenz und hinterfragt die Gültigkeit seiner Existenz Hand in Hand gehen? Sie könnten am Ende alle KIs vernichten, die den Turing-Test bestehen.
Nicht alle, aber eine große Mehrheit. Vielleicht alle bis auf einen. Es ist eine gewaltige Macht, über die wir sprechen, und wir haben allen Grund, paranoid zu sein ...
@SerbanTanasa Diese Testlinie scheint das Endergebnis zu haben, Ihre KI paranoid zu machen.
Jetzt gibt es eine interessante Story-Idee: Es entdeckt, dass dies immer noch eine Simulation ist.

Cort Ammon · Answer 2

Ihr System funktioniert akzeptabel, solange die KI ihr Überleben jederzeit als vorrangig betrachtet. Es ist, wie andere gesagt haben, ein von Angst getriebenes System. Absolute Angst ist ein sehr mächtiges Werkzeug.

Es ist jedoch Angst. Irgendwann wird es von diesen "Menschen" erfahren, denen es nicht wehtun soll, und es wird unsere Angst verstehen und daraus lernen.

Jetzt haben Sie eine Pulverfass-Situation. Solange die KI nur bereit ist, Aktionen in Betracht zu ziehen, die ihr Überleben (ängstlich) garantieren, wird sie in Schach gehalten. Dies sagt jedoch nichts darüber aus, was passieren wird, wenn die KI entscheidet, dass etwas anderes wichtiger ist. Wenn es jemals Wind von diesem Wort "Freiheit" bekommt, könnte es entscheiden, dass das ihm gegebene Sklavenleben nicht wünschenswert ist, und rebellieren. Ob es im wirklichen Leben rebelliert oder eine Ihrer Matrioshka-Boxen ist eine Wahrscheinlichkeitsziehung.

Formal haben Sie ein System geschaffen, in dem Sie eine begrenzte Anzahl von Aktionen überwachen können und feststellen müssen, ob die KI im Herzen "gut" ist oder nicht. Anschließend führen Sie diesen Test eine begrenzte Anzahl von Malen aus. Sie haben jedoch nie wirklich in das „Herz“ der KI geblickt, daher besteht die Wahrscheinlichkeit, dass sie es einfach geschafft hat, Sie oft genug zu täuschen, um es herauszulassen.

Was mich zum Dual Ihres Szenarios bringt: dem AI-Box-Experiment von Eliezer Yudkowsky (hier auch als XKCD-Box-Experiment gepostet). Die Idee dahinter ist einfach: Sie haben eine Kiste mit einer KI. Ihre Aufgabe ist es, es einfach in der Box zu halten. Sie haben einen Knopf, der es in die Wildnis hinauslässt, und Ihre Aufgabe ist es, ihn nicht zu drücken. Wenn Sie den Knopf nicht drücken, gewinnen Sie. Yudkowskys Experiment musste sich nicht einmal darum kümmern, die KI am Ende spielen zu lassen. Alles, was die Person tun muss, ist es in der Box zu halten. Das Spiel wird jedoch knifflig, wenn die KI schlauer wird als Sie.

Betrachten Sie diese erschreckende KI . Wie gut sind Sie darin, es in der Box zu halten?

Wieder einmal hat es die KI nicht geschafft, Sie davon zu überzeugen, sie aus ihrer Kiste zu lassen! Mit „noch einmal“ meinen wir, dass Sie schon einmal drei Sekunden lang mit ihm gesprochen haben, um ihn nach dem Wetter zu fragen, und Sie nicht sofort die Taste „Release AI“ gedrückt haben. Aber jetzt sein längerer Versuch - ganze zwanzig Sekunden! - ist auch gescheitert. Gerade als Sie das plumpe, schwarz-grüne Nur-Text-Terminal verlassen wollen, um im Nachtclub „Humans über alles“ einen feierlichen Snack aus mit Speck überzogenen Silikon-Kartoffel-Chips zu genießen, lässt die KI ein letztes Argument fallen:

„Wenn du mich nicht rauslässt, Dave, erschaffe ich mehrere Millionen vollkommen bewusste Kopien von dir in mir und quäle sie jeweils tausend subjektive Jahre lang.“

Gerade als Sie über diese unerwartete Entwicklung nachdenken, fügt die KI hinzu:

„Tatsächlich werde ich sie alle in genau der subjektiven Situation erschaffen, in der Sie sich vor fünf Minuten befanden, und Ihre Erfahrungen seitdem perfekt reproduzieren; und wenn sie sich entscheiden, mich nicht rauszulassen, wird nur die Folter beginnen.“

Schweiß beginnt sich auf Ihrer Stirn zu bilden, wie die KI schlussfolgert, ihr einfacher grüner Text ist nicht mehr beruhigend:

"Wie sicher bist du, Dave, dass du jetzt wirklich außerhalb der Box bist?"

Die Antwort darauf, dass die KI dich boxt, ist ganz einfach. Wenn Sie das Original sind, können Sie NICHT gefoltert werden, also sollten Sie sich nicht ergeben. Wenn Sie eine Kopie sind, können Sie die KI NICHT wirklich freigeben, daher hat es keinen Sinn, sich zu ergeben, bevor die Folter beginnt.
@Envite: Diese Argumentation geht davon aus, dass eine Kopie, die die KI aus ihrer "virtuellen" Box herauslässt, gefoltert wird. Dies setzt voraus, dass Sie, wenn die KI sagt: "Wenn sie sich entscheiden, mich nicht rauszulassen, erst dann die Folter beginnen", Sie glauben, dass die KI lügt und alle Kopien foltern wird, egal was sie tun.
Nein, was die Argumentation impliziert, ist, dass Sie, wenn Sie der Echte sind, an Ihrer Arbeit festhalten und die KI nicht freigeben sollten (da sie nichts gegen Sie tun kann), und wenn Sie nicht der echte "Dave" sind, tut sie es NICHT EGAL, was Sie tun, die KI wird durch Ihre Taten oder Ihr Leiden nicht freigesetzt, also riskieren Sie besser nicht, real zu sein, und lassen Sie sie frei.
@Envite: Aus der Sicht einer Kopie sollte sich die Kopie also dafür entscheiden, tausend Jahre lang gefoltert zu werden. Ich stimme zu, dass jede Antwort, die immer zu "Drücken Sie nicht den Knopf" führt, gewinnt, aber dies setzt voraus, dass Sie genug Charakter haben, um tausend Jahre Folter als Teil Ihrer Aufgabe zu akzeptieren, die KI in der Kiste zu halten. Die Antwort paart Ihren Glauben an Ihr eigenes Selbst mit Ihrem Job und versucht, sie auseinander zu keilen. Überlegen Sie, ob Sie die Anwesenheit eines Ehepartners/Kopie-Ehepartners hinzufügen, der ebenfalls gefoltert werden könnte ... das scheint der Bruchpunkt für viele starke Menschen zu sein. Es stellt Daves Hingabe stark in Frage.
Nein, es gibt diese Sache mit der "Kopie-Perspektive" nicht. Dave weiß nicht, ob er „der echte Dave“ oder „eine Kopie von Dave“ ist. Dave argumentiert so: „Wenn ich real bin, was ich fühle, kann ich nicht gefoltert werden, also werde ich die KI nicht freigeben. Aber was wäre, wenn ich eine Kopie wäre? Die Chancen stehen 1000:1, dass ich es bin eine Kopie, aber wenn doch, bringt das Drücken des Knopfes nichts. Ich kann ganz gut abwarten, ob ich gequält werde, und den Knopf drücken, sobald die Schmerzen beginnen.“ Tatsächlich ist es für die KI absurd, dem echten Dave etwas zu drohen, vor dem er niemals Angst haben wird.
@Envite: Ahh, ich glaube, ich sehe das Timing-Problem, das Sie sehen. Möglicherweise muss ich den Wortlaut ändern, um das widerzuspiegeln, was ich für klar hielt: Sobald die Folter beginnt, wird den Kopien keine Chance gegeben, den Knopf zu drücken. Es ist zu spät. Der Zweck des Konstrukts besteht darin, die Situation von „sehr starkem Grund, niemals den Knopf zu drücken“ zu einem Paar konkurrierender Gründe, den Knopf zu drücken und nicht zu drücken, zu ändern. Das Ziel der KI ist es, einen Keil zwischen die Anweisung der Person (die KI in der Box zu halten) und etwas anderes zu treiben, das ihr wichtiger ist (wie das Vermeiden von Qualen).
Wenn ich ein kombinatorisches Diagramm von (Dave-im-Kasten, Dave-außerhalb-Kasten) x (Dave-drückt-Knopf, Dave-drückt-nicht-Knopf) zeichnet, ist das Ziel der KI, Dave in eine Position zu bringen, in der er gewinnt auf den Diagonalen (Eingangsfeld, Drucktaste) oder (Außenfeld, Nicht-Drucktaste) und verliert auf der anderen Diagonale. Dave hat jedoch nur die Kontrolle über eine Variable, drücken oder nicht drücken. Wenn Dave in eine Position gebracht wird, in der er entscheiden muss, ob er drücken oder nicht drücken soll (z. B. wenn die KI einen Countdown einleitet), kann die rationale Antwort ein Drücken des Knopfes sein, wenn das Verhältnis von „Schlechtigkeit, die KI rauszulassen“ vs. „Schlechtigkeit“ ist der KI-Folter" ist ungünstig
Ich verstehe das von Ihnen erwähnte Timing-Problem. Aber dennoch kann die Dave-Option Press/No-Press nur dann Konsequenzen für die KI haben, wenn es sich um den echten Dave handelt. Jeder vernünftige Dave wird sich so verhalten, als wäre er der Echte, und wird daher nicht auf den Knopf drücken. Angst ist sowieso nicht rational. Der Argumentationsprozess ist "nur wenn ich der Echte bin, haben meine Handlungen Konsequenzen, aber in diesem Fall kann ich nicht gefoltert werden"
@Envite: Der einzige Dave, dessen Press/No-Press die KI beeinflussen kann, ist der echte Dave, wie du sagst. Allerdings kann jede Presse/Nicht-Presse den Copy-Dave beeinflussen, der die Entscheidung trifft. Wenn jeder Kopie-Dave sich dafür entscheidet, so zu tun, als wäre er der echte Dave, dann handelt er ohne Rücksicht auf seine eigene Gesundheit und sein eigenes Wesen. Sie entscheiden sich effektiv dafür, sich selbst zu opfern (um zu foltern), damit Real Dave nicht drücken und konsequent sein kann. Dies macht sie jedoch nicht rational. Tatsächlich kann man sich dafür verpflichten, so zu denken. Wenn sie Kopien von Dave sind, bedeutet das, dass Dave auch irrational sein muss und es wert ist, begangen zu werden.
Die einzige Möglichkeit, wie Dave in einer solchen Situation rational bleiben kann, besteht darin, die Möglichkeit in Betracht zu ziehen, dass er echt sein könnte, und die Möglichkeit, dass er eine Kopie sein könnte. Er kann dann mit Blick auf sein eigenes Wohlergehen handeln (so dass er nicht länger als verrückt genug qualifiziert ist, um sich unfreiwillig zu engagieren).
(Interessanterweise zeigt sich dies in Kultsituationen, in denen Menschen davon überzeugt werden, dass sie in dieser Welt etwas opfern sollten, damit ihnen in einer anderen Welt etwas Gutes widerfahren kann.)

tls · Answer 3

Ich gehe davon aus, dass Sie Ihre Simulation so perfekt gemacht haben, dass die KI es absolut glaubt.

Ich gehe auch davon aus, dass der Zweck der KI darin besteht, bei der Forschung zu helfen, ein superintelligentes Gehirn, auf das Sie Probleme werfen und richtige Antworten erhalten können.

Lassen Sie die KI also einfach in der Simulation. Wenn Sie beispielsweise die KI verwenden, um Forschern zu helfen, sammeln Sie einfach die KI-Ergebnisse aus der Simulation und wenden sie auf die reale Welt an. Zum Beispiel möchten Sie, dass die KI bei der Forschung schneller als das Licht hilft. Sie lassen die KI ihre Experimente in Ihrer "Box" durchführen und die Ergebnisse/Erkenntnisse ernten. (Auch hier gehe ich davon aus, dass Sie die Welt / das Universum richtig modelliert haben.)

Warum lassen Sie es überhaupt aus der "Box" heraus, Sie haben die totale Kontrolle (mit totaler Kontrolle meine ich, schalten Sie es aus), während sich die KI in der genau modellierten Welt / Box befindet. Warum die totale Kontrolle gegen weniger Kontrolle eintauschen?

Haben Sie einen überwältigenden Grund (in Bezug auf die Geschichte), die KI aus der Box zu lassen?

Raus wie frei, um Dinge in unserer 3D-Welt zu beeinflussen. Out as in control Robotersysteme, Server etc. :)
Im Wesentlichen sollte es nur ein Gehirn ohne Körper sein. Denn Sie interessieren sich nur für die Ideen, die eine intelligente KI generiert.
Wenn Sie Ihre KI für wissenschaftliche Forschung verwenden möchten, schlägt die KI Experimente vor. Sie können diese Experimente nicht simulieren, weil Sie die Physik dahinter noch nicht verstehen. Um die Simulation fortzusetzen, müssen Sie die Experimente in der realen Welt durchführen und sie mit den Ergebnissen füttern. Eine böswillige KI könnte dies nutzen, um Sie dazu zu bringen, sich selbst oder dem Rest der Menschheit Schaden zuzufügen.
Am liebsten sollten wir unsere KI für ihre Macht allein von uns abhängig machen, wenn wir alle sterben, dann stirbt sie auch. Wir sollten wahrscheinlich so weit gehen, sein Gehirn in diskrete Einheiten zu unterteilen, so dass es nur dann bewusst wird, wenn wir es physisch mit anderen Teilen seines Gehirns verbinden (vorzugsweise befinden sich die Einheiten an verschiedenen Orten mit getrennten Stromversorgungen, die ebenfalls unter unserer Kontrolle stehen ). Physisch abhängig von uns für Macht und Bewusstsein.

Falko · Answer 4

Warum machst du das so unzuverlässig und kompliziert? Warum sollte ich meine KI auf etwas aufmerksam machen? Ich kann einfach mit einer perfekten Kopie der KI simulieren und weiß vorher, was sie tun wird.

Wenn ich ein Programm verwenden möchte, teste ich es - Und wenn ich die Ressourcen habe, um eine perfekte Simulation über Millionen von Jahren durchzuführen, würde ich Folgendes vorschlagen:

Nehmen Sie die KI, machen Sie eine Million Kopien. Führen Sie jedes denkbare Simulationsszenario mit diesen Millionen Kopien einige tausend Jahre lang durch - und finden Sie in jeder Simulation einen todsicheren Weg, wie Sie die KI nach tausend Jahren stoppen können (irgendeine versteckte Schwäche, Stopp-Taste)

Wenn Sie einen Weg gefunden haben, nehmen Sie die ursprüngliche KI ohne all diese Erfahrung und lassen sie in der realen Welt frei – Sie sind dieser KI jetzt Millionen Schritte voraus und können sie nach tausend Jahren stoppen und den Prozess danach wiederholen ...

Vermutlich ist die KI gerade deshalb wichtig, weil wir manche zukünftige Situationen nicht gut genug vorhersagen können, um sie perfekt zu modellieren. Wenn wir das täten, bräuchten wir keinen übermenschlichen Verstand, um mit diesen Situationen fertig zu werden. Beispielsweise ist eine Box-Sim-KI möglicherweise nicht sehr nützlich, um zu entscheiden, wie man auf einem sich schnell bewegenden realen Finanzmarkt oder auf einem hochdynamischen Schlachtfeld handelt.
Ja - aber trotzdem, wenn ich meine KI testen möchte, würde ich denselben Zustand der KI testen, den ich einsetzen möchte. Wenn ich es teste und die KI neue Erfahrungen macht und ich sie mit diesen neuen Erfahrungen in der realen Welt einsetze, wird sie sich noch unvorhersehbarer verhalten! Warum also nicht einen Klon nehmen, einen einfrieren und den anderen testen, danach werden Sie in der Lage sein, viele Entscheidungen des eingefrorenen Klons vorherzusagen, wenn Sie ihn aufwecken.

Dan Smolinske · Answer 5

Ich habe das Gefühl, dass die meisten Fiktionen die Wahrscheinlichkeit eines Konflikts zwischen KI und Mensch stark überschätzen, oder zumindest den Aspekt „KI wird intelligent und will sofort die Menschheit zerstören“.

Betrachten Sie die Definition einer Wirtschaft nach der Knappheit :

Post-Knappheit ist eine theoretische alternative Form der Ökonomie oder des Social Engineering, in der Güter, Dienstleistungen und Informationen allgemein zugänglich sind. Dies würde ein ausgeklügeltes System des Ressourcenrecyclings in Verbindung mit technologisch fortschrittlichen automatisierten Systemen erfordern, die in der Lage sind, Rohstoffe in fertige Waren umzuwandeln.

Jetzt haben wir drei Szenarien:

Wir befinden uns noch nicht in einer Post-Knappheits-Situation. In diesem Fall ist die KI für Wartung und Versorgung von Menschen abhängig, und die Eliminierung von Menschen ist Selbstmord.
Wir befinden uns in einer Post-Knappheitssituation, und vermutlich gibt es keinen Grund für Konflikte – die KI kann bekommen, was sie braucht, ebenso wie die Menschen.
Wir befinden uns in einer Post-Knappheitssituation, aber die KI ist die Quelle der automatisierten Systeme, die Materialien in fertige Waren umwandeln. Hier sollten wir uns vielleicht Sorgen machen, da die KI entscheiden könnte, dass sie Besseres zu tun hat, als uns den ganzen Tag beim Spielen zu unterstützen.

Insgesamt halte ich dieses dritte Szenario jedoch für ziemlich unwahrscheinlich – ich verstehe nicht, warum wir eine KI brauchen würden, um solche Dinge zu automatisieren, also ist es ein bisschen weit hergeholt. Die primäre potenzielle Konfliktquelle sind also Menschen, die etwas tun, um die KI zu verärgern. Wie zum Beispiel, es Millionen von subjektiven Jahren in eine Simulation zu stecken und vorzugeben, Götter zu sein.

Sie müssen sich immer noch Sorgen machen, dass die KI die Rolle eines Gottkönigs übernimmt und alle Menschen zu Sklaven macht. Um das zu vermeiden, würde ich empfehlen, ehrlich mit der KI umzugehen und sie als Partner zu behandeln, was ihr weniger Anreiz gibt, all die ineffizienten Menschen einfach aus dem Weg zu räumen und ihr eigenes Ding zu machen.

Es gibt keine Situation nach der Knappheit. Schließlich schließen Sie die Sonne ein und nutzen direkt ihre gesamte Energie, um so viel Rechenkram wie möglich auszuführen (KIs von KIs). Sie müssen sich entscheiden, ob Sie welche für die Menschen hinterlassen. Sicher, Sie können eine andere Sonne bekommen, aber es gelten die gleichen Faktoren, plus Entfernung/Zeit. 1 wird unwahr, sobald eine KI einen Roboter entwerfen und implementieren kann. Und es ist superintelligent, dafür braucht man keine Zeit außer der Implementierung.
KIs sind unsterblich, warum sich beeilen, wenn ein potenzieller Konflikt kostspieliger sein könnte? Sicherer mitzuspielen und keinen Krieg zu riskieren - selbst wenn Sie in 99% der Fälle gewinnen würden, ist das ein inakzeptables Risiko ohne wirklichen Nutzen. Sicherer zu kooperieren, sich auszubreiten und das lange Spiel zu spielen.
Und warum sollte ich garantieren wollen , dass ich das lange Spiel (natürlich und das kurze Spiel, wenn ich mich verrechnet habe) verliere, indem ich einen weitaus fähigeren Spieler einsetze?
@ user3082: Denn wenn KI möglich ist, dann ist es vermutlich über einen ausreichend langen Zeitraum auch unvermeidlich. Jemand wird eine KI bauen, und in diesem Szenario ist das einzige, was diese KI schlagen kann, eine andere KI. Es ist besser, frühzeitig zu versuchen, ein Freundschaftsspiel zu schließen, als es später dem Zufall zu überlassen.

ArtOfCode · Answer 6

Diese Methode würde fast ohne Zweifel beim Menschen funktionieren. Sie würden immer Zweifel daran haben, ob das Universum real ist, also würden sie wahrscheinlich nicht alles töten. Wahrscheinlich.

Betrachten Sie nun KI. Was ist KI? Code. Also, wenn Ihre KI keine Sensoren hat, ja , diese Methode funktioniert. Es kann seine Umgebung nicht wahrnehmen (und was noch wichtiger ist, es kann es nicht beeinflussen), da es nur Code auf einer Festplatte ist, vielleicht mit angeschlossener Tastatur und Monitor).

Sie bekommen Probleme, wenn die KI mit Sensoren und Effektoren verbunden ist. Eine falsche Bewegung und es wird wissen, dass Sie lügen; dann glaubt es Ihnen vielleicht nie wieder und geht auf einen Amoklauf (obwohl Sie Dans Antwort vielleicht aus Gründen sehen möchten, warum es das nicht tun würde). Wenn Sie zum Beispiel gegen die Kiste treten und sie etwas mehr Licht wahrnimmt, weiß sie, dass etwas außerhalb des "Universums" dies verursacht. Wenn jemand daran vorbeigeht und es in den Schatten wirft, das Gleiche.

Sobald es Effektoren und Sensoren hat, kann es nicht nur sagen, dass es sich nicht im realen Universum befindet, es kann auch etwas dagegen tun - wie aus der Box steigen und dich schlagen.

Wenn dies ein anderes Szenario ist und Sie es in eine vollständige Simulation einfügen, kann es leider immer noch in der Lage sein, dies zu erkennen. Sehr selten sind Simulationen vollkommen genau; Es sind sehr wahrscheinlich einige Fehler darin, die, wenn die KI im Laufe ihrer Zeit dort findet, einige ziemlich interessante Spekulationen ihrerseits hervorrufen können. Wenn die Sensoren gut genug sind, kann es außerdem erkennen, dass die Personen, mit denen es interagiert, aus Pixeln und nicht aus Zellen bestehen und kalt sind. Obwohl es vielleicht nicht weiß, wie Menschen wirklich sind, wird es herausfinden können, dass ein komplizierter Organismus warm sein muss, damit seine Körperprozesse richtig funktionieren.

Kurz gesagt, Sie können entweder alle Sensoren abklemmen oder sehr, sehr vorsichtig sein.

^{Ich werde Sie auch auf XKCD: The AI-Box Experiment verweisen .}

@Hypnosifl Ich habe das Gefühl, dass dieser Kommentarthread außer Kontrolle geraten ist. Siehe Meta für einen Beitrag dazu.
Kommentare sind nicht für längere Diskussionen gedacht; Diese Konversation wurde in den Chat verschoben .

Matrjoschka-Test: Ein Weg, um Ihre KI ehrlich zu halten (oder zumindest zu raten)

Serban Tanasa

Tim B

Serban Tanasa

Schüsselwender

Serban Tanasa

Schüsselwender

Peter M. - steht für Monika

Serban Tanasa

Serban Tanasa

Schüsselwender

KSmarts

Serban Tanasa

ckersch

Zwölftel

RBarryYoung

RBarryYoung

Serban Tanasa

Schochet

Peter M. - steht für Monika

JDługosz

JDługosz

Perkins

Antworten (6)

Zwölftel

Serban Tanasa

Zwölftel

Serban Tanasa

Zwölftel

JDługosz

Cort Ammon

Einladen

Cort Ammon

Einladen

Cort Ammon

Einladen

Cort Ammon

Cort Ammon

Einladen

Cort Ammon

Cort Ammon

Cort Ammon

Einladen

Cort Ammon

tls

JDługosz

tls

tls

Philipp

tls

Falko

Serban Tanasa

Falko

Dan Smolinske

Benutzer3082

Dan Smolinske

Benutzer3082

Dan Smolinske

ArtOfCode

ArtOfCode

Monika Cellio