Warum ist die in der Nudged Elastic Band-Methode verwendete Zielfunktion sinnvoll?

Bei der Nudged Elastic Band (NEB)-Methode , die verwendet wird, um Reaktionswege zu finden, wenn sowohl der Anfangs- als auch der Endzustand bekannt sind, wird zuerst eine Zielfunktion konstruiert und dann minimiert, um Reaktionswege zu finden.

NEB erstellt eine Reihe von Nachbildungen (oder „Bildern“) des Systems zwischen Anfangs- und Endzustand und verbindet sie mit Federn, um einen Pfad darzustellen, der Anfangs- und Endzustand verbindet. Zunächst können die Bilder zwischen Edukt und Produkt linear interpoliert werden. Dann wird ein Optimierungsalgorithmus angewendet, um die Bilder in Richtung des Minimum Energy Path (MEP) zu entspannen.

Die Zielfunktion wird als eine Kombination aus potentieller Energie jedes Bildes und "Federenergie" zwischen jedem Bild konstruiert, wie die nachstehende Gleichung zeigt.

S ( R 0 , . . . , R N ) = ich = 1 N 1 E ( R ich ) + ich = 1 N k 2 ( R ich R ich 1 ) 2

Wo R ich die Koordinaten des i-ten Bildes sind.

NEB löste in diesem Modell die Probleme des "Eckenschneidens" und des "Herunterrutschens", indem vertikale und parallele Komponenten der potenziellen Kraft und der Saitenkraft berücksichtigt wurden. Ich werde hier nicht vorstellen, Sie können in diesem Artikel nach weiteren Details suchen.

Meine Frage ist, warum die obige Zielfunktion vernünftig ist. Führt die Minimierung dieser Zielfunktion ausreichend zum MEP? Wenn ja, wie kann man das beweisen? Wenn nein, warum wird dieses „Ketten-von-Staaten“-Modell häufig verwendet?

Vielen Dank für die Beantwortung.

Antworten (2)

Ich habe keinen Hintergrund in dieser Angelegenheit, aber ich denke, eine grundlegende Intuition ist angebracht.

Herunterrutschen:

Angenommen, Sie haben eine Kette aus Gummibällen, die durch elastische Federn verbunden sind. Halten Sie die Kette hoch und lassen Sie sie baumeln. Beachten Sie, dass die Energie des Systems genau wie oben ist, mit E ( R N ) = M G Z N Wo Z N ist die Ballhöhe N .

Wie wird es aussehen? Nummerierung der Kugel unten als N = 1 und die darüber als N = 2 , 3... , Sie haben die Kraft am Ball N von denen, die darunter hängen, ist M G ( N 1 ) . Damit ist der Dehnweg der Feder darunter D ( N ) = M G ( N 1 ) / k . Definieren Sie die Höhe von Ball 1 als 0, die Höhe von Ball N wird sein

H ( N ) = J = 1 N D ( J ) = G M ( N 2 N ) 2 k
das sieht so aus:

ListLinePlot[
 Table[{0, (g m (-n + n^2))/(2 k) /. {g -> 1, m -> 1, k -> 1}}, {n, 
   10}], Axes -> False, PlotMarkers -> Automatic, AspectRatio -> 4]

Geben Sie hier die Bildbeschreibung ein

Wie Sie sehen können, wird es oben gestreckt, weil die Glieder oben mehr Gewicht tragen.

Nehmen wir nun an, Sie legen das Seil über eine Schildkröte (oder ein anderes hügelförmiges Objekt). Wie wird es aussehen? Aus dem vorherigen Beispiel sollte intuitiv ersichtlich sein, dass die Kugeln am oberen Rand der Schildkröte weiter auseinander gestreckt werden, während an den unteren Rändern die Federn entspannter sind und die Kugeln näher beieinander liegen. Mit anderen Worten, die Auflösung ist am oberen Rand des Schildkrötenpanzers schlechter als an den unteren Rändern.

Das ist ein Problem. Wenn Sie versuchen, eine Oberfläche mit minimaler Energie zu finden, möchten Sie eine gute Auflösung im Bereich des Sattelpunkts (auch als Point of no Return bezeichnet) erzielen, aber diese Methode bewirkt genau das Gegenteil. Das ist gemeint, wenn der Artikel "herunterrutschen" sagt: Die Perlen hängen zu den unwichtigen Teilen durch und werden über den wichtigen Teilen dünn gedehnt.

Beachten Sie, dass die Kraft, die dieses Problem verursacht, parallel zu den Federn ist, wie im Artikel erwähnt.

Ecken schneiden:

Nehmen wir nun an, Sie befinden sich in einem Tal zwischen zwei Hügeln und das Tal biegt sich in eine Richtung. Lassen Sie ein Seil ins Tal fallen und ziehen Sie es straff.

Wie sieht es aus?

Wenn Sie nicht zu stark ziehen, wird es gerade und tut sein Bestes, um sich der Form des Tals anzupassen, etwa so:

Geben Sie hier die Bildbeschreibung ein

Aber wenn Sie zu stark daran ziehen, fängt es an, über die Ecke zu schneiden, wie hier:

Geben Sie hier die Bildbeschreibung ein

Beachten Sie, dass die Kraft, die dieses Problem verursacht, senkrecht zu den Federn steht, wie im Artikel erwähnt.

Schöne Erklärung! Aber was halten Sie von der Zielfunktion selbst? Führt bei genügend Bildern die Minimierung der Funktion zwangsläufig zu einem Sattelpunkt zwischen Anfangs- und Endzustand?
Ich weiß nicht wirklich genug, um rigoros zu beweisen, unter welchen Bedingungen es zu einem Pfad mit minimaler Energie konvergiert, aber ich vermute, dass die praktische Erfahrung beim Testen der Methode auf Oberflächen und beim Sehen, wie gut sie konvergiert, die theoretischen Überlegungen überwiegt. Es scheint intuitiv wahrscheinlich, dass es konvergieren sollte; Der Energieterm treibt die Minimierung der Energie der Kette und die Wahl eines Wertes ungleich Null voran k -constant macht die Kette etwas starr (andernfalls würden alle Kugeln zu einem einzigen Punkt niedriger Energie im Konfigurationsraum zusammenbrechen). Aber ich weiß es nicht wirklich.

Ok, das ist also eine ziemlich späte Antwort, aber ich habe darüber nachgedacht und ich glaube, ich habe es herausgefunden - obwohl ich mir nicht einmal sicher bin, ob die ursprüngliche NEB mit genau dieser Begründung implementiert wurde, wenn ich sehe, wie unbekümmert es scheint mit seiner Notation sein. Aber trotzdem ist es eine gute Begründung. Schnallen Sie sich an, denn es ist ein bisschen wie eine Fahrt - das beinhaltet nicht weniger Quantenmechanik und Feynman-Pfadintegrale!

Beginnen wir also zunächst mit dem Begriff „Aktion“. Aktion ist eine über einen Pfad definierte Größe. Wenn wir eine Bewegung rechtzeitig ab haben T = 0 Zu T = T einem Pfad folgen X ( T ) dann ist die Aktion das Zeitintegral der Lagrange-Funktion, L :

S = 0 T L ( T ) D T = 0 T 1 2 M X ˙ 2 v ( X ) D T

Dies berücksichtigt eine interessante Eigenschaft der Quantenmechanik. Wenn wir uns fragen, "wie wahrscheinlich ist es, dass ein Teilchen darin gefunden werden kann X 0 bei T = 0 in einem Potential v dann zu finden unter X N bei T = T ?", kann die Antwort entweder durch einen Propagator oder durch ein Pfadintegral ausgedrückt werden. Insbesondere:

P ( X N , T ; X 0 , 0 ) = X N | e ich H T | X 0 = A D [ X ( T ) ] e ich S

OK. Erklärungszeit! Die erste Formulierung ist Ihre typische Quanten-Braket-Notation: Sie wählen Ihren Anfangszustand aus und entwickeln ihn unter Verwendung eines Zeitpropagators, der das Exponential des Hamilton-Operators (auch bekannt als die Energie des Systems) dividiert durch die Zeiten der Planck-Konstante ist ich T , dann projizieren Sie es auf den gewünschten Endzustand. Die Überschneidung zwischen dem entwickelten Zustand und dem gewünschten Zustand ist, wie wahrscheinlich es ist, dass dieser spezifische Prozess stattfindet. Immer noch bei mir? Gut.

Die zweite Formulierung ist die Feynman-Pfadintegralnotation. Es sagt etwas etwas anderes aus: Es besagt, dass die Wahrscheinlichkeit, das System in diesem Endzustand zu finden, proportional ist (es gibt einen Normalisierungsfaktor A um die wir uns jetzt einfach keine Gedanken machen) zur Summe einer imaginären Exponentialfunktion der Wirkung, dividiert durch die Planck-Konstante, für alle möglichen Pfade, die die beiden Zustände in dieser Zeit verbinden . Das ist, was D [ X ( T ) ] bedeutet: es ist kein Integral über eine Variable, es ist ein Integral über Funktionen . Und wie Sie sich denken können, ist das sehr schwer zu berechnen. Mehr dazu in einer Minute. Betrachten wir zunächst, was dieser Pfadintegralformalismus bedeutet.

Die Aktion ist, wie die Energie, kein absoluter Wert, sie ist bis auf eine Konstante definiert und ist ein Integral einer sehr energieähnlichen Größe, der Lagrange-Funktion, und so weiter. Nehmen wir also an, dass es einen Pfad gibt, der unsere beiden Ereignisse mit minimaler Aktion verbindet, und alle anderen Pfade einen größeren haben. Beachten Sie, dass diese Annahme nicht immer wahr ist, und das bedeutet, dass diese Argumentation und all ihre Konsequenzen manchmal durcheinander geraten können; aber andererseits kann auch die NEB, wenn es zwei gleichermaßen mögliche Sattelpunkte gibt, also Geduld mit mir. Wenn wir unter dieser Annahme arbeiten, dann können wir setzen S = 0 für diesen Weg, und S > 0 für alle anderen. Diese anderen Pfade tragen dann mit oszillierenden Termen zum Gesamtintegral bei, und zwar umso größer S , je schneller die Schwingungen sind, desto wahrscheinlicher heben sie sich gegenseitig auf. Wenn wir uns vorstellen zu schrumpfen (was ein großes No-Go ist, es wird nicht umsonst als Konstante bezeichnet, aber lasst uns für einen Moment Götter erschaffen und unsere eigenen Versionen des Universums erschaffen), dann werden diese Schwingungen wilder und wilder; und in der Grenze von 0 , das heißt, an der Grenze eines perfekt klassischen, Newtonschen, absolut nicht quantenhaften Universums geraten sie völlig außer Kontrolle, und es bleibt nur ein Weg übrig, um einen Beitrag zu leisten: der mit der minimalen Wirkung.

Wir haben gerade das Prinzip der geringsten Wirkung abgerufen , das besagt, dass der (Newtonsche) Weg zwischen zwei Punkten in Raum und Zeit immer derjenige mit der minimal möglichen Wirkung ist.

Was hat das mit NEB zu tun? Nun, wir brauchen noch ein paar Schritte und einen Trick.

Nehmen wir an, wir haben ein klassisches System und möchten den Weg der geringsten Aktion zwischen zwei Punkten in Raum und Zeit berechnen. Die Sache ist die, dass alle Newtonschen Trajektorien der Pfad der geringsten Aktion zwischen ihrem Startpunkt und ihrem Ankunftsort sind; aber wir wissen nicht, wo sie ankommen werden, bevor wir sie ausprobieren. Stattdessen kennen wir hier sowohl die Anfangs- als auch die Endbedingungen, und wir wissen nichts über den Pfad selbst (einschließlich der Anfangsgeschwindigkeit). Also, wie machen wir das, besonders mit einem Computer? Nun, ich würde sagen, wir diskretisieren das Integral, um die Aktion zu berechnen N Schritte, mit einem Zeitschritt D T = T / N , zerlegt es in eine Summe von Zwischenschritten X 1 , X 2 , . . . . Auf diese Weise wird die Aktion zu:

S = ich = 0 N [ 1 2 M X ich ˙ 2 v ( X ich ) ] D T

Diese Diskretisierung ist übrigens auch eine hervorragende Möglichkeit, obiges Integral zu berechnen, und wird zum Beispiel in der Quantenfeldtheorie oft verwendet. Wie berechnen wir diese Geschwindigkeiten? Nun, nehmen wir einfach an, dass sie zwischen jedem Paar von Schritten konstant sind, also

X ich ˙ = X ich X ich 1 D T

Und

S = ich = ich N 1 2 M ( X ich X ich 1 ) 2 D T ich = 0 N v ( X ich ) D T

Fängt dies an, wie Ihre ursprüngliche NEB-Objektfunktion auszusehen, wenn Sie es nehmen k = M / D T ?

Aber sehen Sie, es gibt immer noch ein Problem, nämlich das schädliche "Minus"-Zeichen vor dem Potenzial. In Ihrer ursprünglichen Formel ist es ein Plus! Das ist ein Hamiltonian, kein Lagrangeian. Also, was lässt es verschwinden?

Letzter Trick, ich schwöre. Docht Rotationszeit . Ein weiterer Favorit der Anbieter von QFT.

Das klingt wirklich ein bisschen nach Magie. Sehen Sie den Quantenpropagator oben? Ich meine das:

e ich H T

Nun, wenn Sie wissen, dass der Hamilton-Operator im Grunde die Energie des Systems ist, sieht das sehr nach einer Partitionsfunktion aus. Also lassen wir es so aussehen. Nehmen wir eine Änderung der Parameter vor: T ich τ .

e ich H T e H τ

Ok, das muss Betrug sein, oder? Aber eigentlich ist es vollkommen in Ordnung, wir definieren nur einen Parameter in unserer Mathematik neu, nichts hat sich geändert. Wir nennen τ die "imaginäre Zeit" und das einzige, woran man sich wirklich erinnern muss, ist, dass sie nichts mit der realen Zeit zu tun hat und wir die beiden niemals so in Beziehung setzen sollten, als ob sie gleich wären, sie sind es nicht. Schauen wir uns nun an, was das für unsere Aktion bedeutet. Wir müssen also sein Zeitelement ändern D T ich D τ , aber schau was passiert...

S = ich ich = ich N 1 2 M ( X ich X ich 1 ) 2 D τ + ich ich = 0 N v ( X ich ) D τ

Nun, hier haben wir es! Es gibt auch viele bequeme Konsequenzen, wie zum Beispiel, wenn wir zum Pfadintegral zurückkehren, oszillieren die nicht-minimalen Aktionen jetzt nicht nur, sie verschwinden exponentiell , und das macht das Integral viel besser konvergieren. Dabei ist uns aber der ursprüngliche Zusammenhang zwischen Bahnen und Dynamik verloren gegangen! Diese Pfade, die wir durch die Optimierung dieser Aktion erhalten, sind keine wirklichen Pfade, sondern Pfade in "imaginärer Zeit", was offen gesagt nach einer schlechten Doctor Who-Episode klingt. Hat diese Zeit also etwas damit zu tun? Sehen Sie sich den Teil an, in dem wir zum ersten Mal die Wick-Rotation durchgeführt haben. Das sieht sehr nach einer Partitionsfunktion aus, oder? Tatsächlich wäre es eine Partitionsfunktion , wenn wir setzen τ = β ( β hier ist die übliche Umkehrung der Temperatur mal der Boltzmann-Konstante). Da haben Sie also: Imaginäre Zeit ist umgekehrte Temperatur . Wenn Sie diesen Weg oben berechnen, suchen Sie nicht nach einem bestimmten Weg in der Zeit, sondern nach einem Weg bei einer bestimmten Temperatur und höher T (das letzte Mal), je niedriger die Temperatur... äh... T Ich denke (ok, mir ist klar, dass ich hier tatsächlich eine leicht verwirrende Notation verwendet habe. Entschuldigung dafür). Es stellt sich heraus, Ihre k in der NEB-Zielfunktion ist genau proportional zur Temperatur. Stellen Sie es hoch ein, und Partikel werden Abstriche machen: Sie haben genug kinetische Energie, um das zu tun. Stellen Sie ihn niedrig ein, und Partikel rutschen einfach in ihre potenziellen Becken zurück: Sie können sie nicht verlassen.

Und deshalb verwendet die NEB diese objektive Funktion und was ihr physikalischer Sinn ist.

Die Objektfunktion, die Sie aufgeschrieben haben, ist nicht für NED, sondern für eine einfache Gummibandmethode. NED beginnt mit dieser Aktion, entfernt jedoch die Federkraft, die dem Pfad zugrunde liegt, und entlang des Pfads ignoriert NEB alles andere als die Federkraft.
Die Objektfunktion, die es zu minimieren versucht, ist konzeptionell dieselbe; NEB fügt dann künstliche Korrekturen hinzu, um zu versuchen, das Problem einer übermäßigen Federspannung zu vermeiden, die dazu führt, dass der Pfad einfach über den kürzesten Pfad geht, anstatt in den Sattelpunkt zu rutschen. Ich glaube nicht, dass es dafür eine tiefere theoretische Begründung gibt als "es funktioniert". Der Unterschied besteht darin, dass NEB nur nach einem Pfad sucht, nicht nach einem bestimmten Prozess bei einer bestimmten Temperatur.