Motivation für kovariante Ableitungsaxiome im Kontext der Allgemeinen Relativitätstheorie

In der Allgemeinen Relativitätstheorie ist die Idee einer kovarianten Ableitung auf einer Mannigfaltigkeit ziemlich wichtig und wird normalerweise durch eine Reihe von Axiomen definiert:

Lassen M eine glatte Mannigfaltigkeit sein. Eine kovariante Ableitung An M ist eine Karte die ein Vektorfeld nimmt X und ein ( R , S ) -Tensoren T für alle R , S Herstellung der ( R , S ) Tensor X T und befriedigend:

  1. X F = X F , Wenn F C ( M ) ,
  2. X ( T + S ) = X T + X S
  3. X T ( ω , Y ) = ( X T ) ( ω , Y ) + T ( X ω , Y ) + T ( ω , X Y ) und ähnlich für alle ( R , S ) -Tensor
  4. F X + G Y T = F X T + G Y T

Ich weiß, dass diese kovariante Ableitung in einem allgemeineren Kontext aus einer Verbindung mit einem Hauptbündel wiederhergestellt werden kann.

Davon rede ich hier nicht. Was ich hier spreche, ist genau diese Definition der kovarianten Ableitung, normalerweise diejenige, die in der Allgemeinen Relativitätstheorie verwendet wird.

Das Problem ist: Die kovariante Ableitung ist im Kontext der Allgemeinen Relativitätstheorie sehr wichtig, aber die Definition mit diesen Axiomen ist zu abstrakt.

Gibt es eine Möglichkeit, diese Definition im Kontext der Allgemeinen Relativitätstheorie zu begründen? Oder allgemeiner gesagt, gibt es eine Möglichkeit, diese Definition einer kovarianten Ableitung aus physikalischer Sicht zu begründen?

Auch hier könnte ich einfach die Axiome akzeptieren und weitermachen, aber da dies zu abstrakt ist und ich mich mit Physik und nicht mit Mathematik befasse, möchte ich, wenn möglich, ein wenig Motivation und Einsicht gewinnen.

Antworten (3)

Sicher. Lassen Sie mich mit der Geschichte bis zu diesem Punkt beginnen (eines Tages werde ich sie an einer zentralen Stelle aufschreiben), damit wir überall Beispiele haben können.

Grundlagen

Punkte und Skalarfelder

Sie beginnen also mit einer Reihe von Objekten M , und wir werden nicht wirklich einen Blick auf die Struktur der Objekte selbst werfen (außer vielleicht auf Gleichheit), also nennen wir sie einfach "Punkte", um anzuzeigen, dass wir uns nicht um ihre interne Struktur kümmern. Ähnlich wie in der Kategorientheorie werden wir sie als Black Boxes behandeln und ihre Struktur beschreiben, indem wir eine Reihe von Funktionen hinzufügen: in diesem Fall die Skalarfelder S ( M R ) , die wir "glatt" sein wollen. Um diese Glätte zu erreichen, interpretieren wir Funktionen neu R k R als Funktionen ( M R ) k ( M R ) indem man sie "punktweise" anwendet. Lassen Sie mich diese Doppelnatur formal mit eckigen Klammern (Skalarfeldseite) und runden Klammern (Funktionsseite) bezeichnen

F [ S 1 , S 2 , S k ] = P F ( S 1 ( P ) , S 2 ( P ) , S k ( P ) ) ,
Wo konstruiert eine Funktion aus einem Symbol ( P ) und einen symbolischen Ausdruck, auf den es abgebildet wird ( F ( ) ). Ich habe keinen guten Namen für diese doppelte Interpretation dieser glatten Funktionen gesehen: also, wenn eine glatte Funktion in C ( R k , R ) so interpretiert wird, nenne ich sie gerne k -Funktoren, weil es da draußen ein ziemlich cooles Kategoriediagramm gibt.

Wir haben also eine Reihe von Punkten mit einer anderen Reihe S von glatten Skalarfeldern, die darüber definiert sind, und S ist darunter geschlossen k -Funktoren für alle k . Diese erledigen tatsächlich eine Menge Arbeit im Voraus; Plus ( A , B ) = A + B Und mal ( A , B ) = A B sind beide 2-Funktoren und so unter unserem Axiom that S ist darunter geschlossen k -Funktoren (sie bilden ab S k S ) Dies sind beide zulässige punktweise Operationen auf Skalarfeldern. Noch besser: Definieren Sie, dass eine Teilmenge von M ist geschlossen , wenn es sich um einen Kernel für ein Feld in handelt S oder offen, wenn sein Komplement geschlossen ist, und Sie haben eine natürliche Topologie: Punktweise Multiplikation ergibt eine Vereinigungsoperation, punktweise Addition von Quadraten ergibt einen Schnittpunkt, und Sie können problemlos unendliche Schnittpunkte und endliche Vereinigungen zulassen. Mithilfe von Bump-Funktionen können Sie sogar beweisen, dass alle Skalarfelder in S sind kontinuierliche Karten zu R auf dieser Topologie. Als Beispiel für diesen Theoriepunkt: Wir können jetzt fordern, dass der Raum zusammenhängend ist, was in der Topologie bedeutet: "Der gesamte Raum ist keine Vereinigung zweier disjunkter offener Mengen." Indem wir uns durch die Definitionen zurückarbeiten, schreiben wir zuerst die Behauptung in ihre Ergänzung um; Wenn A B = M mit A , B disjunkt M A offen sein bedeutet B ist geschlossen. Es ist also auch nicht die Vereinigung zweier disjunkter abgeschlossener Mengen. Wir sagen also axiomatisch, dass wenn S 1 S 2 = 0 ist das Nullfeld (das existieren muss, weil es a ist 0 -Funktor!), dann gibt es irgendwann einen Punkt P so dass S 1 ( P ) = S 2 ( P ) = 0. Und das ist eine schöne Eigenschaft, denn diesen Skalarfeldern fehlt diese entscheidende Eigenschaft, an die wir so gewöhnt sind, " A B = 0 bedeutet entweder A = 0 oder B = 0. „Skalare Felder können auf nicht überlappenden Teilmengen jeweils Null sein, um miteinander zu multiplizieren, um Null zu bilden. Aber solange der Raum verbunden ist, gewinnen wir zumindest etwas Ähnliches zurück.

Also, für tatsächliche Beispiele von Skalarfeldern, auf der Oberfläche der Kugel befinden sich die Punkte tatsächlich { ( X , j , z ) : X 2 + j 2 + z 2 = 1 } , aber wir weigern uns, direkt hineinzuschauen. Stattdessen beginnen wir mit Skalarfeldern X , j , z die zufällig diese Komponenten extrahieren und glatte Funktionen schließen, um den vollständigen Satz von Skalarfeldern zu erhalten. Auf der anderen Seite sagen wir, θ (der Azimutwinkel - der Polarwinkel ist meiner Meinung nach in Ordnung) ist kein gültiges glattes Skalarfeld, da es diese unangenehme Diskontinuität aufweist, die uns von der offensichtlichen Topologie wegführt, die wir verwenden möchten. Sie können auch sehen, dass dies "lokal" aussehen wird R 2 und wird ähnliche offene Mengen haben. Wir könnten eine ähnliche Behandlung mit dem Torus usw. durchführen.

Die überlappenden Koordinatensätze.

Dann haben wir eines unserer wichtigsten Axiome: die Aussage, dass es um jeden Punkt geht P es gibt eine offene Menge, die enthält P Und D Skalarfelder, die (a) verwendet werden können, um Punkte in dieser offenen Menge zu unterscheiden, und (b) verwendet werden können, um Skalarfelder zu erweitern, so dass jedes Skalarfeld auf dieser offenen Menge als a erweitert werden kann D -Funktor der Koordinatenfelder. Auf der Kugel können wir also wieder die Felder verwenden X , j als unsere Koordinaten in der nördlichen oder südlichen Hemisphäre (die offene Mengen sind, wenn wir den Äquator nicht einbeziehen: Verwenden Sie eine Bump-Funktion an z um das zu sehen). Ebenso haben wir überlappende Hemisphären in Bezug auf j Und z die ihre jeweiligen "Äquatoren" nicht enthalten. Aber selbst wenn sich ein Punkt auf zwei dieser Äquatoren befindet, können wir sehen, dass er nicht auf dem dritten liegt: Jeder Punkt hat also eine offene Menge und zwei "Koordinaten" -Felder, und auf dieser Teilmenge können alle Skalarfelder geschrieben werden als Funktionen F ( X , j ) oder was hast du. Das heisst D = 2 und die Kugel ist zweidimensional. Kinderleicht.

Vektorfelder, Tensorfelder.

Nun führen wir die Vektorfelder ein, die eine Menge sind v ( S S ) Einhaltung des Leibniz-Gesetzes. Sagen F ( M ) ist die partielle Ableitung von F (was eine Funktion in ist C ( R k , R ) , Geist) in Bezug auf seine M th Streit. Dieses Leibniz-Gesetz sagt das für jeden k -Funktor F ,

v F [ S 1 , S 2 , S 3 , S k ] = M = 1 k F ( M ) [ S 1 , S k ]     v S M .
Wenn dies aus dem Nichts zu kommen scheint, denken Sie daran, dass es tatsächlich sehr logisch mit allem zusammenhängt, was wir oben gesagt haben. Das Schließungsaxiom erzeugt nicht nur diese Operationen Und , aber das Koordinatenaxiom bedeutet, dass nun auf irgendeiner offenen Menge jeder Skalar S ist heimlich a D -Funktor S [ C 1 , C 2 , C D ] . Definieren Sie auf dieser Teilmenge die Skalarfelder v ich = v C ich , jetzt hast du gerade das v S = ich = 1 D v ich ich S . Deshalb sind diese linearen Leibniz-Karten "Vektorfelder"; lokal sind sie gerichtete Ableitungen von Skalarfeldern. Aber sie sind geometrisch definiert: Sie werden nicht durch diese Komponenten definiert v ich , sie sind einfach so vor Ort darstellbar . Es ist nicht schwer, das zu sehen U + v wohldefiniert ist oder so S v ist wohldefiniert, aber es gibt kein Offensichtliches U v aus obiger Definition. Allerdings gibt es eine Lie-Klammer: [ U , v ] = U v v U muss Leibniz sein, wenn beides U Und v Sind. (Außerdem ist dies kein "Vektorraum" im normalen mathematischen Sinne, sondern ein "Modul". Dies liegt nur daran, dass die skalaren Felder kein "Feld" im normalen mathematischen Sinne sind: genauso wie Sie nicht teilen können durch 0, Sie können nicht durch ein Skalarfeld dividieren, das an einigen Stellen 0 ist, daher versagt ein Axiom [die Existenz von multiplikativen Inversen für jedes Element ungleich Null].)

Sobald wir Vektorfelder haben, haben wir Covektorfelder (nennen Sie dies v ¯ ), die linearen Abbildungen v S . und dann können wir das vorstellen [ A , B ] Tensorfelder wie die multilinearen Abbildungen aus ( v M , v ¯ N ) S . Nennen Sie das v M N für natürliche Zahlen M , N . Jetzt gibt es eine geometrische Version der Einstein-Notation, bei der wir einfach viele Kopien dieses Tensorraums erstellen v M N und kommentiere es mit einem neuen Buchstaben T Plus N verschiedene obere Symbole und M voneinander verschiedene untere Symbole. Wir versehen auch alle Bewohner eines dieser Räume mit den entsprechenden Symbolen, und wir müssen diese Symbole möglicherweise so spezifizieren, dass sie in einer tensorabhängigen Reihenfolge sind (dh nicht alle Tensoren sind symmetrisch). Äußere Produkte werden auf naheliegende Weise definiert, z. B. eine Karte aus T A × T B T A B . Soweit ich mich erinnere, brauchen wir ein zusätzliches Axiom, das besagt, dass jeder Tensor in, sagen wir, T D e A B C kann als Summe äußerer Produkte von Termen in geschrieben werden T A × T B × T C × T D × T e , aber dies ist (wenn das Gedächtnis dient) anscheinend eine Folge der Parakompaktheit oder der Existenz der Metrik oder so etwas. Der Punkt ist, dass jeder Tensor offiziell "jede multilineare Karte von Vektoren und Covektoren zu Skalaren" ist, aber heimlich eine endliche Summe äußerer Produkte von Vektoren und Covektoren ist.

Wie auch immer, der Grund, warum dieses letzte Axiom wichtig ist, ist, dass es Indexkontraktionen ermöglicht : Erweitern Sie in Bezug auf die endliche Summe, dann können Sie einen der Terme von anwenden v ¯ zum entsprechenden Begriff von v um ein Skalarfeld zu erhalten. Und wie Sie erwarten können, können wir dies symbolisieren, indem wir einen Index zwischen den oberen und unteren Vektoren wiederholen, um zu sagen "diese werden verbunden". So v B D A B C lebt in T D A C und eine rein geometrische Interpretation hat, gibt es keine "implizite Summierung" von "Komponenten".

An dieser Stelle haben wir auch eine automatische Gradientenoperation auf Skalarfeldern; S = v v S ordnet jedes Skalarfeld einem Covektorfeld zu. Wir führen auch den metrischen Tensor ein, eine Besonderheit [ 0 , 2 ] Und [ 2 , 0 ] Tensor, der Vertrag zur Identität [ 1 , 1 ] Tensor und zeigen eine spezielle Bijektion zwischen Kovektorfeldern und Vektorfeldern.

Die Verbindung

OK, wenn wir also diese ganze Geschichte haben, ist die offensichtliche Frage, ob es eine sinnvolle Verallgemeinerung von gibt A zu Vektoren, wie es für Skalare eindeutig definiert ist. Und die Antwort lautet: "Nun, es ist nicht ganz so einzigartig, aber ja, in vielen Fällen gibt es das."

Aber wir fangen im Grunde nur mit den Axiomen an. Wir gehen zum Beispiel von aus A v B sinnvoll sein, und dann wollen wir verallgemeinern A ( k v B ) mit der Leibniz-Regel, und wir finden, dass es so sein sollte v B A k + k A v B . Ebenso wollen wir A ( u B + v B ) = A u B + A v B als einfache Linearitätsanforderung. Unsere Definition für seine Wirkung auf Covektoren ist auch wirklich einfach; daran erinnern, dass die Kontraktion u B u B ist ein Skalar, und wir erwarten A ( u B v B ) = u B A v B + v B A u B . Da der erste und der zweite Term bereits wohldefiniert sind, definieren wir lediglich die Wirkung von A auf einem Covektor als Differenz dieser beiden Terme, und wir bekommen diese Gleichung kostenlos. Wir nehmen also an, dass eine Verallgemeinerung dieser Form existiert.

Ihre Gleichungen betreffen alle diesen Operator A . Die Verbindung ist leicht zu erkennen, wenn Sie sich daran erinnern v A ( A S ) ist definiert als v S durch die geometrische Definition des Covektors A . Ihr Ausdruck v ist also gleichbedeutend mit v A A , und wir verallgemeinern A mit Vektoren zu operieren, also macht es Sinn, dass das dann v A A wird auch verallgemeinert. Ihr erstes Axiom lautet nur: "Die nicht verallgemeinerte Form muss immer noch das tun, was der Skalargradient tut, bitte nicht damit herumspielen." Ihr zweites Axiom lautet „Dies ist ein linearer Operator“ und Ihr drittes Axiom lautet „Dies ist ein Leibniz-Operator“, und Ihr viertes Axiom ist nur eine direkte Folge der Tatsache, dass die v A Premultiplier und Kontraktionsbetrieb sind ebenfalls linear an v A , oder mit anderen Worten A Karten T T A .

Ein intuitives Verständnis für die Entartung

Der grundlegende Grund dafür, dass dies im Allgemeinen nicht einzigartig ist, ist auch nicht allzu schwer zu verstehen. Der parallele Transport eines Skalars ist sinnvoll; Wenn Sie in die Richtung des Gradienten gehen, nimmt er zu, in der entgegengesetzten Richtung ab, und am Ende des Tages ist es nur eine Zahl, sodass Sie glauben können, dass Sie immer dieselbe Zahl erreichen, egal wie Sie gehen . Der parallele Transport eines Vektors ist jedoch schwieriger. Nehmen wir an, ich befinde mich in Kansas City in den USA und schaue nach Norden und strecke meinen rechten Arm als Vektor aus, der nach Osten zeigt. Ich gehe jetzt zum Nordpol, ich zeige nach Süden (natürlich bin ich das, alle Richtungen sind südlich vom Nordpol), ungefähr in Richtung Madrid. Aber angenommen, ich mache zuerst einen Seitenschritt nach Osten, dann laufe ich mehr oder weniger nach Washington, DC: Wenn ich jetzt nach Norden zum Pol laufe, zeige ich stattdessen auf Rom. Der Weg, den Sie einschlagen, ist wichtig, und Sie können grob vorhersagen, dass er 3 Tensor-Indizes umfasst; Da steht etwas über "Sie nehmen als Eingabe ein Vektorfeld und eine Richtung (die auch ein Vektorfeld ist) und geben als Ausgabe ein neues Vektorfeld", das scheinbar 3 verschiedene Vektorfelder in Beziehung setzt, 2 als Eingabe und 1 als Ausgang. Mit anderen Worten, es sieht so aus wie a [ 1 , 2 ] -Tensorfeld.

Machen wir das formal mit der Geometrie. Angenommen, Sie haben zwei verschiedene Verbindungen Und ' . Bilden Sie den Differenzoperator zwischen ihnen,

Δ A = A ' A .
Denken Sie daran, dass diese beiden skalare Felder auf denselben Wert abbilden – es gab keine Mehrdeutigkeit über dieses skalare Gradientenfeld! So Δ A S = 0. Aber das bedeutet etwas sehr Mächtiges, denn Δ A ist Leibniz: es bedeutet das Δ A ( S   v B ) = S   Δ A v B . Es ist also eine lineare Abbildung von Vektorfeldern auf Tensorfelder. Das bedeutet insbesondere u A Δ A bildet ein Vektorfeld linear auf ein anderes Vektorfeld ab. Fügen Sie einen Covektor hinzu w B und du bekommst u A w B Δ A v B eine lineare Abbildung von zwei Vektorfeldern ist u , v und ein Covektorfeld w zu einem Skalar: und genau das war unsere Definition von a [ 1 , 2 ] Tensorfeld. Es existiert also tatsächlich ein Tensor D so dass u A w B Δ A v B = D A C B u A v C w B . Denn das gilt für alle u , w wir können diese entfernen und äquivalent sagen,
A ' v B = A v B + D A C B v C .
Und dieses Argument das D muss existieren, kann auch rückwärts ausgeführt werden, "nehmen wir an, wir fügen diesen Tensorterm hinzu , dann bekommen wir eine andere Verbindung." Das ist also sowohl notwendig als auch ausreichend.

Dann nutzen wir natürlich diese Freiheit, um einen Fall zu bekommen, wo A B = B A Und A G B C = 0 Wo G ist der metrische Tensor, und das ist die Levi-Civita-Verbindung. Aber das ist schon eine sehr lange Antwort. Ich gebe dir einen Tipp: Definiere Δ A B = A B B A und verwenden Sie eine etwas interessantere Version des obigen Arguments, um zu argumentieren, dass dies tatsächlich eine Ableitung von Skalaren ist und daher die Form annimmt T A B C C , Das T ist der Torsionstensor. Was bedeutet das Ändern unserer Verbindung durch Hinzufügen D dazu tun?

Ein nicht technischer oder zufriedenstellender (selbst für mich), aber einfacher Ansatz besteht darin, zunächst physikalische Gesetze in flachen Raumzeiten zu berücksichtigen. Dort ist die Richtungsableitung eines Tensors (mit Komponenten T a β entlang eines Vektorfeldes (mit Komponenten X μ ) enthält Komponenten X μ μ T a β . In flachen Raumzeiten transformiert sich dieser Term als Tensor unter den Koordinatentransformationen, die den (Minkowski-) metrischen Tensor invariant lassen, was die Lorentz-Transformationen sind. Sie sind linear, dh Λ μ v X μ / X v sind Konstanten. Dann

(1) μ ( Λ a v Λ β ρ T v ρ ) = Λ a v Λ β ρ μ T v ρ .

Wenn Sie jetzt daran interessiert sind, ähnliche Begriffe zu schreiben, die aber den Tensorcharakter unter allgemeinen Transformationen bewahren, die einen allgemeinen metrischen Tensor invariant lassen, benötigen Sie ein neues Objekt (nennen wir es ~ μ ) so dass:

(i) stellt die gewöhnliche Ableitung in einem lokalen Trägheitssystem wieder her, da wir wollen, dass die allgemeine Relativitätstheorie in Nicht-Schwerkraft-Situationen wahr ist, und

(ii) erfüllt in jedem Bezugssystem dieselben Eigenschaften wie in lokalen Trägheitssystemen. Dies würde Linearität und Leibniz-Regel implizieren, die üblichen Dinge für Ableitungen.

Deutlich ~ μ kann nicht gleich sein μ in jedem Bezugssystem, da im Allgemeinen Transformationen der Komponenten koordinieren Λ μ v sind koordinatenabhängig, und (1) gilt nicht mehr. Du kannst schreiben ~ μ = μ + D μ , Wo D μ ist metrisch tensorabhängig, und D μ = 0 in flachen Raumzeiten. Nun, ich schätze, dass die auferlegende Kompatibilität dieser Ableitung mit einem metrischen Tensor dies ergeben würde D μ beziehen sich auf die üblichen Christoffer-Symbole für die Levi-Civita-Verbindung, und Sie könnten den umgekehrten Vorgang ausführen und Ihre koordinatenfreie und metrische tensorunabhängige Definition für die direktionale kovariante Ableitung erhalten, die Sie in Ihrer Frage angegeben haben.

Zusammenfassend würde ich sagen, dass Sie nur etwas wollen, das sich wie eine Ableitung verhält, aber dass seine Wirkung auf einen Tensor auch ein Tensor ist, da dies bei der gewöhnlichen Ableitung nicht der Fall ist.

Hinweis: Als ich diesen Beitrag ursprünglich geschrieben habe, habe ich Sie falsch verstanden und im Grunde die ganze Sache über die „physische“ Motivation verpasst. Ich habe jedoch sehr lange damit verbracht, diese Antwort zu schreiben, und ich werde sie nicht löschen. Hoffentlich ist dies für Sie nützlich, aber wenn nicht für Sie, dann für jemand anderen, der diese Frage findet. Vor diesem Hintergrund habe ich am Ende einen Abschnitt hinzugefügt, der eine "physikalische" Motivation für die kovariante Ableitung enthält. Dieser Abschnitt ist durch den fettgedruckten Anfangssatz gekennzeichnet.

Die Motivation besteht darin, dass Sie, wenn Sie sich zu einer Mannigfaltigkeit anstelle eines Vektorraums bewegen, die Fähigkeit verlieren, Tensorfelder zu differenzieren.

Wenn T ist ein Tensorfeld mit Komponenten T v 1 . . . v S μ 1 . . . μ R , dann die Ableitung σ T v 1 . . . v S μ 1 . . . μ R transformiert sich nicht als Tensor. Die Gründe dafür werden in der Regel in der Literatur diskutiert.

Wenn wir eine axiomatische Definition eines Differentialoperators überspringen wollen, haben wir immer noch einige Möglichkeiten. Man muss erkennen, dass der Grund dafür, dass die „übliche Differentiation“ fehlschlägt, darin besteht, dass ein Vektor bei lokalisiert ist X ist ein Element von T X M und einen Vektor, der sich bei befindet j ist ein Element von T j M , dies sind getrennte Vektorräume, ein Vergleich ist nicht möglich.

Anschließend führen wir den Begriff des Paralleltransports ein. Wenn γ : R M eine glatte Kurve ist, dann lassen P γ ( T 1 , T 0 ) : T γ ( T 0 ) M T γ ( T 1 ) M eine parallele Transportkarte sein, die als paralleler Propagator bezeichnet wird und der Kurve zugeordnet ist. Es bewegt einen Vektor, der sich bei befindet T γ ( T 0 ) M Zu T γ ( T 1 ) M .

Hier sind einige Axiomatiken erforderlich:

  • Wir wollen, dass paralleler Transport eine lineare Transformation ist.
  • Wir möchten, dass der parallele Transport invertierbar ist.
  • Wir wollen P γ ( T 0 , T 0 ) = Ausweis Und P γ ( T 1 , T 0 ) 1 = P γ ( T 0 , T 1 ) .
  • Wir wollen P γ ( T 1 , T ' ) P γ ( T ' , T 0 ) = P γ ( T 1 , T 0 ) .
  • Wir wollen P γ reibungslos von beiden abhängen T 1 Und T 0 , und wir wollen " P " reibungslos abhängen γ , wobei letzteres mathematisch ziemlich schwer zu beschreiben ist.

Sobald wir dies haben, können wir Folgendes definieren: Wenn v ist ein Vektorfeld entlang γ (streng genommen ist es ein "Abschnitt" des Formulars v : R T M so dass π v = γ ), dann definieren wir die kovariante Ableitung von v entlang γ bei T 0 als

D v D T | T 0 = lim T T 0 P γ ( T 0 + T , T 0 ) 1 v ( T 0 + T ) v ( T 0 ) T T 0 .

Um diese Karte explizit auszuwerten, müssen wir einige Modifikationen vornehmen.

Wir lassen ( U , ψ ) Seien Sie eine lokale Karte in der Nähe von γ ( T 0 ) = X , und wir bezeichnen Koordinaten als X μ . Seit P γ ( T 1 , T 0 ) eine lineare Transformation zwischen endlichdimensionalen Räumen ist, ist sie als Matrix darstellbar, vorausgesetzt, Basen werden in beiden Vektorräumen gewählt. Das lokale Diagramm gibt uns eine ausgewählte Basis, also haben wir für v = v μ μ | γ ( T 0 ) , P γ ( T 1 , T 0 ) v = P γ ( T 1 , T 0 )   v μ v v   μ | γ ( T 1 ) . Um sicherzustellen, dass P invariante Vektoren auf invariante Vektoren abbildet, brauchen wir den oberen Index an P 's Matrixdarstellung, um sie als Vektor zu transformieren γ ( T 1 ) und der untere Index als Vektor umzuwandeln γ ( T 0 ) , So P γ ( T 1 , T 0 ) ist im Wesentlichen ein Zweipunkt-Tensor.

Die eigentlichen Modifikationen finden jetzt statt. Anstatt eine einzelne Kurve zu betrachten γ , betrachten Sie ein Vektorfeld X und sein Ablauf ϕ X , Wo ϕ X ( X 0 , T ) ist die Anweisung, sich entlang der Integralkurve zu bewegen, die bei beginnt X 0 für den Zeitraum T .

Lassen P X ( X 0 , T ) bezeichnen P γ ( T , 0 ) , Wo γ ist die Integralkurve, die bei beginnt X 0 . Was wir hier tatsächlich haben, sind die folgenden Abhängigkeiten: P ist eigentlich eine zusammengesetzte Funktion in der Art und Weise P X = P ϕ X , also haben wir P X ( X 0 , T ) = P ( ϕ X ( X 0 , T ) ) . Wenn P X ( X 0 , T )   v μ eine Matrixdarstellung ist, haben wir

D D T | T = 0 P X ( X 0 , T )   v μ = P   v μ ( ϕ X ) σ | ϕ X = ϕ X ( X 0 , 0 ) D ( ϕ X ) σ D T | X = X 0 , T = 0 .

Das ist verwirrend, weil so ziemlich jede Notation für Derivate in gewisser Weise schrecklich ist, aber der Fluss ϕ X ist immer die Identität für T = 0 , also haben wir tatsächlich ϕ X ( X 0 , 0 ) = X 0 , also könnte die erste Ableitung geschrieben werden als P / X 0 σ , was absolut schrecklich ist, weil P hängt eigentlich nicht direkt von Positionen ab, aber der besseren Lesbarkeit halber schreibe ich es so. Das haben wir dann

P   v μ X σ X σ ( X 0 ) ,
da die zeitliche Ableitung des Flusses das Vektorfeld selbst ist.

All dies wird benötigt, um endlich haben zu können, für a v das nicht verlängert wird, um auf einem geeigneten offenen Bereich definiert zu werden, anstatt nur entlang einer Kurve,

D v D T | T = 0 , X = X 0 = X v | X = X 0 = lim T 0 P X ( X 0 , T ) 1 v ( ϕ X ( X 0 , T ) ) v ( X 0 ) T = D D T | T = 0 [ P X ( X 0 , T ) 1 v ( ϕ X ( X 0 , T ) ) ] .

Wir wollen dies in lokalen Koordinaten ausdrücken. Bevor wir das tun, beachten wir, dass if A ( T ) ist ein T -abhängige Matrix, die für alle invertierbar ist T s, und A ( 0 ) = ICH , dann haben wir

D D T ( A 1 ) | T = 0 = D D T A | T = 0 ,
Sie können das selbst überprüfen, indem Sie die differenzieren ICH = A ( T ) A 1 ( T ) Ausdruck auf Null.

Auch wir a priori Namen P   v μ X σ als Γ σ v μ .

Lokale Koordinatenausdrücke folgen wie folgt

X v | X = X 0 = D D T [ P X ( X 0 , T ) 1   v μ v v ( ϕ X ( X 0 , T ) ) ] | T = 0   μ | X 0 = = ( P 1   v μ X σ X σ ( X 0 ) v v ( X 0 ) + δ v μ v v X σ X σ ) μ | X 0 = = ( Γ σ v μ X σ v v + σ v μ X σ ) μ ,
wobei in der letzten Zeile alle Ausdrücke ausgewertet werden sollen X 0 und in der Mittellinie tauchte das Kronecker Delta auf, weil P X 1 bei T = 0 ist nur die Identität.

Aus diesem Ausdruck können wir alle Eigenschaften der kovarianten Ableitung ablesen, zum Beispiel, dass sie in tensorial ist X und dass es immer noch Sinn macht, wenn v ist nur entlang einer Kurve definiert.


Bemerkungen: Wie Sie sehen können, ist dieser Ansatz weitaus mühsamer als die Definition eines algebraischen Differentialoperators. Und meine Aussage dazu P X = P ϕ X ist eigentlich etwas fragwürdig. Es ist glaubwürdig, aber ich weiß ehrlich gesagt nicht, wie ich diese Ableitung ohne diese "zweifelhafte" Aussage machen oder gar koordinatenfrei machen soll. Die tatsächlichen funktionalen Abhängigkeiten des parallelen Propagators sind äußerst nicht trivial.

Aber dieser Ansatz hat den Vorteil, dass wir von einem einfach zu motivierenden Konzept der parallelen Verschiebung von Vektoren entlang von Kurven ausgehen und die bekannte kovariante Ableitung am Ende gut herausfiel.

Wenn Sie neugierig sind, die kovariante Levi-Civita-Ableitung zu motivieren , können wir der Liste der Anforderungen des parallelen Transports hinzufügen, dass der parallele Transport die Längen und Winkel von Vektoren bewahrt. Wenn Sie kovariante Ableitungen von Tensoren beliebigen Ranges definieren, dann impliziert diese Anforderung natürlich, dass der metrische Tensor entlang aller Kurven parallel transportiert wird. Torsionslosigkeit lässt sich aber nicht so einfach motivieren.

Diese Motivation basierte jedoch nicht auf irgendeiner Art von Physik, stattdessen versuchte ich, die kovariante Ableitung intuitiv zu machen, indem ich davon ausging, dass wir Vektoren im euklidischen Raum parallel transportieren können, aber Sie können dies nicht in Mannigfaltigkeiten im Allgemeinen. Da wir also wissen, welche Eigenschaften der gute alte Paralleltransport hat, fügen wir ihn von Hand ein.

Wenn Sie eine wirklich körperliche Motivation wollen , ist das Beste, was wir haben können, Weinberg zu folgen und GR auf das Äquivalenzprinzip anstatt auf die Riemannsche Geometrie zu stützen. Die beiden sind aufgrund des Äquivalenzprinzips eigentlich gleichwertig Riemannsche Normalkoordinaten Riemannsche Geometrie , und die Implikationen sind alle zweiseitig.

Nach dem Äquivalenzprinzip bei etwa beliebig X Raumzeit-Ereignis ist es möglich, Koordinaten einzurichten, für die at X und in seiner infinitesimalen Nachbarschaft erster Ordnung gelten die Gesetze der speziellen Relativitätstheorie.

Lassen ξ 0 , . . . , ξ 3 seien diese speziellen Koordinaten, und lassen X 0 , . . . , X 3 ganz allgemeine Koordinaten sein. Außerdem beziehen sich gestrichene Indizes auf das spezielle Koordinatensystem und nicht gestrichene Indizes auf das allgemeine Koordinatensystem.

Wenn v μ ein Vektorfeld ist, dann der Ausdruck μ v v ist in der speziellen Relativitätstheorie gültig und enthält nur erste Ableitungen, also interpretieren wir diesen Ausdruck so, dass er im speziellen Koordinatensystem an dem Punkt gemacht wird X , und schreiben wir es als μ ' v v ' . Nach dem Äquivalenzprinzip ist dieser Ausdruck gültig.

Wir führen die Notation ein μ ' v v ' = μ ' v v ' für die gestrichenen Indizes und let μ v v bedeuten die tensor-transformierte Form dieses Ausdrucks im allgemeinen Koordinatensystem, also

μ v v = ξ μ ' X μ X v ξ v ' μ ' v v ' .

Wir möchten den Ausdruck beziehen μ v v zu den partiellen Ableitungen von v v im allgemeinen Koordinatensystem .

Beachten Sie, dass

μ v v = ξ μ ' X μ μ ' ( X v ξ v ' v v ' ) = ξ μ ' X μ 2 X v ξ μ ' ξ v ' v v ' + ξ μ ' X μ X v ξ v ' μ ' v v ' ,
und hier ist im Wesentlichen der zweite Begriff auf der rechten Seite μ v v , also subtrahieren wir den ersten Term auf der rechten Seite von dem Ausdruck mit der Substitution v v ' = ξ v ' X σ v σ .

Was wir bekommen ist

μ v v = μ v v 2 X v ξ μ ' ξ v ' ξ μ ' X μ ξ v ' X σ v σ = μ v v + Γ μ σ v v σ ,
wo wir genannt haben
Γ μ σ v = 2 X v ξ μ ' ξ v ' ξ μ ' X μ ξ v ' X σ .

Anmerkungen:

  • Alle Ausdrücke werden an der gewählten Stelle ausgewertet X , da diese speziellen Koordinaten nur an diesem einen Punkt "speziell relativistisch" sind.

  • Diese Argumentation ist eher "physikalisch", da das Äquivalenzprinzip im Wesentlichen das wichtigste physikalische Postulat hinter GR ist.

  • Dieser Ansatz hat den Vorteil, dass die kovariante Ableitung sofort torsionsfrei und metrisch kompatibel ist, hat jedoch den Nachteil, dass es keinen geschlossenen Ausdruck für die Christoffel-Symbole gibt, die sich nur auf das allgemeine Koordinatensystem beziehen. Dies kann behoben werden, indem die metrische Kompatibilitätsbedingung verwendet wird, um den üblichen Ausdruck für abzuleiten Γ .