Matrixableitung einer Matrix mit Nebenbedingungen

Ich suche nach einer allgemeinen Methode, um Ableitungsregeln einer eingeschränkten Matrix in Bezug auf ihre Matrixelemente zu erhalten.

Im Fall einer symmetrischen Matrix S ich j (mit S ich j = S j ich ), eine Möglichkeit, dies zu tun, ist die folgende (siehe Variation der Metrik in Bezug auf die Metrik ). Wir sagen, dass eine Variation eines Matrixelements δ S ich j ist die gleiche wie die von δ S j ich , und somit

δ S ich j = δ S ich j + δ S j ich 2 = δ ich k δ j l + δ ich l δ j k 2 δ S k l = S ich j ; k l δ S k l .
Der Tensor S ich j ; k l hat die schöne Eigenschaft, dass S ich j ; k l S k l ; m n = S ich j ; m n . Das sagt man dann
δ S ich j δ S k l = S ich j ; k l .

Ich muss zugeben, dass mir nicht ganz klar ist, warum dies das richtige Verfahren ist (das scheint ziemlich willkürlich zu sein, obwohl es offensichtlich funktioniert, um Ableitungen einer Funktion einer symmetrischen Matrix zu berechnen). Das bedeutet, dass mir nicht klar ist, wie ich das verallgemeinern soll, wenn die Einschränkung anders ist.

Nehmen wir zum Beispiel die Menge der Matrizen Ö Zugehörigkeit zur Gruppe S Ö ( N ) . Gibt es eine Möglichkeit zu schreiben δ Ö ich j δ Ö k l in Form eines Tensors B ich j ; k l , mit all den gleichen netten Eigenschaften ?

Im Falle von S Ö ( 2 ) , das scheint seitdem ganz einfach zu sein Ö j ich = ( 1 ) ich + j Ö ich j , und man findet in diesem Fall

δ Ö ich j δ Ö k l = δ ich k δ j l + ( 1 ) ich + j δ ich l δ j k 2 ,
was tatsächlich funktioniert. Beachten Sie jedoch, dass ich die definierende Eigenschaft von nicht verwendet habe S Ö ( N ) , das ist Ö Ö T = 1 , und ich bin mir nicht sicher, ob das relevant ist ...

Schon bei S Ö ( 3 ) , scheint es nicht einfach zu sein, den äquivalenten Tensor zu finden ...


Randnotiz: Verwenden der definierenden Eigenschaft von S Ö ( 2 ) , man kann die Formeln massieren, um zu erhalten

δ Ö ich j δ Ö k l = Ö ich l Ö k j .
Zunächst einmal kommt es explizit darauf an Ö , was schlecht aussieht. Darüber hinaus, wenn wir vorläufig definieren B ich j ; k l [ Ö ] = Ö ich l Ö k j (was sich bereits von dem unterscheidet, was wir gefunden haben S Ö ( 2 ) ), dann haben wir B ich j ; k l [ Ö ] B k l ; m n [ Ö ] = δ ich m δ j n , was ziemlich seltsam erscheint ...


Wenn jemand das Standardverfahren (falls vorhanden) oder eine gute Referenz kennt, wäre das sehr dankbar. Auf jeden Fall könnte mir eine nette Erklärung (vielleicht etwas formal) im Fall einer symmetrischen Matrix auch helfen, das Problem zu lösen.

Antworten (2)

  1. Aufstellen. Es sei ein gegeben m -dimensionale Mannigfaltigkeit M mit Koordinaten ( x 1 , , x m ) . Es sei ein gegeben n -dimensionale physikalische Untermannigfaltigkeit N mit physikalischen Koordinaten ( j 1 , , j n ) . Lass es geben m n unabhängige Einschränkungen

    (1) χ 1 ( x )     0 , , χ m n ( x )     0 ,
    was die physikalische Untermannigfaltigkeit definiert N . [Hier das Symbol bedeutet schwache Gleichheit, dh Gleichheit modulo der Beschränkungen.] Nehmen Sie das an
    (2) ( j 1 , , j n , χ 1 , , χ m n )
    bildet ein Koordinatensystem für die erweiterte Mannigfaltigkeit M .

  2. Dirac-Derivat. In Analogie zur Dirac-Klammer führen wir ein Dirac-Derivat ein

    (3) ( x ich ) D   :=   x ich a = 1 m n χ a x ich ( χ a ) j   =   a = 1 n j a x ich ( j a ) χ , ich     { 1 , , m } ,
    die auf die physikalische Untermannigfaltigkeit projiziert
    ( x ich ) D j a   =   j a x ich , ( x ich ) D χ a   =   0 ,
    (4) ich     { 1 , , m } , a     { 1 , , n } , a     { 1 , , m n } .

  3. Anmerkung. In vielen wichtigen Fällen ist es möglich, die physikalischen Koordinaten zu wählen ( j 1 , , j n ) so dass die Dirac-Ableitung (4) als Linearkombinationen von unbeschränkten Partialwerten geschrieben werden kann x -Derivate nur, ohne Bezug auf die ( j , χ ) -Koordinatensystem (2), vgl. Gl. (10) & (14) unten.

  4. Pendeln Dirac-Derivate? Funktioniert der Kommutator

    (5) [ ( x ich ) D , ( x j ) D ]   =   a , β = 1 n j a x ich [ ( j a ) χ , j β x j ] ( j β ) χ ( ich j )   ?   0
    verschwindet schwach? Nicht unbedingt. Aber wenn die Koordinatentransformation x ich ( j a , χ a ) linear ist, dann kommutieren die Dirac-Ableitungen.

  5. Beispiel. Der physikalische Unterraum sei die Hyperebene N = { χ ( x ) = 0 } mit der Einschränkung

    (6) χ   =   ich = 1 m x ich .
    Definieren Sie physikalische Koordinaten
    (7) j a   =   x a 1 m ich = 1 m x ich , a     { 1 , , n = m 1 } .
    Umgekehrt,
    (8) x a   =   j a + 1 m χ , a     { 1 , , n } , x m   =   β = 1 n j β + 1 m χ .
    Die Derivate sind verwandt als
    x a   =   ( j a ) χ 1 m β = 1 n ( j β ) χ + ( χ ) j , a     { 1 , , n } ,
    (9) x m   =   1 m β = 1 n ( j β ) χ + ( χ ) j .
    Die Dirac-Ableitung wird nach etwas Algebra
    (10) ( x ich ) D   =   x ich ( χ ) j   =   x ich 1 m j = 1 m x j , ich     { 1 , , m } .

  6. Beispiel. Differenzierung bzgl. Eine symmetrische Matrix kann als Dirac-Differenzierung (3) angesehen werden, wobei die Einschränkungen (1) durch antisymmetrische Matrizen gegeben sind. Definieren

    (11) s ( ich j )   :=   M ich j + M j ich 2 und a ( ich j )   :=   M ich j M j ich 2 Pro ich   >   j ; und d ( ich )   :=   M ich ich .
    Umgekehrt,
    (12) M ich j   =   θ ich j ( s ( ich j ) + a ( ich j ) ) + θ j ich ( s ( j ich ) a ( j ich ) ) + δ ich j d ( ich ) ,
    wobei die diskrete Heaviside-Schrittfunktion θ ich j hier wird angenommen, zu gehorchen θ ich ich = 0 (keine implizite Summe). Die Derivate sind verwandt als
    (13) M ich j   =   θ ich j 2 ( s ( ich j ) + a ( ich j ) ) + θ j ich 2 ( s ( j ich ) a ( j ich ) ) + δ ich j d ( ich ) .
    Die Dirac-Ableitung wird nach etwas Algebra
    (14) ( M ich j ) D   =   θ ich j 2 s ( ich j ) + θ j ich 2 s ( j ich ) + δ ich j d ( ich )   =   1 2 ( M ich j + M j ich ) .

  7. Anmerkung. Zusätzliche Komplikationen treten auf, wenn die Koordinaten und/oder Beschränkungen nicht global definiert sind. Für den Anfang reicht es eigentlich aus, wenn (2) ein Koordinatensystem in einer röhrenförmigen Umgebung von ist N .

  8. Reparametrisierungen der Constraints. Nehmen Sie an, dass es ein zweites Koordinatensystem gibt

    (fünfzehn) ( j ~ 1 , , j ~ n , χ ~ 1 , , χ ~ m n )
    (die wir mit Tilden schmücken), so dass
    (16) j ~ a   =   f a ( j ) , χ ~ a   =   g a ( j , χ )     0.
    Dies impliziert das
    (17) ( χ a ) j   =   ( χ ~ b χ a ) j ( χ ~ b ) j ~ , ( j a ) χ     ( j ~ β j a ) χ ( j ~ β ) χ ~ ,
    dh
    (18) Δ χ   :=   s p a n { ( χ 1 ) j , , ( χ n m ) j }     T M
    ist eine Involutivverteilung, während
    (19) Δ j   :=   s p a n { ( j 1 ) χ , , ( j n ) χ }     T M
    ist eine schwache Verteilung.

    Man kann zeigen, dass das Dirac-Derivat und seine Kommutatoren

    (20) ( x ich ) D     ( x ich ) D , [ ( x ich ) D , ( x j ) D ]     [ ( x ich ) D , ( x j ) D ] ,
    [wrt. die Tilde- und die Tillde-Koordinatensysteme (15) bzw. (2)] stimmen schwach überein. Dies zeigt, dass die Dirac-Ableitung (3) eine geometrische Konstruktion ist.

  9. Unter-Untermannigfaltigkeit. Angenommen p -dimensionale physikalische Unteruntermannigfaltigkeit P mit physikalischen Koordinaten ( z 1 , , z p ) . Lass es geben n p unabhängige Einschränkungen

    (21) ϕ 1 ( j )     0 , , ϕ n p ( j )     0 ,
    was die physikalische Untermannigfaltigkeit definiert P . Annehmen, dass
    (22) ( z 1 , , z p , ϕ 1 , , ϕ n p )
    bildet ein Koordinatensystem für die Untermannigfaltigkeit N . Das darf man zeigen
    (23) ( x ich ) D ( P )   =   ( x ich ) D ( N ) a = 1 n p ( ϕ a x ich ) D ( N ) ( ϕ a ) z , ich     { 1 , , m } .
    Dies zeigt, dass sich die Dirac-Ableitungskonstruktion natürlich bzgl. verhält. weitere Einschränkungen.

Außerdem ist es in der Praxis normalerweise viel nützlicher, zu vergessen, dass Ihre Matrix symmetrisch ist, wenn Sie differenzieren, und die Symmetriebedingung später aufzuerlegen.
Danke für die Antwort. Allerdings ist mir ziemlich unklar, wie ich das für einen konkreten Fall umsetzen soll (z.B. bei symmetrischen Matrizen, was tun x ich und j ich vertreten? Das unabhängige Matrixelement für letzteres ?). Würde es Ihnen etwas ausmachen, die explizite Berechnung für den symmetrischen Fall anzugeben, damit ich versuchen kann, dies für meine Fälle zu verallgemeinern? Und was ist eine gute Referenz, um damit anzufangen, etwas darüber zu lernen?
Außerdem verstehe ich nicht was ( / χ a ) j soll in der Praxis bedeuten...
Vielen Dank für das Beispiel! Wenn ich alles zwischen 2 und 3 übersetze, wird das x 's entspricht den (unabhängigen) Elementen von M , der s 's und d ist zum j 's, und die a ist zum χ 's. Ich werde jetzt versuchen zu sehen, ob ich das alles für meine komplizierteren Fälle verstehen kann!
@Qmechanic: Ich glaube, ich verstehe meine Verwirrung besser, obwohl ich immer noch einige Probleme habe. Wenn ich standardmäßige eingeschränkte Differentiale verwenden würde, würde ich auferlegen d M j ich = d M ich j , und ich würde bekommen M ich j | C = M ich j + M j ich (was man naiv erwarten würde). Aber was Sie zu tun scheinen, ist, Willkür zuzulassen d M j ich und d M ich j , während sie das auf den Raum projizieren M ich j = M j ich , was gibt M ich j | D = 1 2 M ich j + 1 2 M j ich . Meine Frage ist: Warum das eine verwenden und das andere nicht? Was ist der Unterschied zwischen den beiden?
Ihre Methode scheint mit diesem Artikel übereinzustimmen: doi.org/10.1016/0895-7177(95)00082-D Haben Sie andere Referenzen zu dieser Art von Methode?
Ich bin mir nicht sicher, was M ich j | C soll bedeuten. Betrachten Sie ausführlich seine Definition. Nur M ich j | D scheint gültig. Das Dirac-Derivat wurde von Grund auf neu entwickelt, inspiriert von der eingeschränkten Dynamik, vgl. zB Henneaux & Teitelboim.
Hier ist ein einfaches Beispiel dafür, was ich meine. Nehmen Sie eine Funktion f ( x , j ) , mit der Einschränkung x = j . Das Differenzial von f , mit Einschränkung, ist d f = f ( 1 , 0 ) d x + f ( 0 , 1 ) d j . Die Standardmethode zum Implementieren der Einschränkung besteht darin, dies zu sagen d j = d x und somit d f = ( f ( 1 , 0 ) + f ( 0 , 1 ) ) d x , was die Ableitung von ergibt f wrt x mit der Einschränkung ist d f / d x | C = f ( 1 , 0 ) + f ( 0 , 1 ) . Andererseits erlaubt Ihre Methode eine beliebige Änderung von s x und d j , die dann auf den Unterraum der Einschränkung projiziert werden: ( δ x , δ j ) = P ( d x , d j ) was in diesem Fall bedeutet ...
... δ x = 1 2 ( d x + d j ) und δ j = 1 2 ( d x + d j ) , während die Variation von f wird von gegeben δ f = f ( 1 , 0 ) δ x + f ( 0 , 1 ) δ j = f ( 1 , 0 ) + f ( 0 , 1 ) 2 ( d x + d j ) , was bedeutet, dass d f / d x | D = f ( 1 , 0 ) + f ( 0 , 1 ) 2 . (NB: Wenn wir setzen d j = d x in der vorherigen Formel erhalten wir das gleiche Ergebnis wie mit der Standardmethode.)

Mir erscheint es etwas unangebracht, eine orthogonale Matrix nach ihren Komponenten zu differenzieren. Per Definition würde das bedeuten, dass Sie herausfinden wollen, wie sich die anderen Matrixkomponenten verändern, wenn Sie eine Komponente variieren. Dies ist jedoch nur bei SO(2) eindeutig definiert, nicht aber bei SO( N > 2 ). Um dies deutlicher zu sehen, betrachten Sie eine Drehung in 3D. Hier haben Sie 3 Winkel, und wenn Sie einen Eintrag ändern möchten, gibt es im Allgemeinen verschiedene Möglichkeiten. Das ist natürlich nichts anderes als die Aussage, dass SO( N > 2 ) hat mehr als einen Generator.

Daher ist es vernünftiger (IMHO), eine orthogonale Matrix zu differenzieren, sie als zu schreiben

Ö = exp ( T ) , wo   T   ist antisymmetrisch
und differenziere bzgl. der Komponenten von T in analoger Weise zu dem, was Sie für die symmetrische Matrixdifferenzierung zitieren. Dies lässt sich in ähnlicher Weise auf alle Matrizengruppen anwenden, zB für unitäre Matrizen T wird antihermiteanisch sein.

Nur um Ihre Aussage zu vertiefen, dass die Abhängigkeit der Ableitung schlecht ist: Sie könnten die Formel für SO (2) auch unter Verwendung der Parametrisierung herleiten

Ö = exp ( θ T 1 ) = ( cos θ Sünde θ Sünde θ cos θ ) ,
wo T 0 ist die antisymmetrische "Einheits" -Matrix. Dann
Ö ich j Ö k = Ö ich j θ θ Ö k = Ö ich j θ ( Ö k θ ) 1 .
Dies führt zu dem gleichen Ergebnis wie oben, da
Ö θ = ( Sünde θ cos θ cos θ Sünde θ ) .
Aber es ist auch klar, dass es darauf ankommt, an welcher Stelle man die Ableitung nimmt.

In dem Problem, das mich interessiert, muss ich leider wirklich in Bezug auf die Matrixelemente ableiten. Und ich brauche auch eine allgemeine Methode, der Fall O (N) ist nur ein Beispiel (was nicht genau das ist, an dem ich interessiert bin)