Kettenregel zur Differenzierung ergibt widersprüchliche Dimensionen

Angenommen, ich habe differenzierbare Funktionen (im Sinne der Frechet-Ableitung) F : R R N × N Und G : R N R , Wo F ist ein linearer Operator und möchte die (frechet) Ableitung ihrer Zusammensetzung berechnen, dh F G : R N R N , N . Unter Verwendung der Kettenregel für normierte Räume erhalte ich

D ( F G ( X ) ) H = ( D F ) ( G ( X ) ) R N × N D G ( X ) R 1 × N H , H R .
Wie kann dies gelten, da die Abmessungen des Produkts nicht übereinstimmen?

Bearbeiten: Betrachten Sie die Funktion

F ( X ) = A ( X ) X .
mit
A ( X ) : R N R N , N , A ( X ) = [ a ( X ) 1 0 0 0 1 a ( X ) 1 0 0 0 1 a ( X ) 1 0 0 0 0 1 a ( X ) 1 0 0 0 0 1 a ( X ) ]
wodurch a ( X ) = X 2 . Mein Professor schreibt das obige jetzt um als
A ( X ) X = T X + X X 2 , T := [ 3 1 1 3 1 3 1 3 1 1 3 ] .
Dann findet er
D F ( X ) H = T H + X 2 H + X X H X 2 = ( A ( X ) + X X X 2 ) H

woraus ich das geschlossen habe

D ( A ( X ) ) = X X T X 2 .

( D F ) ( G ( X ) ) ist in R N 2 × 1
@JeffCheng siehe meine Bearbeitung.
Wie kommt man darauf D ( A ( X ) ) = X X T X 2 ?
Was ist R N × N im Kontrast zu R N , N ?
Du solltest schreiben A : R N R N , N . A ( X ) ist ein Element von R N , N .

Antworten (3)

Für die Zwecke dieser Art von multivariatem Kalkül (z. B. Frechet-Derivate) eine Domäne oder Kodomäne von M × N reelle Matrizen wird mit identifiziert R M N , nicht mit R M × N . Sie "glätten" Ihre Matrizen, bevor Sie Ableitungen und Kettenregeln auf sie anwenden. Zumindest wenn Sie möchten, dass Ihre Ableitung an einem bestimmten Punkt durch ein standardmäßiges rechteckiges Zahlengitter dargestellt wird.

Wenn Sie Ihre Matrizen nicht glätten möchten, bevor Sie mit ihnen rechnen, sind Ihre Ableitungen höherdimensionale Quader. Sie wagen sich jetzt in das, was ich als Tensorkalkülgebiet bezeichnen würde.

Bearbeiten: Nachdem ich mir Ihr Beispiel angesehen habe, passiert meiner Meinung nach Folgendes: A ist eine Funktion R N R R N × N , so wie du es beschreibst. Aber F ist eine Funktion R N R N , und als solches kann sein Frechet-Derivat als realisiert werden N × N Matrix. Sie haben die Matrix erhalten D F = A ( X ) + X X T X 2 als dieses Derivat.

hm, mein Professor sagte, dass die resultierende Ableitung des Obigen in sein wird R N × N , jedoch würde dies mit dem abgeflachten Ansatz ein Element in ergeben R N 2 × N
@Richard Nun, die Komposition ergibt eine Karte R R N 2 . Die Frechet-Ableitung muss an jedem Punkt eine lineare Abbildung mit derselben Domäne und Kodomäne sein. Ich sehe nicht, wie du da rauskommst.
Ich werde meine Frage mit einem Beispiel bearbeiten, es wäre sehr nett, wenn Sie es sich dann ansehen könnten.
ok, ich habe schnell ein beispiel aus der vorlesung abgetippt

Die Frechet-Ableitung kann zwar für Abbildungen zwischen beliebigen normierten Räumen definiert werden, insbesondere für Abbildungen in den Raum von ( N × N ) -Matrizen. Gegeben ϕ : v W . das Frechet-Derivat von ϕ bei X v ist eine lineare Abbildung D ϕ ( X ) = D ϕ X : v W . Das sagt die Kettenregel

D ( ψ ϕ ) ( X ) = D ( ψ ) ( ϕ ( X ) ) D ϕ ( X ) .
Anwenden dieser linearen Karte auf H v gibt
D ( ψ ϕ ) ( X ) ( H ) = D ( ψ ) ( ϕ ( X ) ) ( D ϕ ( X ) ( H ) ) .
Es scheint, dass Sie nicht richtig zwischen linearen Karten und ihren Matrixdarstellungen unterscheiden, und dies kann verwirrend sein.

Ihre Frage enthält kein Dimensionsproblem: D G ( X ) ist eine lineare Abbildung R N R , somit D ϕ ( X ) ( H ) R . Auch D F ( G ( X ) ) ist eine lineare Abbildung R R N × N und natürlich fügst du ein D G ( X ) ( H ) als Argument. In Bezug auf Matrizen: D G ( X ) ist ein ( N × 1 ) -Matrix, D F ( G ( X ) ) ist ein ( 1 × N 2 ) -Matrix (wo wir identifizieren R N × N mit R N 2 um eine "Standard"-Matrix mit echten Einträgen zu erhalten) und ihr Produkt an N × N 2 -Matrix. Du schreibst D F ( G ( X ) ) R N × N , aber das ist falsch, da es darauf hindeutet, dass es ein ist ( N × N ) -Matrix.

Bei deinem Beispiel sehe ich den Zusammenhang zur Kettenregel nicht. F ist nicht die Zusammensetzung zweier Funktionen, wie sie in der Kettenregel benötigt wird. Aber sicher dein Fazit

D ( A ( X ) ) = X X T X 2
scheitert. D A ( X ) ist eine lineare Abbildung D A ( X ) : R N R N × N , Aber X X X 2 ist eine Single ( N × N ) -Matrix .

Ein Matrix-für-Vektor-Gradient erzeugt einen Tensor dritter Ordnung, sodass er nicht bequem in die Standard-Matrixnotation passt.

Das Differential einer Matrix hat jedoch die Form einer Matrix und gehorcht allen Regeln der Matrizenalgebra. Ebenso gehorcht das Differential eines Vektors den bekannten Regeln der Vektoralgebra.

Betrachten Sie zunächst die Differentiale der konstituierenden Funktionen.

a 2 = X T X 2 a D a = 2 X T D X D a = X T D X a A = B + ICH a D A = ICH D a
Damit können wir die zusammengesetzte Funktion durch Rücksubstitution differenzieren.
F = A X D F = A D X + D A X = A D X + X D a = ( A + X X T a ) D X F X = ( A + X X T a )
Wenn Sie wirklich den Tensor dritter Ordnung brauchen, ist es
A X = ( ICH X a )
Wo bezeichnet das dyadische (auch Tensor-) Produkt.

danke für die Antwort, ich habe noch nicht wirklich etwas über Differentiale gelernt, werden sie durch das Thema Differentialformen rigoros eingeführt?
@Richard Das könnte Ihnen helfen, den Vektorfall zu verstehen, aber das Differential einer Matrix kann nicht mit Differentialformen ausgedrückt werden. Um mehr zu erfahren, würde ich die neueste Ausgabe von Magnus und Neudeckers Matrix Differential Calculus oder vielleicht Hjorungnes' Complex-Valued Matrix Derivatives empfehlen