Ableitung in Bezug auf die Matrix einer mehrdimensionalen Funktion, die zur Gradientenabstiegsoptimierung verwendet wird.

Betrachten Sie die Verlustfunktion

Mindest A k = 1 3 ( A k X 1 X k + 1 ) 2 ,
die unter Verwendung eines Gradientenabstiegsverfahrens optimiert wird, dh
A 2 × 2 = A 2 × 2 a (  Steigung bzgl. A ) 2 × 2 .
Die Parametermatrix _ A ist ein 2 × 2 Matrix, sagen wir
A = ( A 1 A 2 A 3 A 4 ) .
Allerdings ist die Verlustfunktion zweidimensional ( 2 × 1 Vektor), also was wäre dieser Gradient in diesem Fall, damit die Parameter in A korrekt aktualisiert werden. Wenn ich versuche, diesen Gradienten zu berechnen, sagen wir für den Begriff
A 2 X 1 ,
Ich schließe mit
A X 1 2 A = ( ( A 1 2 + A 2 A 3 ) X 1 + ( A 1 A 2 + A 2 A 4 ) X 2 ( A 1 A 3 + A 1 A 4 ) X 1 + ( A 2 A 3 + A 4 2 ) X 2 ) A = ( 2 A 1 X 1 + A 2 X 2 A 3 X 1 + A 2 X 2 A 2 X 1 A 2 X 2 A 3 X 1 A 3 X 2 A 1 X 1 + A 2 X 2 A 1 X 1 + 2 A 4 X 2 ) ,

das scheint ein zu sein 2 × 4 Matrix. Das ist für meinen Algorithmus bedeutungslos! Ich weiß immer noch nicht, wie ich meine Parameter aktualisieren soll, da ich zu viele Elemente in meinem Farbverlauf habe. Ich würde einen Gradienten der gleichen Dimension wie meine Parametermatrix erwarten A , die Rechenoperationen bleiben also gültig.

Was ist der richtige Weg, um einen Gradienten in Bezug auf eine (quadratische) Matrix zu berechnen, wenn Ihre Verlustfunktion mehrdimensional ist? Oder ist meine Methode / Interpretation der Gradientenaktualisierung überhaupt falsch? Wenn ja, was mache ich stattdessen?

Es ist nicht ganz sinnvoll, dass die Zielfunktion zweidimensional ist (es sei denn, Sie betrachten die Optimierung mehrerer Ziele, aber das ist eine andere Geschichte). Vielleicht willst du A k X 1 X k + 1 2 ? (Um zu sehen, warum es im gewöhnlichen Sinne nicht ganz sinnvoll ist, beachten Sie, dass die beiden Komponenten Ihres Verlusts an verschiedenen Stellen minimiert werden können.)
Warum nicht, wenn ich fragen darf? Das Problem betrifft ein Systemidentifikationsziel, bei dem wir mehrere Zustände haben. Auch mein Betreuer (Ordensprofessor) hat sich diese Funktion ausgedacht und mein anderer Betreuer (Postdoc) befürwortet diese Idee.
Sehen Sie sich zunächst die Multi-Objective-Optimierung an und prüfen Sie, ob Sie dies tun möchten. Warum nicht? Aufgrund dessen, was ich erwähnt habe. Man muss sich überlegen, was das für eine Funktion bedeutet F : R 4 R 2 minimiert werden. Wenn es klar ist, was es für skalare Funktionen bedeutet. Sonst nicht so klar.

Antworten (1)

passant51 hat Recht. Ich habe vergessen, dass mein Professor eine Funktion der Form gezeichnet hat ( ) T ( ) , was äquivalent wäre ( ) 2 im Skalarfall. Und das entspricht dem Vorschlag von passerby51, dass wir die 2-Norm zum Quadrat verwenden, die eine Skalarfunktion ist .

Kümmert euch nicht um meinen Fehler, Leute... und haltet euch von Drogen fern.