Kettenregel-Extravaganz - wie leitet man das ab?

Ich habe einen sehr einfachen Algorithmus und muss die Ableitung einer Fehlerfunktion berechnen, und mit der Kettenregel wird es etwas chaotisch.

Ich habe eine Frage, ob ich das richtig mache. Um genauer zu sein, meine Frage ist, warum das richtig ist. Ich nehme dies aus einer Oxford-Vorlesung, also gehe ich davon aus, dass es nicht falsch ist, aber ich würde es anders ableiten.

Die Gleichungen:

Wir haben eine Zustandsgleichung:

S T = θ S ϕ ( S T 1 ) + θ X X T

Wo θ S ist das damit verbundene Gewicht S die Staaten, θ X ist das damit verbundene Gewicht X unser Beitrag und ϕ ist eine differenzierbare Funktion.

Wir haben auch eine Gleichung für die Leistung der Maschine

j T = θ j ϕ ( S T )

Außerdem haben wir Fehlerfunktionen für jeden Zeitschritt:

E T = 1 2 ( j T X T ) 2 und eine Gesamtfehlerfunktion: E = T = 1 N E T

Es ist also ziemlich einfach. Wir haben Inputs und wir wollen, dass unsere Outputs ähnlich sind. Unsere Ausgaben sind von Zuständen abhängig, und die Zustände sind eine Funktion des vorherigen Zustands und der aktuellen Eingabe.

Die Ableitung:

Ich möchte finden

θ S E = T = 1 N θ S E T

Aus Kettenregel (nach Vorlesung),

θ S E T = E T j T j T S T k = 1 T S T S k S k θ S

Meine Frage ist, warum das stimmt

Warum nicht

θ S E T = E T j T j T S T S 1 θ S k = 2 T S k S k 1

Es scheint, als gäbe es viele andere Möglichkeiten, diese Ableitung mit der Kettenregel darzustellen. sind sie alle gleich? Warum ist die vom Professor gewählte Form richtig? und nicht was ich vorgeschlagen habe?

Antworten (1)

Diese ganze Sache ist ein großer Missbrauch der Notation. Der S ich sind keine Menge unabhängiger Variablen, aber Sie und Ihr Professor schreiben partielle Ableitungen, als ob sie es wären, ohne klare Hinweise darauf, was konstant gehalten wird. Ich vermute, dass dies zu Ihrer Verwirrung beigetragen hat.

Der direkteste Weg, dies zu klären, ist, es aufzuschreiben S T als S T = θ S ϕ ( θ S ϕ ( ) + θ X X T 1 ) + θ X X T und differenzieren Sie das in Bezug auf θ S ; dann sehen Sie, dass Sie eine Summe erhalten. Ihr Produkt ist nur einer der Begriffe in dieser Summe, nämlich die k = 1 Begriff, der der innersten Instanz von entspricht θ S .