Warum spielt das Vorzeichen beim Newton-Verfahren eine Rolle?

Newton-Methode visuell wie mit Hilfe eines rechtwinkligen Dreiecks ableiten und annehmen X 1 liegt links davon X 0 wir bekommen

X 1 = X 0 F ( X 0 ) F ' ( X 0 )
Verwendung von Hangüberlauf.

aber wenn wir annehmen X 1 liegt rechts von X 0 wir bekommen:

X 1 = X 0 + F ( X 0 ) F ' ( X 0 )

Also dachte ich, es spielt keine Rolle, aber einige Probleme mit lösen

X 1 = X 0 + F ( X 0 ) F ' ( X 0 )

Ich divergiere.

Kann mir jemand aufklären wo der Denkfehler liegt?

Danke schön!

Beachten Sie, dass auch die normale Version fehlschlagen kann. Haben Sie ein Beispiel, wo die übliche Version konvergiert, aber nicht die neue?
@Peter nein, ich nahm an, dass es falsch war, also habe ich nicht nach Orten gesucht, an denen der neue konvergieren könnte. Aber ursprünglich dachte ich, wenn es absteigend ist und die Wurzel rechts liegt, würde es es schneller finden. Und denken, schließlich sollte das Zeichen für sich selbst sorgen.

Antworten (3)

Die Ableitung setzt nicht voraus X 1 liegt rechts von X 0 . Die Annäherung X k + 1 die aus dem Newton-Verfahren generiert wird, ist die Wurzel der Tangentenlinie bei der vorherigen Annäherung X k :

0 F ( X k ) = F ' ( X k ) ( X k + 1 X k )
oder
X k + 1 = X k F ( X k ) F ' ( X k ) .

Danke schön! Das ist gut zu merken und hilfreich.

Der Fehler ist, dass es mathematisch keinen Grund gibt anzunehmen, dass das Ändern des Vorzeichens immer noch funktioniert. Es gibt drei Möglichkeiten (die mir bekannt sind), über Newton-Raphson nachzudenken; Das erste ist, dass es sich um einen Sonderfall der Householder- Methoden handelt, aber das ist vielleicht etwas kompliziert.

Die zweite und relevanteste für die Wertschätzung des Zeichens ist die Art und Weise, wie ich es mir vor einiger Zeit intuitiv erklärt habe: Stellen Sie sich einen Graphen einer eindimensionalen reellen Funktion vor. Angenommen, wir befinden uns an einem Punkt ungleich Null, einer Ableitung ungleich Null, und die Funktion ist stetig differenzierbar. Es gibt vier Fälle: Wir sind größer als null und der Graph steigt, wir sind größer als null und fallend, wir sind kleiner als null und steigend, wir sind kleiner als null und fallend. Gehen Sie in allen Fällen von einer guten Funktion aus, bei der unsere Extrapolationen einigermaßen genau sind – siehe Anmerkung unten, warum Newtons Methode alles andere als perfekt ist. Untersuchen Sie den Quotienten im ersten Fall: F ( X ) > 0 , Und F ' ( X ) > 0 , also ist der Quotient positiv. Daher ist das negative Vorzeichen notwendig, da wir abnehmen wollen und der Graph dort ansteigt , wo wir sind, also machen wir einen Schritt zurück. Ich werde noch einen weiteren Fall bearbeiten - Sie sehen sich den Rest an. Schauen wir uns Fall 3 an: kleiner als Null und der Graph steigt. F ( X ) < 0 , F ' ( X ) > 0 , also ist der Quotient negativ. Wir sind unter Null, unter allen Wurzeln, aber da der Graph ansteigt, ist es vernünftig anzunehmen, dass ein Schritt nach rechts uns näher an alle Wurzeln bringt. Hier ist das negative Vorzeichen noch wesentlich; Wir machen einen Schritt in Richtung negativ negativ = positiv und bewegen uns entlang der X Achse zu einer Wurzel.

Unabhängig vom Vorzeichen, aber beachten Sie auch, dass die Methode in einem anderen Sinne gut ist: Wenn die Ableitung klein ist, erwarten wir, dass wir größere Schritte benötigen, um eine Wurzel zu erreichen - die Division durch die Ableitung gewährleistet größere Schritte für kleine Ableitungen. Wenn der Wert von F klein ist, dh wir sind (hoffentlich) nahe an einer Wurzel, ist der Quotient ebenfalls klein, da wir nur einen kleinen Schritt brauchen, um unser Ziel zu erreichen (in einer idealen Welt!). So merkt man sich, wie hoch der Quotient ist.

Der dritte Weg ist, wie CheeHan antwortet; Sie untersuchen die tangentiale Approximation und erhalten den Ausdruck.

Wie auch immer, es scheitert häufiger, wenn Sie ein positives Vorzeichen verwenden, weil die Verwendung eines positiven Vorzeichens einfach keinen Sinn ergibt! Das negative Vorzeichen ist notwendig, um immer auf wahrscheinliche Nullen zuzugehen. Ich erinnere mich, dass ich durch die negativen Vorzeichen verwirrt war, als ich etwas über Gradientenabstiegsalgorithmen in mehreren Variablen lernte - das Prinzip ist dasselbe. Denken Sie nur an Ihre verschiedenen Fälle und wo Sie hin müssen. Das negative Vorzeichen hilft Ihnen, dorthin zu gelangen.

NB: Oft haben wir in meiner Rechtfertigung der Methode die Probleme damit erkannt, dass sie lediglich erster Ordnung ist. Nur weil der Graph hier ansteigt, heißt das nicht, dass er weiter ansteigen wird, und nur weil wir nahe Null sind, heißt das nicht, dass wir nahe an einer Wurzel sind. Siehe Halleys Methode für eine kompliziertere, aber zuverlässigere Iteration. Natürlich wird es auch fehlschlagen, wenn die Ableitung Null ist, was ein Problem darstellt, wenn wir um einen Wendepunkt herum iterieren müssen.

Vielen Dank für diese Antwort, die Frage entstand eigentlich aus einer Hausaufgabenfrage mit der Haushaltsmethode (die das Plus anstelle des Minus hat). Interessant, dass Sie den Gradientenabstieg erwähnt haben. Der Grund, warum ich diesen falschen Weg eingeschlagen habe, ist, dass ich mich seltsamerweise an das MML-Buch erinnere, in dem erwähnt wurde, dass das Zeichen im Schritt keine Rolle spielt, da sich der Gradientenabstieg schließlich darum kümmert. Aber es ist schon einige Zeit her und ich habe es wahrscheinlich falsch in Erinnerung. Nochmals vielen Dank für diese ausführliche Antwort!
Die Householder-Methode verwendet ein Plus, aber Sie werden feststellen, dass die Ableitungsausdrücke enthalten 1 / F ergibt wieder das Minuszeichen! Gern geschehen @oliver + es ist sehr lange her, seit ich mich mit maschinellem Lernen befasst habe, aber sie wollten im Allgemeinen, dass wir uns vom Gradienten entfernen ...

Ich weiß Ihre Frage zu schätzen, weil Sie die Dinge so betrachten / abrufen, wie es Newton selbst getan hat. Das heißt, mit einer geometrischen Intuition, indem man (wie hier) verschiedene Fälle betrachtet, bevor man eine allgemeine Regel aufstellt.

Betrachten wir die beiden Fälle:

Geben Sie hier die Bildbeschreibung ein

Schreiben Sie im linken Fall die Identität von Steigungen:

F ( X 0 ) X 0 X 1 = F ' ( X 0 )     X 1 = X 0 F ( X 0 ) F ' ( X 0 )   (Normalfall)

Bei der rechten Abbildung muss Ihre Richtlinie darin bestehen, positive Mengen zu berücksichtigen ; wie in diesem Fall die Steigung F ' ( X ) negativ ist, müssen Sie die Identität zwischen den Steigungen folgendermaßen schreiben:

F ( X 0 ) X 1 X 0 = F ' ( X 0 )     X 1 = X 0 F ( X 0 ) F ' ( X 0 )   also wieder das richtige "Newton".

(das Minuszeichen vor F ' ( X 0 ) kehrt das negative Vorzeichen von um F ' ( X 0 ) um eine positive Menge zu erhalten).

Anmerkung:

Ich habe gerade festgestellt, dass meine Erklärung mit der zweiten Erklärung in der interessanten Antwort von @FShrike verbunden ist; insbesondere müssten wir tatsächlich 2 andere Sonderfälle berücksichtigen, die sich mit dem befassen F ( X 0 ) < 0 Fällen, was auch in der Antwort von FShrike berücksichtigt wird.

Abschließend ist es, wie in den anderen Antworten angegeben, besser, sich nicht mit Sonderfällen auseinandersetzen zu müssen und sich auf die "Allgemeinheit der Algebra" zu verlassen .

Vielen Dank für diese Antwort. Ihre Illustrationen sind eigentlich genauso, wie ich zu meinem falschen Schluss gekommen bin. Ich dachte, die Steigung sei negativ, aber ich habe fälschlicherweise angenommen, dass das "-" Teil der Ableitung ist. Zusammen mit der Antwort von FShrikes hat mir dies geholfen, meinen Fehler noch besser zu verstehen. Ich schätze es!