Erwartete Zeit von Quicksort

Question

Erwartete Zeit von Quicksort

Sortierung
Algorithmen
Mathematik
Informatik
Analyse-von-Algorithmen
Rechenkomplexität

Benutzer175343

Ich lese den Beweis des Theorems:

Der Algorithmus Quicksort sortiert eine Folge von $n$ Elemente hinein $O(n \log n)$ erwartete Zeit.

Der Beweis ist dieser:

Der Einfachheit halber wird bei der Timing-Analyse davon ausgegangen, dass alle Elemente von $S$ sind verschieden.

Diese Annahme maximiert die Größen von $S_1$ Und $S_3$ , und maximieren daher die durchschnittliche Zeit, die in den rekursiven Aufrufen verbracht wird (QUICKSORT( $S_1$ ), SCHNELLE SORTE( $S_3$ )).

Lassen $T(n)$ sei die erwartete Zeit, die QUICKSORT benötigt, um eine Folge von zu sortieren $n$ Elemente.

Deutlich, $T(0)=T(1)=b$ für einige konstant $b$ .

Nehmen Sie dieses Element an $a$ (der Pivot, der zufällig ausgewählt wird) ist das i-te kleinste Element des $n$ Elemente in Sequenzen.

Dann die beiden rekursiven Aufrufe von QUICKSORT (QUICKSORT( $S_1$ ), SCHNELLE SORTE( $S_3$ )) haben eine erwartete Zeit von $T(i-1)$ Und $T(n-i)$ , bzw.

Seit $i$ mit gleicher Wahrscheinlichkeit einen beliebigen Wert dazwischen annimmt $1$ Und $n$ , und der Saldo von QUICKSORT( $S$ erfordert eindeutig Zeit $cn$ für einige konstant $c$ , haben wir die Beziehung:

\begin{matrix} (1) & T (N) \leq C N + \frac{1}{N} \sum_{ich = 1}^{N} [T (ich - 1) + T (N - ich)], für N \geq 2 \end{matrix}

$T(n) \leq cn +\frac{1}{n} \sum_{i=1}^{n} [T(i-1)+T(n-i)], \text{ for } n\geq 2 \tag {1}$

Algebraische Manipulation von $(1)$ Erträge

\begin{matrix} (2) & T (N) \leq C N + \frac{2}{N} \sum_{ich = 0}^{N - 1} T (ich) \end{matrix}

$T(n) \leq cn +\frac{2}{n}\sum_{i=0}^{n-1}T(i) \tag {2}$

Wir werden das für zeigen $n \geq 2$ , $T(n) \leq kn \log_e n$ , Wo $k=2c+2b$ Und $b=T(0)=T(1)$ .

Für die Grundlage $n=2$ , $T(2)\leq 2c+2b$ folgt unmittelbar aus $(2)$ .

Schreiben Sie für den Induktionsschritt $(2)$ als

\begin{matrix} (3) & T (N) \leq C N + \frac{4 B}{N} + \frac{2}{N} \sum_{ich = 2}^{N - 1} k ich {Protokoll}_{e} ich \end{matrix}

$T(n) \leq cn +\frac{4b}{n}+\frac{2}{n}\sum_{i=2}^{n-1} k i \log_e i \tag {3}$

Seit $i \log_e i$ nach oben konkav ist, kann man das leicht zeigen

\begin{matrix} (4) & \sum_{ich = 2}^{N - 1} ich {Protokoll}_{e} ich \leq \int_{2}^{N} X {Protokoll}_{e} X D X \leq \frac{N^{2} {Protokoll}_{e} N}{2} - \frac{N^{2}}{4} \end{matrix}

$\sum_{i=2}^{n-1} i \log_e i \leq \int_2^n x \log_e x dx \leq \frac{n^2 \log_e n}{2}-\frac{n^2}{4} \tag {4}$

Ersetzen $(4)$ In $(3)$ Erträge

\begin{matrix} (5) & T (N) \leq C N + \frac{4 B}{N} + k N {Protokoll}_{e} N - \frac{k N}{2} \end{matrix}

$T(n) \leq cn+\frac{4b}{n}+kn \log_e n-\frac{kn}{2} \tag {5}$

Seit $n\geq 2$ Und $k=2c+2b$ , es folgt dem $cn+4b/n\leq kn/2$ .

Daher $T(n)\leq kn \log_e n$ folgt $(5)$ .

Wie sind wir auf die Relation gekommen $(1)$ ?

Vielen Dank im Voraus.

Bearbeiten:

Können Sie mir diesen Satz erklären:

"Diese Annahme wird die Größen von maximieren $S_1$ Und $S_3$ , und maximieren daher die durchschnittliche Zeit, die in den rekursiven Aufrufen verbracht wird (QUICKSORT( $S_1$ ), SCHNELLE SORTE( $S_3$ )). "

?

Warum maximiert dies die durchschnittliche Zeit, die in den rekursiven Aufrufen verbracht wird?

Antworten (1)

Erwartete Zeit von Quicksort

FlachBlau · Answer 1

Quicksort läuft auf Folgendes hinaus:

Auswählen eines Drehpunkts
Große Liste in eine "kleiner als Pivot"-Liste aufteilen $S_{1}$ und "größer als Pivot"-Liste $S_{2}$
Sortieren $S_{1}$ Und $S_{2}$ separat Anrufergebnis $S_{1}'$ Und $S_{2}'$ .
Kombinieren $S_{1}'$ Und $S_{2}'$ und Pivot in die endgültige, sortierte Liste $S'$ .

Die zufällige Auswahl eines Pivots ist eine konstante Zeit. Daraus folgt also

$T(n) \leq [\text{Step 2}] + [\text{Step 3}] + [\text{Step 4}]$

Schritt 2 dauert $an$ Zeit für eine Konstante $a$ . Sie machen einfach einen Durchgang durch die Liste, vergleichen sie mit dem Pivot und werfen sie in einen von beiden $S_{1}$ oder $S_{2}$ . Schritt 4 dauert höchstens $bn$ Zeit, aus weniger offensichtlichen Gründen. Daher nehmen die Schritte 2 und 4 höchstens in Anspruch $cn$ Zeit für eine Konstante $c$ .

Stufe 3 bleibt. Der Ausdruck

$\displaystyle\frac{1}{n}\displaystyle\sum_{i = 1}^{n}\left[T(i-1)+T(n-i)\right]$

ist der Durchschnitt des Wertes $T(i-1)+T(n-i)$ gesamt $i$ , und das ist der rekursive Schritt, bei dem zwei strikt kleinere Listen sortiert werden. Daher ist die obige Summe die durchschnittliche Zeit, die für Schritt 3 benötigt wird.

Zusammenfassend dauert der gesamte Prozess weniger als $cn + \displaystyle\frac{1}{n}\displaystyle\sum_{i = 1}^{n}\left[T(i-1)+T(n-i)\right]$ Zeit.

OK. Und warum ist $T(n)$ kleiner oder gleich der Summe dieser beiden Werte?
Zur Klarstellung bearbeitet. Lassen Sie mich wissen, wenn Sie weitere Fragen haben.
Verwenden wir den Durchschnitt des Wertes $T(i-1)+T(n-i)$ weil wir die erwartete Zeit von Quicksort finden wollen?
Auch wenn wir den Drehpunkt zufällig auswählen, ist es dann auch eine konstante Zeit?
Ja. Tatsächlich ist der schlimmste Fall für Quicksort $O(n^{2})$ , wenn Sie eine umgekehrt sortierte Liste haben, weil Sie auswählen müssen $n$ schwenkt und jeden inneren Schritt nehmen wird $O(n)$ auch Zeit.
Haha das ist eine gute Frage. Theoretisch ist das Erhalten einer Zufallszahl eine konstante Zeit. Auch Pseudozufallszahlen sind schnell berechnet. In der Praxis kann ein Computer einige seltsame Berechnungen durchführen, und es kann dauern, etwas "wirklich" Zufälliges mit einem Zufallszahlengenerator zu erhalten $O(n)$ oder $O(n^{2})$ Zeit, wo $n$ ist der gewünschte Maximalwert.
Ich verstehe! Danke für die Erklärung! Ich habe noch eine andere Frage... An der Stelle "das zeigen wir mal $n \geq 2$ , $T(n) \leq k n \log_e n$ , Wo $k=2c+2b$ Und $b=T(0)=T(1)$ ", warum nehmen wir das $k$ ? Und warum nehmen wir die Basis $e$ für $\log$ ?
Das hat er gewählt $k$ einfach durch Rückwärtsarbeiten; er weiß es $k$ darf höchstens eine Konstante sein, die auf der Art der Frage basiert.
Ein Ergebnis der Algorithmentheorie ist, dass die Basis des Protokolls bei der Betrachtung der Zeitkomplexität irrelevant ist. Wenn etwas O(log_2(n)) ist, dann ist es auch O(log_e(n)) und O(log_100(n)) usw. Er verwendet also log_e (das dasselbe wie ln ist), sodass das Integral vereinfacht wird .
Können Sie mir auch diesen Satz erklären: „Diese Annahme maximiert die Größen von $S_1$ Und $S_3$ , und maximieren daher die durchschnittliche Zeit, die in den rekursiven Aufrufen verbracht wird (QUICKSORT( $S_1$ ), SCHNELLE SORTE( $S_3$ )). " ? Warum maximiert dies die durchschnittliche Zeit, die in den rekursiven Aufrufen verbracht wird?
Hallo! Was ist mit der erwarteten Tiefe? Warum es ist $O(\log n)$

Erwartete Zeit von Quicksort

Benutzer175343

Antworten (1)

FlachBlau

Benutzer175343

FlachBlau

Benutzer175343

Benutzer175343

FlachBlau

FlachBlau

Benutzer175343

FlachBlau

FlachBlau

Benutzer175343

Sergej Zaitsev

Berechnung der Laufzeit aus Zeitkomplexität

Wie hoch ist die zeitliche Komplexität, wenn bbb-Einträge ohne Ersatz von nnn-Einträgen einheitlich abgetastet werden?

Wie schätze ich den Zeitaufwand? (Geburtsraten)

Laufzeit des Algorithmus bei gegebener zeitlicher Komplexität

Quicksort-Laufzeit

Verwenden von mergesort merge() zum Sortieren von k geordneten Arrays

Algorithmuskomplexität - For-Schleife innerhalb einer While-Schleife; um den Faktor 2 abnehmen

Was bedeutet das Wort „Skalierbarkeit“ in Bezug auf Big O?

Listensortierung als reines mathematisches Problem formulieren

Vergleich der zeitlichen Komplexität zweier Algorithmen (Ungleichheit)