Wie kann man Wörter aus Audio-/Videostreams online auf einer Webseite selbst erkennen und extrahieren?

Ich habe einen Video- (oder Audio-, ich denke, es ist nicht wichtig) Stream/eine Datei, die keine Untertitel enthält. Aber es hat eine saubere englische Sprache. Ist es möglich, Wörter daraus zu erkennen und zu extrahieren? Ich brauche keine 100% Genauigkeit.

Gibt es einige Dienste oder Anwendungen für diesen Fall? Vielleicht bieten einige Dienste eine API dafür an? Alle Ideen sind willkommen.

Antworten (3)

Wenn Sie regelmäßig mit dem „Eigentümer“ der Stimme arbeiten, kann ich Ihnen Dragon von Nuance empfehlen. Es bietet eine sehr genaue Sprache für Text mit sehr wenigen Fehlern, erfordert jedoch eine gewisse „Kalibrierung“ für eine bestimmte Stimme.

Wenn Sie also Ihren Schauspieler/Erzähler dazu bringen können, den Kalibrierungstext zu lesen, werden Sie es leicht haben, Transkripte und Untertitel zu erstellen (obwohl Untertitel danach manuelles Timing erfordern). Nuance bietet bei Bedarf auch ein Entwickler-SDK/API an.

Es hilft Ihnen jedoch nicht bei Interviews mit zufälligen Menschen auf der Straße.

Eine Alternative, die keine Kalibrierung erfordert und ebenfalls kostenlos verwendet werden kann, ist der Google Voice to Text-Dienst. Dafür gibt es auf Github eine nette inoffizielle "API" .

Es wird Ihnen in den meisten Fällen brauchbare Ergebnisse liefern und es ist ziemlich einfach zu bedienen, wenn Sie ein wenig über Programmierung wissen und eine Befehlszeile verwenden können. Obwohl ich den rechtlichen Status nicht kenne, bin ich mir nicht sicher, ob dieser Dienst für kommerzielle Zwecke verwendet werden darf. Vielleicht möchten Sie sich dafür in die Google-Nutzungsbedingungen einlesen , die sie vor etwa einem Jahr vereinheitlicht haben, sodass sie auch für den Voice-to-Text-Dienst gelten sollten. Auch ein Nachteil, es akzeptiert nur 15-Sekunden-Snippets, aber wenn Sie dies trotzdem automatisieren möchten, können Sie Ihre Audiodatei einfach mit FFmpeg aufteilen und sie gleichzeitig hochladen.

Es gibt auch eine andere kommerzielle Alternative namens iSpeech , die nach einem Pay-per-Use-Modell funktioniert.

Außerdem gibt es in Adobe Premiere eine integrierte Spracherkennung, die die einfachste Möglichkeit sein sollte, Untertitel zu erstellen, da sie sich in den gesamten Video-Workflow integriert und eine fast automatische Anpassung des Timings ermöglicht. Eine schöne Anleitung finden Sie hier .

Wirklich danke für deine Antwort! Es ist sehr hilfreich. Ich habe schnell die Dienste überprüft, von denen Sie sprechen, und ich glaube, ich könnte einige davon gebrauchen. Ich habe Ihre Antwort akzeptiert und für sie gestimmt. Aber wenn Sie sich an etwas anderes erinnern, lassen Sie es mich bitte wissen.
Ich werde die Antwort erweitern, wenn ich zufällig etwas Neues finde. Es ist ein sehr häufiges Problem, auf das sicher viele Menschen stoßen werden, wenn sie Videos produzieren, insbesondere für ein internationales Webpublikum.

YouTube bietet mehrere Untertiteloptionen. Früher gab es kostenlose computergenerierte Untertitel, deren Ergebnisse Sie dann in einer Textdatei herunterladen konnten.

YouTube bietet derzeit diese Liste mit Untertitelsoftware und -diensten an .

Wenn Sie Inhalte ohne Untertitel hochladen, werden diese trotzdem automatisch generiert. Du kannst sie von der Seite „Bearbeiten“ > „Erweitert“ auf YT herunterladen. Es ist eine kostenlose Möglichkeit, halbgenaue Transkripte von Binsen zu erhalten.

Wir verwenden einen Online-Dienst, um unsere Untertitelung vorzunehmen. Es ist nicht kostenlos, aber es ist ziemlich billig, wenn man bedenkt, wie viel Arbeit es spart - es ist sicherlich billiger, als Postproduktionspersonal dafür zu bezahlen. Es gibt viele Unternehmen, die diesen Service anbieten, mit Variationen von vollständig maschinell bis vollständig von Menschen transkribiert. Normalerweise möchten Sie eine Art menschliches Eingreifen, weil die Maschinen die Dinge immer noch nicht zu 100% erledigen.

Eine schnelle Websuche wird eine lange Liste von ihnen aufdecken.