Gibt es einen maschinellen Transkriptionsdienst (Streaming) in Echtzeit, der es ermöglicht, Skripte als Trainingsmaterial für die Spracherkennung einzufügen?

Question

Gibt es einen maschinellen Transkriptionsdienst (Streaming) in Echtzeit, der es ermöglicht, Skripte als Trainingsmaterial für die Spracherkennung einzufügen?

Software
Transkription

Daniel Neumann

Hier ist mein Anwendungsfall: Ich habe Skripte für Vorträge, die zu 90-95 % genau dem entsprechen, was der Sprecher tatsächlich sagen wird. Ich suche nach einem Dienst, bei dem ich diese Skripte hochladen kann, und während der Sprecher spricht, gibt ein maschineller Transkriptionsdienst automatisch Ergebnisse in Echtzeit zurück – wobei sowohl die Skripte als auch die integrierte Erkennung verwendet werden, um qualitativ hochwertigere Ergebnisse zu liefern als der eingebaute Erkennung allein.

Mir ist bewusst, dass ich mit der Google Cloud Speech API Streaming-Ergebnisse erhalten kann und mit Phrasenhinweisen einen gewissen Kontext für die Eingabe liefern kann, aber das Zeitlimit für Streaming-Sitzungen (1 Minute) und die Anforderung, meine Eingabe in Blöcke aufzuteilen begrenzte Phrasen und die Begrenzung der Anzahl der Phrasen insgesamt sind beides Deal Breaker.

Irgendwelche anderen Ideen?

Antworten (1)

Gibt es einen maschinellen Transkriptionsdienst (Streaming) in Echtzeit, der es ermöglicht, Skripte als Trainingsmaterial für die Spracherkennung einzufügen?

Jawad Al Shaikh · Answer 1

Für die kommerzielle Enterprise-Ebene prüfen Sie: HPE IDOL SpeechServer
Ref:
HPE IDOL Speech Server 11.4.0 Admin Guide PDF
HPE IDOL Speech Server 11.4.0 Reference

Für Open Source halte ich CMUSphinx für eines der besten:
https://cmusphinx.github.io/
https://github.com/cmusphinx
https://algorithmia.com/algorithms/sphinx/SpeechRecognition
https://sourceforge .net/projects/cmusphinx/

Gibt es einen maschinellen Transkriptionsdienst (Streaming) in Echtzeit, der es ermöglicht, Skripte als Trainingsmaterial für die Spracherkennung einzufügen?

Daniel Neumann

Antworten (1)

Jawad Al Shaikh

Gibt es öffentlich zugängliche Datenbanken für die automatische polyphone Musiktranskription?

Verbesserung der Basstranskriptionsfähigkeit

Wie notiert man einen Triolen-Wechsel mitten in einem Song?

Musikstück zum Notendecoder

Tool zum "Lesen" von Noten [geschlossen]

Wie kann ich die Positionsgewichtungsmatrizen meiner DNA-Motive neu formatieren?

Wie kann ich ein YouTube-Video verlangsamen, das ich analysieren oder transkribieren möchte?

Transkriptionssoftware für Interviews

Transcriber-Software für Windows?

Gibt es zuverlässige kostenlose/günstige Software-Tools, die eine gesungene Melodie/einen Liedtext transkribieren?