Gibt es einen maschinellen Transkriptionsdienst (Streaming) in Echtzeit, der es ermöglicht, Skripte als Trainingsmaterial für die Spracherkennung einzufügen?

Hier ist mein Anwendungsfall: Ich habe Skripte für Vorträge, die zu 90-95 % genau dem entsprechen, was der Sprecher tatsächlich sagen wird. Ich suche nach einem Dienst, bei dem ich diese Skripte hochladen kann, und während der Sprecher spricht, gibt ein maschineller Transkriptionsdienst automatisch Ergebnisse in Echtzeit zurück – wobei sowohl die Skripte als auch die integrierte Erkennung verwendet werden, um qualitativ hochwertigere Ergebnisse zu liefern als der eingebaute Erkennung allein.

Mir ist bewusst, dass ich mit der Google Cloud Speech API Streaming-Ergebnisse erhalten kann und mit Phrasenhinweisen einen gewissen Kontext für die Eingabe liefern kann, aber das Zeitlimit für Streaming-Sitzungen (1 Minute) und die Anforderung, meine Eingabe in Blöcke aufzuteilen begrenzte Phrasen und die Begrenzung der Anzahl der Phrasen insgesamt sind beides Deal Breaker.

Irgendwelche anderen Ideen?

Antworten (1)