Hier ist mein Anwendungsfall: Ich habe Skripte für Vorträge, die zu 90-95 % genau dem entsprechen, was der Sprecher tatsächlich sagen wird. Ich suche nach einem Dienst, bei dem ich diese Skripte hochladen kann, und während der Sprecher spricht, gibt ein maschineller Transkriptionsdienst automatisch Ergebnisse in Echtzeit zurück – wobei sowohl die Skripte als auch die integrierte Erkennung verwendet werden, um qualitativ hochwertigere Ergebnisse zu liefern als der eingebaute Erkennung allein.
Mir ist bewusst, dass ich mit der Google Cloud Speech API Streaming-Ergebnisse erhalten kann und mit Phrasenhinweisen einen gewissen Kontext für die Eingabe liefern kann, aber das Zeitlimit für Streaming-Sitzungen (1 Minute) und die Anforderung, meine Eingabe in Blöcke aufzuteilen begrenzte Phrasen und die Begrenzung der Anzahl der Phrasen insgesamt sind beides Deal Breaker.
Irgendwelche anderen Ideen?
Für die kommerzielle Enterprise-Ebene prüfen Sie: HPE IDOL SpeechServer
Ref:
HPE IDOL Speech Server 11.4.0 Admin Guide PDF
HPE IDOL Speech Server 11.4.0 Reference
Für Open Source halte ich CMUSphinx für eines der besten:
https://cmusphinx.github.io/
https://github.com/cmusphinx
https://algorithmia.com/algorithms/sphinx/SpeechRecognition
https://sourceforge .net/projects/cmusphinx/