Mikrofonsensor zum Aufnehmen von Stimmen aus dem ganzen Raum

Ich möchte mit einem Raspberry Pi und einer Spracherkennungssoftware eine Art Google Home zum Selbermachen erstellen.

Ich suche nach einem Mikrofonsensor, der meine Stimme quer durch den Raum aufnimmt, aber fast alle Mikrofone, die ich gesehen habe, sehen ungefähr so ​​​​aus: und sind eindeutig so konzipiert, dass sie nahe am Mund / der Schallquelle von jemandem sind. (Bitte korrigiere mich wenn ich falsch liege.)
Sprachmikrofon

Ich habe ein billiges Kondensatormikrofon gefunden, das so aussieht: und würde es funktionieren? Oder sehe ich da komplett falsch?
Kondensatormikrofon

Es hat mehr mit Verstärkung und Rauschen im Mikrofonverstärker (das Bit zwischen Mikrofon und R-Pi) zu tun als damit, wie das Mikrofon aussieht.
Gibt es andere Schallquellen im Raum?
Sie müssen sich mit den wichtigsten Konzepten der Schallausbreitung, Nahfeld vs. Fernfeld, Reflexionen usw. vertraut machen, bevor Sie mit der Spracherkennung aus großer Entfernung beginnen.
Sie brauchen kein wirklich spezielles Mikrofon. Ein normales Mikrofon nimmt so ziemlich alles in einem typischen Raum auf. Das Problem liegt darin, die Stimme von den anderen Geräuschen zu trennen. Sie können mehrere Mikrofone und etwas Signalverarbeitung verwenden, um die Stimmen herauszuhören, aber es wird nicht trivial sein.
Ich denke, SNR wird viel damit zu tun haben, welche Entscheidungen Sie treffen müssen. Aber ich würde ein solches Projekt damit beginnen, dass ich zuerst überlege, mindestens zwei Mikrofone zu kaufen. Vielleicht sogar vier. (Ich denke hier an die Anwendung von Strahlformungs- oder räumlichen Filterkonzepten auf die Verarbeitung.) Ich bin mir fast sicher, dass Sie in dieser Situation mehr als ein Mikrofon verwenden müssen.

Antworten (3)

Sie brauchen KEINE hohe Verstärkung an Ihrem Mikrofon.

Was Sie brauchen, ist ein hohes Signal (Sprache)-Rausch-Verhältnis.

Sie erhalten keinen hohen Signal-Rausch-Abstand, indem Sie einfach das Mikrofonsignal verstärken. Dadurch werden die Umgebungsgeräusche zusammen mit der Stimme verstärkt - das Signal-Rausch-Verhältnis bleibt gleich (oder verschlechtert sich etwas, da der Verstärker ein gewisses Rauschen hinzufügt).


Was Sie brauchen, ist eine kleine Verstärkung – gerade genug, dass eine laute Stimme, die in der Nähe des Mikrofons verwendet wird, Sie auf etwa die Hälfte der vollen Skala bringt. Holt Ihnen maximale Reichweite ohne Verzerrung.

Als nächstes benötigen Sie mehrere Mikrofone und einen Analog-Digital-Wandler mit genügend Eingängen für alle Mikrofone, 16-Bit-Abtastung und Sie benötigen wahrscheinlich mindestens eine Abtastrate von 22 kHz.

Sobald Sie das Audio in einer Form haben, dass es verarbeitet werden kann, benötigen Sie eine Software, um die Stimme(n) auszuwählen.

Die Stimmen aus dem Hintergrundrauschen herauszupicken ist nicht trivial. Die Lösung umfasst Beamforming („Ausrichten“ der Mikrofone auf bestimmte Quellen, ohne die Mikrofone physisch zu bewegen) und Rauschunterdrückung.

Nachdem Sie die Stimme ausgewählt und isoliert haben, können Sie eine automatische Verstärkungsstufe verwenden, um die Stimme auf einen bestimmten Pegel zu bringen, um die Arbeit für den Spracherkennungsabschnitt zu vereinfachen.

Schließlich können Sie entscheiden, wie Ihr Gadget auf bestimmte Wörter oder Sätze reagieren soll.


Das Jasper-Projekt hat die meisten dieser Probleme bereits für Sie gelöst, wenn Sie den Raspberry Pi verwenden.

Normale Mikrofone sind nicht sehr empfindlich. Sprechen Sie mit ihnen, während Sie die Ausgangsspannung auf einem Oszilloskop überwachen, und Sie werden sehen, was ich meine versuchte es mit einem Parabolmikrofon. Was immer funktionierte, war ein Lautsprecher rückwärts. Ich versuchte es mit einem Hornlautsprecher rückwärts und das funktionierte sogar noch besser. Die meisten Lautsprecher haben eine niedrige Impedanz, z. B. 4 oder 8 Ohm. Was ich 1975 tat, war, einen Ausgangstransformator rückwärts zu verwenden, um eine bessere Anpassung an den Vorverstärker zu erzielen. Die Netzbrummaufnahme war ein Problem und Ausgangstransformatoren waren immer schwerer zu finden, also verwendete ich eine einfache Transistorstufe mit gemeinsamer Basis, die auf etwa 1 mA vorgespannt und dann in einen konventionelleren NF-Verstärker eingespeist wurde.

Als Kind baute ich bipolare AC-gekoppelte Verstärker mit hoher Verstärkung. Die einzige Signalquelle, die ich hatte, war ein 2-Zoll-Transistor-Radiolautsprecher. Kratzen Sie am Kegel, um starke Signale zu erhalten. Sprechen Sie in den Kegel, um normale Signale zu erhalten.

Schließlich lernte ich die richtige VDD-Filterung. Die ersten 2 oder 3 bipolaren Stufen hatten ihre eigene private VDD (lokales Batterieäquivalent) mit 5.000 uF und 100 Ohm. Die letzten 2 oder 3 Stufen liefen direkt von der 9-Volt-Batterie der Größe "B". Die Ausgabe erfolgte wahrscheinlich über magnetische Ohrhörer, um akustische Rückkopplungen zu vermeiden.

Dieser Verstärker mit Lautsprecher-Pickup kann Stimmen in 10 oder 20 Fuß Entfernung problemlos überwachen.

Sie sollten heute in der Lage sein, ähnliches mit 2 oder 3 Stufen von OpAmps zu tun. Sorgen Sie einfach für eine private Stromversorgung der ersten Stufe, um eine VDD-basierte Rückkopplungsoszillation zu vermeiden.

Hier ist, was der Signalketten-Explorer vorschlägt: 3 Stufen der Operationsverstärkerverstärkung, 40 dB/Stufe unter Verwendung von Standardmodellen (UGBW = 1 MHz); Eingang ist 1 microVoltPP; Ich musste den ersten Operationsverstärker bearbeiten und seine Rauschdichte von 4 Nanovolt (1 kOhm) auf 0,5 Nanovolt (16 Ohm) reduzieren; Ich habe auch die Gain-Set-Widerstände dieser ersten Stufe bearbeitet: 5 Ohm und 495 Ohm. Ergebnis? 18dB SNR für 1uVpp Eingang.Geben Sie hier die Bildbeschreibung ein

Nein, das ist zu einfach. Lassen Sie uns 2 Stufen von Bipolar verwenden. Wir erzielen einen Gewinn von 1.000 * 1.000.

schematisch

Simulieren Sie diese Schaltung – Mit CircuitLab erstellter Schaltplan