Wie könnte eine rein mechanische „Stimme“ funktionieren?

In meiner Welt gibt es mechanische halbhumanoide Automaten.

Wäre es möglich, sie auf eine Weise sprechen zu lassen, die natürlich (dh menschlich) klingt? Wie könnte es funktionieren?

Der Mechanismus sollte in der Lage sein (in der Reihenfolge der Priorität):

  1. Englische Laute aussprechen.
  2. Intonation simulieren.
  3. Simulation von Tonhöhenänderungen (Frequenz).
  4. Simulation von Klangfarbenänderungen (Wellenform).
  5. Volumenänderungen simulieren.
  6. Nicht-englische Laute aussprechen.

Beachten Sie, dass es mir nichts ausmachen würde, wenn die Vorrichtung "Macken" hätte, wie z. B. das / s /, das durch einen seltsamen Nebeneffekt des Mechanismus immer etwas leiser als die anderen Geräusche ausgesprochen wird, oder dass es ein verräterisches Zischen geben kann vor jedem wort aus den pumpen drucklos machen.

Diese mechanischen Sprachboxen können aus Materialien hergestellt werden, die in der späten viktorianischen Ära verfügbar waren, wobei Präzisionsteile (wie Uhrwerke) frei erhältlich sind.

Die Steuerung des Mechanismus sollte nicht von Belang sein.

Je kompakter, modularer und fremder das System, desto besser.

EDIT: Ich hatte die menschliche Stimme auf Wikipedia und das Zwitschern von Kuckucksuhren
recherchiert , fand aber die eigentliche menschliche Stimme zu groß und zu weit verbreitet für den praktischen Einsatz in Maschinen, insbesondere wegen der Beteiligung der Zunge (als ziemlich großes Organ). und es ist Abstand von der Lunge. Die Kuckucksuhren sind sehr primitiv und mir fällt nichts ein, was von ihnen inspiriert wäre. Ich habe mich gefragt, ob nicht etwas mehr wie eine Trompete verwendet werden könnte, um die großen Entfernungen zu wickeln, um Platz zu sparen, aber ich habe einen großen Mangel an Wissen, wenn es um Themen der fortgeschritteneren Akustik geht.

Sie suchen nach einem Gerät, das Vibrationen (einfach), einen Luftstrom (einfach) durch einen Kehlkopf (einfach) und eine Möglichkeit zur mechanischen Verformung des Kehlkopfs (mittel) erzeugt, die auf intelligente Weise gesteuert wird (superhart ) . Ein Kehlkopf ist im Wesentlichen nur ein verformbarer Schlauch, der mit Gummi und möglicherweise Leder einfach ist. Ich nehme an, wenn Sie eine mystische KI / Intelligenz haben, die die Verformungen wie Menschen handhaben kann, wäre es nicht so, dass das Uhrwerk den Kehlkopf verformt hart.
@Marky Aber wie würdest du den Kehlkopf machen und könntest du die Größe des gesamten Systems reduzieren?
@A Lambent Eye Ein Lederschlauch, der mit einem Gummiband oder nur einem Gummischlauch umwickelt ist, mit mechanischen Klemmen, um ihn an verschiedenen Stellen zusammenzudrücken; ein Ventilator an einem Ende, der auf einem Friseurrasierer sitzt (oder etwas anderes, das für den Zeitraum angemessen ist). Die Konstruktion, um Geräusche zu machen, ist nicht schwer; Um verständliche Geräusche zu machen, braucht es Intelligenz und viel Übung. Der Kehlkopf des Menschen ist eine Kombination aus Saiten- und Blasinstrument, er ist einfach sehr flexibel und in der Lage, sich in einem großen Bereich zu verformen.
@Marky Ich muss darauf hinweisen, dass die Mundhöhle, die Zunge, die Zähne und die Lippen ein wichtiger Teil der Artikulation auf Englisch sind. Es geht nicht nur darum, Töne in einer Pfeife zu erzeugen. Sie können zum Beispiel kein 's' / weiches 'c' oder ein 'ch' (wie in "check") mit einer Luftröhre und einem Kehlkopf allein erzeugen. Und während Sie durch die Phoneme fortschreiten, finden Sie viele weitere solcher Beispiele.
@MichaelK das ist fair, aber noch einmal, wenn das Uhrwerk gemäß der Steam-Punk-Norm verfügbar ist; dann sehe ich keinen Grund, warum nicht auch künstliche Zähne/Wangen/Zungen hergestellt werden können; An diesem Punkt geht es meiner Meinung nach eher darum, den Grundton zu klären, als ihn überhaupt zu erzeugen.
Was ist falsch daran, nur ein aufgezeichnetes Wörterbuch mit Wörtern zu haben, das auf einem Mikrochip gespeichert ist, der über einen Lautsprecher abgespielt wird? Wer sagt, dass Ihre Automaten ihr Sprachsystem in ihr Atmungssystem integriert haben müssen?
Kurze Antwort: Genau wie bei uns
Ist Ihnen bewusst, dass der menschliche Körper buchstäblich eine sehr komplizierte Maschine ist? Daran ist nichts Magisches. Wir bestehen aus Atomen, genau wie alles andere auch.
@DennisWilliamson - das ist irgendwie verrückt (klingt wie R2D2 in A Bad Lip Reading ). Schwingdrähte; ziemlich einfach. Der schwierige Teil besteht darin, den Computer, der ihn steuert, aus „Materialien herzustellen, die in der späten viktorianischen Ära verfügbar waren“. (schwer, nicht unmöglich, aber lächerlich unmöglich)
@mazura: Es bräuchte keinen Computer, um es zu steuern. Nur ein Player-Piano-Mechanismus mit einer sorgfältig gefertigten Rolle. Laut Wikipedia fand im späten Viktorianischen Zeitalter eine ernsthafte Entwicklung des Player Piano statt. Das Herstellen der Rolle wäre jedoch eine ziemliche Leistung gewesen!
@DennisWilliamson - Das würde " LOL Roll" heißen. (Little Old Lady; Core-Seil-Memory )
was ist los mit einem Lautsprecher? Sie können rein mechanische Lautsprecher bauen.

Antworten (6)

Das ist Thomas Edison mit seinem zweiten Phonographen im Jahr 1878.

Tommy E.

Die viktorianische Ära endete meines Wissens 1901.

Alles, was Sie brauchen, ist ein Satz voraufgezeichneter Phrasen und eine Nadel oder ein Kopf mit wahlfreiem Zugriff. Der Sexy British Accent™ ist jedem überlassen, der ihn synchronisiert.

Oder nur ein festgelegtes Phonem, eher als Phrasen. ( en.wikipedia.org/wiki/Phoneme )
Sie brauchen nicht einmal das, die Membran in einem Phonographen wird durch einen Hebel in Schwingung versetzt. Ihr Automat kann den Hebel einfach mit der Kraft bewegen, die es ihm ermöglicht, sich zu bewegen.

Es gibt ein Team japanischer Forscher, das einen künstlichen Mund konstruiert , um die menschliche Sprache nachzuahmen.

Es besteht aus einer Pumpe, die Luft durch den Mund pumpt, einer vibrierenden Membran, einem Silikonkautschukschlauch mit integrierter Zunge und einer Nasenhöhle. Ich persönlich finde es schwer zu verstehen, was es sagt (da ich kein Japanisch spreche), aber Sie können hören, wie es verschiedene Sillabies artikuliert.

Das japanische Team ist noch nicht fertig, dem Mund fehlt die Fähigkeit, die Lippen zusammenzudrücken, um B, P und M auszusprechen, und die Zähne, um F und S auszusprechen.


In Ihrer Geschichte könnten Sie einen künstlichen Mund aus Gummi, Leder, Wachstuch, Wachspapier und allem, was Sie für geeignet halten, bauen. Der Bau der ersten " sprechenden Maschine " von Wolfgang von Kempelen begann 1769 ( sehen Sie sie in Aktion ), also sind die Materialien, die zum Bau einer solchen benötigt werden, auch in Ihrer Welt verfügbar. Und dann ist da noch das Euphonia-Gerät von Joseph Faber, von dem ich kein Video finden konnte

[S]sechzehn Hebel oder Tasten „wie die eines Klaviers“ projizierten sechzehn elementare Klänge, durch die „jedes Wort in allen europäischen Sprachen deutlich hervorgebracht werden kann“.

Das eigentliche Bilden von Wörtern ist hier das Problem und erfordert einige Handbewegungen.

Ich stelle mir die Sprachbox im „Kopf“ des Automaten vor und ein getriebeartiges Getriebe in der Brusthöhle. Schnüre verbinden das Getriebe mit den Mechanismen, die den Mund verformen. Es ist voller Zahnräder, die jeweils an verschiedenen Saiten ziehen, um den Mund auf unterschiedliche Weise zu verformen und unterschiedliche Geräusche zu erzeugen.

Das Wort „Hallo“ würde gebildet, indem nacheinander die Zahnräder HELO aktiviert würden, während das Wort „Held“ die Zahnräder HEER O aktivieren würde.

Könnte diese Antwort mit dem Youtube-Link von @ Marky oben zusammenhängen? Außerdem ist Silikon in meiner Welt nicht verfügbar und es ist eine riesige und ungeschickte Sache, obwohl ich den Beitrag zu schätzen weiß!
@ALambentEye Schau mal, ich habe einige Verweise auf sehr alte "Sprachgeräte" gefunden
@ALambentEye Ja, die beiden Links sind verwandt. Ungeachtet der Verfügbarkeit bestimmter Materialien in eurer Welt ist eine geeignete Variation dieses Konzepts mit ziemlicher Sicherheit die Antwort, die eure Frage so wie sie ist am besten erfüllt. Das Gerät stimmt sicherlich mit der Beschreibung "Automaten" überein, und die Silikonkomponenten könnten durch jedes geeignete Material ersetzt werden, das in Ihrer Welt verfügbar ist, Leder, Gummi, sogar Kombinationen von mit Stoff überzogenen Metallen könnten angemessen sein, je nachdem, was tatsächlich in der verfügbar ist Einstellung.
Ein auf Clips basierender Dokumentarfilm namens "Gizmo!" aus den achtziger Jahren verfügte über ein mechanisches Sprachsynthesegerät, das eine mäßige bis mittelmäßige Fähigkeit zur Intonation hatte. Es sprach den Satz "Sie hat mich gesehen" und variierte die Aussprache, um Wörter zu betonen, die auf Fragen wie "Hat sie dich gehört oder dich gesehen?" (beginnt um 11:27, wenn es nicht richtig läuft) youtu.be/ONwe96StEpA?t=687
Obwohl es eine gültige Antwort ist, halte ich die Antwort von @Renan für praktischer.
@ALambentEye Kein Problem. Sie sind der Originalposter, Sie entscheiden, welche Antwort am besten zu Ihnen passt. Es gibt keine Regel, dass Sie die Antwort mit der höchsten Punktzahl akzeptieren müssen. Im Gegenteil, auf der Tour heißt es: "Akzeptieren bedeutet nicht, dass es die beste Antwort ist, es bedeutet nur, dass es für die Person funktioniert hat, die gefragt hat."

HINTERGRUND (den Kontext für meine Antwort festlegen):

Ich war früher ein Forscher in einem Universitätslabor, das in den 1980er Jahren die Software für Sprachsynthesizer entwickelte. Zu dieser Zeit verwendeten alle Synthesizer Aufnahmen menschlicher Stimmen und bearbeitete Beispiele für jedes Phonem (der Klang, den Sie vielleicht mit einem Buchstaben assoziieren, aber es sind keine Buchstaben). Dann schnappte sich die Software die benötigten Sounds und fügte sie zusammen. Sehr abgehackte und schreckliche Ausgabe.

Die Professoren, mit denen ich zusammengearbeitet habe (ich war ein Student, der dies abhängig von meinem Stundenplan in Voll- oder Teilzeit bezahlte), erstellten ein brandneues System. Sie erstellten eine Liste aller Zwei-Phonem-Kombinationen (zum Beispiel „b-ah“ oder „sh-ew“) und einiger gebräuchlicher Vielfacher (wie st-ah) und verwendeten dann eine aufgenommene menschliche Stimme für die Beispiele. Meine Aufgabe war es, jede Paarung genau in der Mitte zu schneiden (z. B. die zweite Hälfte des „b“ und die erste Hälfte des „ah“). Es ging darum, all diese wichtigen Übergänge beizubehalten. Ich hatte sowohl die Töne als auch eine grafische Darstellung der Aufnahmen auf einem Computer.

Die Ergebnisse waren großartig im Vergleich zu allem, was davor kam. Viel lebensechter. Aber es gab immer noch keine Intonation. Das Ändern von Tonhöhe, Lautstärke und ein paar anderen tonalen Dingen war damals möglich und ist jetzt noch einfacher. Aber die Intonation ist SCHWER .

Um eine Intonation zu erzeugen, benötigen Sie umfangreiche Regeln, welche Töne wann zu verwenden sind. Sie denken vielleicht, das sei einfach (genauso wie Sie meinen, dass mein anderer Job, das Schreiben der Regeln für Text-to-Speech, das geschriebene Wörter in Phonemlisten übersetzt, einfach war), aber Sie würden sich irren. Es ist schwer für Menschen, die eine Zweitsprache sprechen, richtig zu sprechen, und es ist wahnsinnig schwer für Computer.

Aber das war vor über 30 Jahren. All das, was ich von Hand gemacht habe, ist jetzt teilweise oder vollständig automatisiert. Es ist jetzt einfacher als zuvor. Aber es ist immer noch nicht einfach. Ich meine, hast du eine elektronische Stimme gehört, die gut intoniert? Siri? Alexa? Yeah Nein. Bestenfalls bekommt man bei Fragen einen steigenden Ton.

Nehmen Sie all dies in die nahe Zukunft und sicher, es wird passieren. Schon jetzt sind die elektronischen Stimmen um Welten besser als das, woran ich gearbeitet habe, und das war Lichtjahre voraus von dem, was da draußen war. Elektronische Stimmen werden jetzt jeden Tag verwendet und es wird noch zunehmen. Es gibt ganze Unternehmen (und Abteilungen größerer Unternehmen), die an diesen Problemen arbeiten.

IHRE FRAGE:

Sie haben zwei Unterschiede zu dem, worüber ich gesprochen habe.

  1. Ihre elektronischen Lautsprecher können intelligent sein. In diesem Fall benötigen Sie keine Software, um zu bestimmen, welche Phoneme verwendet werden sollen oder welche Tonvariationen.
  2. Sie stecken mit Technologie auf viktorianischem Niveau fest.

Es ist mir unklar, ob Ihre "mechanischen halbhumanoiden Automaten" tatsächlich intelligent sind. Wenn nicht, müssen sie in irgendeiner Weise programmiert werden. Auch wenn es nur das Setzen von Tasten zum Aussprechen verschiedener Phoneme ist. Sie müssen immer noch einen Weg finden, wie das Gehirn der Maschinen oder die Programmierung in den "Mund" übertragen werden kann. Das ist wirklich hart für diese Zeit.

Wenn Sie künstliche Münder verwenden, um Laute zu artikulieren , müssen Sie jedes Phonem in seine Bestandteile zerlegen. Diese sind:

  • Stimmhaft oder stimmlos (wenn die Stimmlippen während des Tons vibrieren).
  • Stellung der Zunge und/oder Lippen. Für Konsonanten gibt es nur wenige Möglichkeiten, aber Vokale sind sehr komplex und einige Vokale erfordern eine besondere Bewegung der Zunge.
  • Artikulationsmethode (Stopp, Frikativ, Flüssig usw.).

Dann müssen Sie Luft durch den gesamten Mechanismus pumpen und alles irgendwie koordinieren. Im Ernst, so etwas würde lange dauern, um es zu bauen. Und das gilt nur für die Version, die 3 Sekunden braucht, um jedes Wort zu sagen.

Wenn Sie eine elektronische Stimme verwenden , benötigen Sie einen gespeicherten Bestand an Phonemen (oder die geschnittenen Phonempaare, wie ich sie oben beschrieben habe). Mit modernen Computern können Sie elektronisch erzeugte Klänge verwenden, aber es ist die gleiche Grundidee: Erstellen Sie eine Reihe von Klängen, die sich zu Wörtern zusammenfügen.

Englisch vs. Nicht-Englisch? Kinderleicht. Das ist nur ungefähr, welche Phoneme und/oder Phonempaare Sie in Ihrer Datenbank haben.

Kannst du Lautstärke oder Tonhöhe ändern? Vielleicht. Es kann mechanisch durchgeführt werden, aber Sie müssen dies entweder von einem Menschen tun lassen, einer intelligenten Maschine, oder einen Weg finden, es zu programmieren.

Wie sieht es mit der Intonation aus? Nein, verdammt. Weg. Wenn nur die Grundlagen der Intonation mit moderner Technologie erreicht werden können, wird dies mit der Technologie aus der viktorianischen Ära nicht passieren.

[Intonation ist] außerordentlich komplex. „Obwohl die Intonation in erster Linie eine Frage der Tonhöhenvariation ist, ist es wichtig, sich bewusst zu sein, dass Funktionen, die der Intonation zugeschrieben werden, wie der Ausdruck von Einstellungen und Emotionen oder das Hervorheben von Aspekten der grammatikalischen Struktur, fast immer eine begleitende Variation anderer prosodischer Merkmale beinhalten.“ David Crystal sagt zum Beispiel, dass "Intonation kein einzelnes System von Konturen und Pegeln ist, sondern das Produkt der Interaktion von Merkmalen verschiedener prosodischer Systeme - insbesondere Ton, Tonhöhe, Lautstärke, Rhythmik und Tempo." ( ref )

Was wäre, wenn die Steuerung der Maschine wirklich kein Thema wäre?

Das OP behauptet dies, aber es hängt wirklich vom Rahmen der Frage ab. Wie viel Handwinken und „Alien-Tech“ gibt es? Selbst mit „Software“, die wirklich ein intelligentes Gehirn ist, das in der Lage ist, eine perfekte Steuerung zu erzeugen, haben Sie es immer noch mit der Langsamkeit von Maschinen aus der viktorianischen Zeit zu tun. Wenn alles wirklich lokal gebaut wird, sehe ich keine Möglichkeit, dass die Sprache eine normale Geschwindigkeit haben kann, geschweige denn all diese Nuancen.

Mit 44 Phonemen im Englischen ( Ju|'hoan hat ungefähr 130) und Hunderten, um alle Sprachen der Welt zu berücksichtigen, würde die Datenbank der Aufnahmen allein zu viel Platz beanspruchen, selbst wenn sie sehr klein wäre und selbst wenn Sie den winzigen Player bauen könnten & eine Maschine, um es zu bewegen. Und das setzt voraus, dass Sie nur Phoneme aufnehmen, nicht die bearbeiteten Kombinationen, die Ihnen viel glattere und bessere Ergebnisse liefern.

pro OP: "Die Kontrolle des Mechanismus sollte nicht von Bedeutung sein." Die meisten Schwierigkeiten/Kompliziertheiten, die Sie bei der Sprachsimulation beschreiben, beziehen sich auf die Software, dh die Steuerung. Wir sprechen also nicht von elektronisch computergenerierter Sprache: Was ist physikalisch/mechanisch das Problem bei der Simulation der Intonation? Es scheint, dass Sie, wenn Sie die Tonhöhe ändern können, die Intonation simulieren können ... Sicher, Sie müssen die Tonhöhe auf sehr feine Weise ändern, aber das ist Kontrolle ...
@Mr.Mindor es ist außerordentlich komplex. „Obwohl die Intonation in erster Linie eine Frage der Tonhöhenvariation ist, ist es wichtig, sich bewusst zu sein, dass Funktionen, die der Intonation zugeschrieben werden, wie der Ausdruck von Einstellungen und Emotionen oder das Hervorheben von Aspekten der grammatikalischen Struktur, fast immer eine begleitende Variation anderer prosodischer Merkmale beinhalten.“ David Crystal sagt zum Beispiel, dass „Intonation kein einzelnes System von Konturen und Pegeln ist, sondern das Produkt des Zusammenspiels von Merkmalen verschiedener prosodischer Systeme – insbesondere Ton, Tonhöhe, Lautstärke, Rhythmik und Tempo.“
Gibt es irgendwelche dieser nicht physikalischen Eigenschaften des erzeugten Klangs?
@Mr.Mindor es hängt wirklich vom Rahmen der Frage ab. Wie viel Handwinken und „Alien-Tech“ gibt es? Selbst mit "Software", die wirklich ein intelligentes Gehirn ist, haben Sie es immer noch mit der Langsamkeit von Maschinen aus der viktorianischen Zeit zu tun. Wenn alles wirklich lokal gebaut wird, sehe ich keine Möglichkeit, dass die Sprache eine normale Geschwindigkeit haben kann, geschweige denn all diese Nuancen. Mit 44 Phonemen im Englischen (Ju|'hoan hat ungefähr 130) und Hunderten, um alle Sprachen der Welt zu berücksichtigen, würde die Datenbank der Aufnahmen allein zu viel Platz beanspruchen, selbst wenn Sie den winzigen Player und eine Maschine bauen könnten, um sie zu bewegen um.
@Mr.Mindor Ich habe meine Frage (gegen Ende) bearbeitet, um Ihre Kommentare zu berücksichtigen.
Und wirklich, es liegt an @ALambentEye zu entscheiden, ob meine Antwort in den Rahmen der Frage passt und nützlich ist. Hoffentlich ist es das.
Obwohl es meine Frage nicht direkt beantwortet, ist es dennoch eine gut recherchierte und informative Antwort. Danke schön.
Wie ich sehe, arbeiten Sie im Kontext einer Maschine, die Aufnahmebits für die Wiedergabe kombiniert. Eine Art mechanische Version der Software, an der Sie gearbeitet haben. Ich denke eher an eine künstliche Version unserer eigenen biologischen Ausrüstung (ähnlich den in Elmys Antwort beschriebenen realen Geräten, die es einem Instrument näher bringen würden, das über Tasten und Hebel gespielt wird, bei dem die Tonhöhe durch Einstellen der Spannung auf a moduliert werden kann schwingende Membran oder effektive Länge einer Röhre, und die Kadenz ist nur eine Frage des Timings.
@Mr.Mindor Ja. Aber ich denke, Sie müssen, wenn Sie die Anforderung des OP erfüllen wollen, dass es natürlich (menschlich) klingt. Abgesehen davon spreche ich die Schaffung eines künstlichen Mundes an, der die Geräusche artikuliert. Es ist so lang wie einige Antworten, aber umgeben von viel längerem Text, in dem andere Dinge besprochen werden.

Es wird sich wie eine automatische Zugdurchsage anhören.

Der Grund dafür ist, dass wir die gleichen Prinzipien verwenden werden. Einzelne Wörter, die auf separaten Wachszylindern aufgezeichnet sind, werden von Ihrem Automatenmechanismus in der entsprechenden Reihenfolge ausgewählt und wiedergegeben.

Nicht ganz menschlich, nicht ganz unmenschlich, aber ganz im Sinne der Technik der Zeit.

Das gibt Ihnen natürlich einen ziemlich begrenzten Wortschatz, aber Sie sollten in der Lage sein, nicht mehr als ein paar tausend Wörter zu erarbeiten, um sich zu den meisten (gesellschaftlich akzeptablen) Themen ausdrücken zu können.

Ihre schwierigere Option ist, dass Sie anstelle von ganzen Wörtern Silben aufnehmen, um Wörter zu konstruieren. Das könnte Ihnen ein breiteres Vokabular im Austausch für einen komplexeren Mechanismus und etwas gebrochenere Sprache ermöglichen.

Abhängig davon, welche Berechnungsebene Ihr Automat ausführen kann und wie komplex Ihr Mechanismus sein kann, könnten Sie eine Art Mikrostiftsystem erstellen, bei dem eine Nadel über eine Reihe winziger Stifte läuft, die auf verschiedenen Höhen platziert sind, genau wie Eine Schallplatte hat auf mikroskopischer Ebene Zähne in den Rillen. Die Auflösung eines solchen Geräts wäre niedriger als eine tatsächliche Schallplatte, aber das könnte eine der Macken sein. Mit dieser Methode können Sie sicherlich die Intonation ändern.

Sehen Sie sich als Referenz an, wie das Rad eines Glockenspiels aufgebaut ist, oder die Murmelmaschine von Wintergatan. Skalieren Sie es dann so weit herunter, dass es nicht nur eine Note auslöst, sondern eine Simulation der Grate auf einer Schallplatte wird.

Nur um auf das Offensichtliche hinzuweisen ... der moderne Lautsprecher wurde in der viktorianischen Ära (1870er Jahre) erfunden. Der einzige große Unterschied zwischen der Sprachsynthese von heute und vor 150 Jahren ist die Kontrolle.

Je nachdem, wie fortgeschritten das "Gehirn" Ihres Automaten ist, würden irgendwelche Macken herkommen. Wenn es einfach keine Rechenleistung braucht, um die Hertz-Rate der menschlichen Wahrnehmung nachzuahmen, wäre es ein bisschen so, als würde man mit Stephen Hawking sprechen.

Wenn Sie davon ausgehen, dass der Automat den Lautsprecher mit der Präzision eines modernen Computers steuern kann, sollte die Sprachsynthese nahezu fehlerfrei sein. Mit ihm zu sprechen, würde sich eher wie ein Gespräch mit Alexa anfühlen. Es wäre nicht, wie es spricht, was seinen Mangel an Menschlichkeit verraten würde, sondern seine Wortwahl und Tonfall.

Wenn das Ding von menschlichem oder übermenschlichem Intellekt ist, dann wäre es mit geschlossenen Augen nicht von einem Gespräch mit einer Person zu unterscheiden, aber das Fehlen eines sich bewegenden Mundes kann für Personen beunruhigend sein, die nicht daran gewöhnt sind, damit zu interagieren.

Sie machen einen interessanten Punkt, wenn es um menschliche Interaktion geht. Daran hatte ich nicht gedacht.