Verwendung der Verarbeitung natürlicher Sprache zur Verkehrsüberwachung aus Videos

Ich stecke fest und versuche zu lernen, wie man die Videoverarbeitung verwendet, wie in den verlinkten Artikeln im Bereich der Erkennung menschlichen Verhaltens oder der Verkehrsüberwachung (jede Art von Überwachungstätigkeit) erläutert. Insbesondere weiß ich nicht, wie ich das Problem mit irgendwelchen verfügbaren Modellen formulieren soll.

Ich habe zwei Aufsätze gefunden (Haag & Nagel (2000; Aufsatz 1) und Arens, Gerber, & Nagel (2008; Aufsatz 2)), die anhand eines Beispiels die Verwendung natürlicher Sprache zur Verkehrsüberwachung anhand von Bildsequenzen von Videos veranschaulichen. Meine Frage sind

  1. Unter welchen Annahmen werden die Aktionen generiert? Was ist der Vorteil von nlp hier oder in jeder Anwendung, abgesehen von der Tatsache, dass es eine hierarchische Darstellung von Informationen/Wissen gibt?
  2. Wie werden die Aktionen und Diagramme (vom Autor als Situationsdiagrammbäume bezeichnet) (unter welchen Annahmen) in Abb. 2 von Papier 1 und Abb. 1 von Papier 2 generiert?
  3. Wurde die Tabelle5 in Papier1: Inkrementelle Erkennung von Verkehrssituationen aus Videobildsequenzen und nachfolgenden Tabellen mit einigen Programmierwerkzeugen generiert?

Verweise

Haag, M. & Nagel, H.-H. (2000) „ Inkrementelle Erkennung von Verkehrssituationen aus Videobildsequenzen “. Bild- und Bildverarbeitung 18(2): 137-153.

Arens, M., Gerber, R., & Nagel H.-H. (2008) „ Konzeptuelle Repräsentationen zwischen Videosignalen und natürlichsprachlichen Beschreibungen “. Bild- und Vision-Computing 26: 53–66.

Ich kann nicht verstehen, was Sie fragen. Wenn Sie nicht wissen, was Sie tun, wie können Sie dann nach Open-Source-Tools fragen, um dies zu tun? Finden Sie heraus, was Sie tun möchten und wie Sie es präzise und genau in Form einer Frage formulieren, und stellen Sie dann basierend auf dem, was Sie bei Ihrer ersten Suche lernen, spezifische, gut fokussierte Fragen. An dieser Stelle muss ich zum Schließen als "keine echte Frage" stimmen.
Ihre Frage ist aufgrund einer unsauberen Grammatik sowie mangelnder Konzentration verwirrend. Ich denke, Sie sollten zunächst versuchen, dies in zwei Fragen zu unterteilen. Eines über die visuelle Klassifizierung (vielleicht möchten Sie sich mit der Übersetzung in Gebärdensprache, der visuellen Erkennung von Gesten usw. befassen). Nachdem Sie etwas Interessanteres gefunden haben, auf das Sie sich konzentrieren möchten, ist es einfacher, nach Open-Source-Tools dafür zu fragen.
Zum Beispiel Arbeiten zur Gestenerkennung sciencedirect.com/science/article/pii/S0262885606002897
Ich habe die Frage bearbeitet, um Grammatik und Formatierung zu verbessern, damit OP sie dann bearbeiten kann, um sie präziser zu machen. Es gibt eigentlich zwei Fragen, bei denen der Umfang der gewünschten Roboterkognition zu breit ist. Ein etwas eingeschränkterer Umfang der Roboterkognition wäre meiner Meinung nach ein fruchtbarerer Ausgangspunkt für eine so schwierige Angelegenheit.
OP, ich denke, Sie sollten sich mit den Grundlagen von NLP vertraut machen. Einige einführende Ressourcen finden Sie in dieser Frage und den Antworten auf ling.SE
Außerdem ist Abb. 1 von Papier 2 nur eine Zusammenfassung (in Zahlenform) der Schlüsselideen von Papier 1. Ich bin mir nicht sicher, was Sie fragen.

Antworten (1)

Ich glaube, Sie haben in vielerlei Hinsicht missverstanden, was Haag & Nagel (2000; was Sie Paper 1 nennen) gemacht hat und wie Arens, Gerber & Nagel (2008; Paper 2) es erweitert haben. Abb. 1 von AGN08 ist eine gute Zusammenfassung von HN00. HN00 baute ein System, das ein Video einer Kreuzung ansehen, Autos erkennen und das Autoverhalten in einen konzeptionellen Rahmen übersetzen konnte. Als Inspiration für ihr System nutzten sie ihre Vorstellung davon, wie Menschen die Aufgabe darstellen:

Es scheinen fünf Darstellungsebenen beteiligt zu sein: (i) eine Darstellung der Geometrie raumzeitlicher Entwicklungen in der Straßenverkehrsszene, die sowohl eine 2D-in der Bildebene als auch eine 3D-in Bezug auf die dargestellte Szene umfasst, (ii) eine eng an bestimmte Verkehrssituationen gekoppelte Darstellung von Fahrmanövern, (iii) eine konzeptionelle Darstellung von sichtbaren Körpern, ihren Attributen und ihren elementaren Bewegungen, (iv) generische konzeptionelle Darstellungen von raumzeitlichen Körperkonfigurationen und ihren erwarteten zeitlichen Entwicklungen und (v) eine oder mehrere Versionen einer natürlichsprachlichen Darstellung von Entwicklungen, die sich um den aktuellen Zeitpunkt drehen.

Mit anderen Worten, das Ziel von HN00 war es, ein 2D-Bild einer Kreuzung zu betrachten und daraus eine 2D/3D-Darstellung der Szene zu konstruieren. Identifizieren und kennzeichnen Sie in dieser Szene Objekte und beschreiben Sie sie in einer Konzeptsprache namens SIT++. Sobald sie sich in dieser konzeptuellen Repräsentation (als Situationsbäume) befinden, könnten sie logische Schlussfolgerungen (unter Verwendung von Fuzzy Metric Temporal Horn Logic) auf ihrer Repräsentation durchführen, um zu entscheiden, was die von ihnen identifizierten Agenten zu tun versuchen.

Beachten Sie, dass HN00 überhaupt keine Verarbeitung natürlicher Sprache (NLP) beinhaltete. Obwohl sie viel Mustererkennung und verschiedene maschinelle Lernalgorithmen verwenden mussten, die NLP-Praktizierenden vertraut wären. Ihre Domäne war jedoch die Umwandlung einer visuellen Szene in eine konzeptionelle (nicht natürliche Sprache) interne Darstellung.

Wie ging AGN08 darüber hinaus? Sie änderten, was sie tun wollten. Ihre Aufgabe bestand nicht einfach darin, eine Szene zu betrachten und sie in eine interne Darstellung umzuwandeln, sondern diese interne Darstellung dann in einer Beschreibung in natürlicher Sprache auszugeben . Daher fügten sie HN00 ein System zur Generierung natürlicher Sprache hinzu. Das Generieren natürlicher Sprache aus einer internen Repräsentation ist offensichtlich ein wichtiger Teil von NLP.

Beim Hinzufügen dieser Funktionalität musste AGN08 die interne Darstellung in mehrfacher Hinsicht erweitern. Dies lag daran, dass mehr interne Informationen erforderlich waren, um eine gute Ausgabe in natürlicher Sprache zu erzeugen, und weil sie mit komplexeren Szenen als HN00 umgehen wollten. Der Beitrag konzentriert sich auf diesen Aspekt der Arbeit (Erweiterung der internen Repräsentation) und berührt nur am Rande die Ausgabe in natürlicher Sprache. Sie gehen detailliert auf die Ausgabe in natürlicher Sprache ein in:

R. Gerber, Natürlichsprachliche Beschreibung von Straßenverkehrsszenen durch Bildfolgenauswertung. Dissertation, Fakultät für Informatik der Universität Karlsruhe (TH), Karlsruhe, Januar 2000

Leider bin ich nicht bereit, Deutsch zu lernen und eine ganze Abschlussarbeit zu lesen, um Ihnen eine vollständigere Antwort auf die Details zu geben. Bevor Sie das selbst versuchen (hoffentlich sprechen Sie bereits Deutsch) oder in neuere Arbeiten schauen, empfehle ich Ihnen, sich ein paar Grundlagen des NLP anzueignen. Eine gute Quelle ist die folgende Frage:

Auf der Suche nach einer guten Referenz für Anfänger zum Erlernen der Computerlinguistik

Vielen Dank, dass Sie sich die Mühe gemacht haben, so detailliert zu erklären. Wie ich annehme, sind diese Papiere für meine Aufgabe schwer umzusetzen und beziehen sich nicht auf das, was mich interessiert. Würden Sie allgemein vorschlagen, wie ich anfangen oder was sein sollte Ausgangspunkt und Schritte beim Aufbau eines Überwachungssystems zur Situationsbeurteilung auf Basis natürlicher Sprache.