Ich stecke fest und versuche zu lernen, wie man die Videoverarbeitung verwendet, wie in den verlinkten Artikeln im Bereich der Erkennung menschlichen Verhaltens oder der Verkehrsüberwachung (jede Art von Überwachungstätigkeit) erläutert. Insbesondere weiß ich nicht, wie ich das Problem mit irgendwelchen verfügbaren Modellen formulieren soll.
Ich habe zwei Aufsätze gefunden (Haag & Nagel (2000; Aufsatz 1) und Arens, Gerber, & Nagel (2008; Aufsatz 2)), die anhand eines Beispiels die Verwendung natürlicher Sprache zur Verkehrsüberwachung anhand von Bildsequenzen von Videos veranschaulichen. Meine Frage sind
Haag, M. & Nagel, H.-H. (2000) „ Inkrementelle Erkennung von Verkehrssituationen aus Videobildsequenzen “. Bild- und Bildverarbeitung 18(2): 137-153.
Arens, M., Gerber, R., & Nagel H.-H. (2008) „ Konzeptuelle Repräsentationen zwischen Videosignalen und natürlichsprachlichen Beschreibungen “. Bild- und Vision-Computing 26: 53–66.
Ich glaube, Sie haben in vielerlei Hinsicht missverstanden, was Haag & Nagel (2000; was Sie Paper 1 nennen) gemacht hat und wie Arens, Gerber & Nagel (2008; Paper 2) es erweitert haben. Abb. 1 von AGN08 ist eine gute Zusammenfassung von HN00. HN00 baute ein System, das ein Video einer Kreuzung ansehen, Autos erkennen und das Autoverhalten in einen konzeptionellen Rahmen übersetzen konnte. Als Inspiration für ihr System nutzten sie ihre Vorstellung davon, wie Menschen die Aufgabe darstellen:
Es scheinen fünf Darstellungsebenen beteiligt zu sein: (i) eine Darstellung der Geometrie raumzeitlicher Entwicklungen in der Straßenverkehrsszene, die sowohl eine 2D-in der Bildebene als auch eine 3D-in Bezug auf die dargestellte Szene umfasst, (ii) eine eng an bestimmte Verkehrssituationen gekoppelte Darstellung von Fahrmanövern, (iii) eine konzeptionelle Darstellung von sichtbaren Körpern, ihren Attributen und ihren elementaren Bewegungen, (iv) generische konzeptionelle Darstellungen von raumzeitlichen Körperkonfigurationen und ihren erwarteten zeitlichen Entwicklungen und (v) eine oder mehrere Versionen einer natürlichsprachlichen Darstellung von Entwicklungen, die sich um den aktuellen Zeitpunkt drehen.
Mit anderen Worten, das Ziel von HN00 war es, ein 2D-Bild einer Kreuzung zu betrachten und daraus eine 2D/3D-Darstellung der Szene zu konstruieren. Identifizieren und kennzeichnen Sie in dieser Szene Objekte und beschreiben Sie sie in einer Konzeptsprache namens SIT++. Sobald sie sich in dieser konzeptuellen Repräsentation (als Situationsbäume) befinden, könnten sie logische Schlussfolgerungen (unter Verwendung von Fuzzy Metric Temporal Horn Logic) auf ihrer Repräsentation durchführen, um zu entscheiden, was die von ihnen identifizierten Agenten zu tun versuchen.
Beachten Sie, dass HN00 überhaupt keine Verarbeitung natürlicher Sprache (NLP) beinhaltete. Obwohl sie viel Mustererkennung und verschiedene maschinelle Lernalgorithmen verwenden mussten, die NLP-Praktizierenden vertraut wären. Ihre Domäne war jedoch die Umwandlung einer visuellen Szene in eine konzeptionelle (nicht natürliche Sprache) interne Darstellung.
Wie ging AGN08 darüber hinaus? Sie änderten, was sie tun wollten. Ihre Aufgabe bestand nicht einfach darin, eine Szene zu betrachten und sie in eine interne Darstellung umzuwandeln, sondern diese interne Darstellung dann in einer Beschreibung in natürlicher Sprache auszugeben . Daher fügten sie HN00 ein System zur Generierung natürlicher Sprache hinzu. Das Generieren natürlicher Sprache aus einer internen Repräsentation ist offensichtlich ein wichtiger Teil von NLP.
Beim Hinzufügen dieser Funktionalität musste AGN08 die interne Darstellung in mehrfacher Hinsicht erweitern. Dies lag daran, dass mehr interne Informationen erforderlich waren, um eine gute Ausgabe in natürlicher Sprache zu erzeugen, und weil sie mit komplexeren Szenen als HN00 umgehen wollten. Der Beitrag konzentriert sich auf diesen Aspekt der Arbeit (Erweiterung der internen Repräsentation) und berührt nur am Rande die Ausgabe in natürlicher Sprache. Sie gehen detailliert auf die Ausgabe in natürlicher Sprache ein in:
R. Gerber, Natürlichsprachliche Beschreibung von Straßenverkehrsszenen durch Bildfolgenauswertung. Dissertation, Fakultät für Informatik der Universität Karlsruhe (TH), Karlsruhe, Januar 2000
Leider bin ich nicht bereit, Deutsch zu lernen und eine ganze Abschlussarbeit zu lesen, um Ihnen eine vollständigere Antwort auf die Details zu geben. Bevor Sie das selbst versuchen (hoffentlich sprechen Sie bereits Deutsch) oder in neuere Arbeiten schauen, empfehle ich Ihnen, sich ein paar Grundlagen des NLP anzueignen. Eine gute Quelle ist die folgende Frage:
Auf der Suche nach einer guten Referenz für Anfänger zum Erlernen der Computerlinguistik
Artem Kaznatcheev
Vielle
Vielle
Nr
Artem Kaznatcheev
Artem Kaznatcheev