Haben maschinelle Lernalgorithmen Wissen (wenn nicht begründete wahre Überzeugungen)?

Mit „Algorithmus für maschinelles Lernen“ beziehe ich mich auf grundlegende, hauptsächlich statistische, maschinelle Lernalgorithmen; Betrachten Sie für konkrete Beispiele einfache Klassifikatoralgorithmen wie SVM oder Bayes'sche Klassifikatoren oder Entscheidungsbäume . Ich behaupte, dass diese Maschinen keinen Verstand haben.

Ich sehe eine Homologie zwischen diesen Algorithmen und der JTB-Wissenstheorie: Der Trainingssatz und die Modellstruktur bilden die Begründung ab, die Ergebnisse (deklarierte Klassenbezeichnungen) bilden die Überzeugungen ab und der wahre Aspekt bleibt unberührt. Eine ähnliche Homologie besteht zu der beim (statistischen) maschinellen Lernen typischerweise angewandten „Vermutung & Kritik“-Sicht auf Wissen (alanf) in den Trainings- und Testphasen.

Offensichtlich wäre der erste Einwand, dass Glaube (und Rechtfertigung?) einen Verstand erfordert – etwas, das diese Algorithmen nicht verkörpern. Ist das das einzige Kriterium, das das „Wissen“ statistischer maschineller Lernsysteme von tatsächlichem Wissen unterscheidet?

Abgesehen davon

Ich würde behaupten, dass eine Teilmenge des normalen (menschlichen) Wissens eine Form hat, die der Repräsentation im Sinne des maschinellen Lernens zugänglich ist – ein Beispiel, das mir in den Sinn kommt, ist das Wissen, das Vogelbeobachter verwenden, um Vögel auf der Grundlage einer Teilbeobachtung zu identifizieren. Vogelbeobachter haben festgestellt, welche Merkmale am besten beobachtbar sind und Vogelarten voneinander unterscheiden können. dass dies Wissen ist, scheint unbestreitbar.

Ich sehe hier auch so etwas wie ein Sorite-Paradoxon: Ein Vogelbeobachter, der die Vögel identifiziert, indem er sie ansieht, "kennt seine Vögel"; jemand, der einen Feldführer zur Unterstützung verwendet, scheint immer noch "begründete wahre Überzeugung" zu haben, wenn die richtige ID gemacht wird; Was ist mit umfangreicherer Unterstützung, wie Merlin ID (was auf den Screenshots so aussieht, als würde es Sie durch einen Entscheidungsbaum führen)? Wie wäre es, wenn Sie einfach das Ergebnis eines automatisierten Vogel-ID-Algorithmus für bare Münze nehmen? (wird im letzten Fall etwas Neues hinzugefügt, außer dass die Art-ID vom iPhone-Bildschirm in den Kopf des Vogelbeobachters übertragen wurde?)

Es scheint eine potenzielle Disanalogie in Ihrer Nebenbemerkung zu Vogelbeobachtern zu geben, da die Bedeutung von „Hinweis“, wenn sie auf ein menschliches Subjekt angewendet wird, möglicherweise anders ist als alles, was Algorithmen für maschinelles Lernen tun. Oder anders ausgedrückt, das „Bemerken“ scheint in einem Programm auf eine Weise programmiert zu sein, die zumindest der Programmierer im Grunde versteht, aber Vogelbeobachter bemerken auf eine Weise, die sie möglicherweise nicht verstehen.
@virmaior Ich interpretiere die Tatsache, dass die resultierenden Modellstrukturen am Ende des Trainings codieren, welche Merkmale der Problemdomäne für die Aufgabe relevant sind, als "bemerken, welche Merkmale relevant sind"; zumindest im analogen Sinne.
Ich bin mir nicht sicher, ob ich Ihnen bei der Verwendung von "Hinweis" dort folgen kann. Merken scheint mir eine Fähigkeit zu sein, die Maschinen fehlt. Einen fest codierten Erkennungssensor zu haben, scheint das komplette Gegenteil von mindestens einem normalen Wahrnehmungssinn zu sein. Und Maschinen scheinen (und mein Wissen hier könnte begrenzt sein) nur zu lernen, Erkennungsinformationen herauszufiltern, die nicht korrelieren. Wir scheinen (glaube ich zumindest) zumindest auf der Ebene des Bewusstseins das Gegenteil zu tun und nennen dies „merken“
@virmaior Funktionsauswahl ( machinelearningmastery.com/an-introduction-to-feature-selection ) ist ein noch relevanteres Analogon zu "bemerken", insbesondere wenn es "online" als Antwort auf einen bestimmten Testfall ausgeführt wird ( aclweb.org /Sammelband/P15-1015 ). Ich bin geneigt zuzustimmen, dass diese Arten von Algen. sind wahrscheinlich keine Modelle oder Simulationen des biologischen Wahrnehmens; aber in den Fällen, in denen sie verwendet werden, spielen sie im Hinblick auf den Gesamtrahmen des Lernens eine ähnliche Rolle wie das Bemerken.

Antworten (4)

Der OP-Vorschlag ähnelt im Geiste dem in Farkas' Aufsatz „Belief May Not Be a Necessary Condition for Knowledge“ . Sein wichtigstes Beispiel ist Otto, ein Typ mit schwerem Gedächtnisverlust, der alle wichtigen Informationen in einem Notizbuch aufbewahrt, das er immer bei sich trägt und das seinen Verstand "erweitert":

" Es gibt Teile des Wissens, die zu mühsam sind, um sie zu erwerben und in unserem Kopf zu behalten: sich zum Beispiel Telefonnummern oder Geburtstage zu merken ... Ich werde argumentieren, dass wir die Anwendung des Wissenskonzepts natürlich auf solche Fälle ausdehnen können. Andy Clark und David Chalmers, der Extended-Mind-Szenarien (1998) einführte, brachte ein ähnliches Argument für Überzeugungen vor ... Mein Vorschlag ist, dass dies für Wissen besser funktioniert als für Überzeugung ".

Das OP scheint bereit zu sein, Wissen ohne einen "denkenden" Agenten insgesamt weiter zu betrachten. Platons Diktum vom Wissen als (begründeter wahrer) Glaube ist nach wie vor weit verbreitet, aber nicht über jeden Zweifel erhaben . „Ich glaube an Gott“ und „Ich glaube, die Sonne wird morgen aufgehen“ verwenden „glauben“ auf sehr unterschiedliche Weise. Das eine verlangt aktives Akzeptieren, das andere resigniert, das eine mischt sich mit Hoffnungen und Wünschen, das andere mit Vermutungen und Meinungen. Laut Radford können Menschen die richtigen Antworten kennen und geben, ohne an sie zu glauben und zu glauben, dass sie raten. Wenn ein Akt der Akzeptanz für Wissen in erweiterten Verstandesszenarien nicht erforderlich ist, warum sollte es dann überhaupt erforderlich sein? Wenn Wissen kein Glaube ist,

Einer (Searle) könnte einwenden, dass selbst wenn wir den Glaubensteil herausnehmen, der Rechtfertigungsteil immer noch „Intentionalität“ und „Verständnis“ erfordert, um Wissen zu erlangen. Und das kann nur ein Verstand leisten. Die Autoren von Systems Reply to Searle's Chinese Room (Minsky, Cole) entgegnen jedoch, dass alles, was Maschinen haben, Geist genug ist. Cole schreibt explizit über „ einen riesigen „Hintergrund“ an gesundem Menschenverstand, der im Programm und in den Aktenschränken kodiert ist “. Searle bestreitet, dass "Codierung" möglich ist oder dass der "virtuelle Geist" als Geist qualifiziert wird.

Man kann dieses Argument über den Verstand umgehen, indem man Platons Diktum verwirft und Wissen als so etwas wie eine effektive Annahme beschreibt, auf der Handlungen basieren. Das ist mehr oder weniger die pragmatische Theorie , die auf Peirce und James zurückgeht. Der „Großvater“ des Pragmatismus, Bain, definierte Glauben als „ das, worauf ein Mensch bereit ist zu handeln “. Eine Maschine kann Informationen erwerben und speichern, auf deren Grundlage sie "handelt". Wenn diese Informationen wirksam sind, um ihre Handlungen "angemessen" zu machen, zählt dies als Wissen. Das ist wohl auch alles menschliche Wissen.

Für eine breitere Perspektive siehe SEPs Analysis of Knowledge .

Worte sind ein schlechter Weg, um Überzeugungen und Wissen auszudrücken und ihre Natur zu diskutieren, aber wir haben keine Alternative. Achten Sie auf die Ergebnisse, wenn Sie ein schlechtes Werkzeug verwenden.
Falsche Behauptung. Handlungen sind eine bessere Möglichkeit, Überzeugungen und Wissen auszudrücken, weil sie objektiv und daher öffentlich sind. „Taten sprechen mehr als Worte“ ist kein Sprichwort, weil es sich reimt.

Das grenzt an die Idee des „Chinese Room Thought Experiment“. Wenn Sie mit diesem Experiment nicht vertraut sind, werden das folgende Video und Zitat sehr hilfreich sein.

Searles Gedankenexperiment beginnt mit dieser hypothetischen Prämisse: Nehmen wir an, dass es der Forschung im Bereich der künstlichen Intelligenz gelungen ist, einen Computer zu konstruieren, der sich so verhält, als würde er Chinesisch verstehen. Es verwendet chinesische Schriftzeichen als Eingabe und erzeugt andere chinesische Schriftzeichen, die es als Ausgabe darstellt, indem es den Anweisungen eines Computerprogramms folgt. Angenommen, sagt Searle, dass dieser Computer seine Aufgabe so überzeugend erfüllt, dass er den Turing-Test problemlos besteht: Er überzeugt einen menschlichen Chinesischsprecher, dass das Programm selbst ein lebender Chinesischsprecher ist. Auf alle Fragen, die die Person stellt, gibt es angemessene Antworten, so dass jeder Chinesisch sprechende Mensch davon überzeugt ist, dass er mit einem anderen chinesisch sprechenden Menschen spricht.

Die Frage, die Searle beantworten möchte, lautet: „Versteht“ die Maschine Chinesisch im wahrsten Sinne des Wortes? Oder simuliert es lediglich die Fähigkeit, Chinesisch zu verstehen?[6][c] Searle nennt die erste Position "starke KI" und die letztere "schwache KI".[d]

Searle nimmt dann an, dass er sich in einem geschlossenen Raum befindet und ein Buch mit einer englischen Version des Computerprogramms sowie ausreichend Papier, Bleistifte, Radiergummis und Aktenschränke hat. Searle konnte chinesische Schriftzeichen durch einen Schlitz in der Tür empfangen, sie gemäß den Anweisungen des Programms verarbeiten und als Ausgabe chinesische Schriftzeichen erzeugen. Wenn der Computer den Turing-Test auf diese Weise bestanden hätte, würde er dies auch tun, sagt Searle, indem er einfach das Programm manuell ausführte.

Searle behauptet, dass es keinen wesentlichen Unterschied zwischen der Rolle des Computers und ihm selbst im Experiment gibt. Jeder folgt einfach Schritt für Schritt einem Programm und produziert ein Verhalten, das dann als Demonstration intelligenter Konversation interpretiert wird. Searle würde das Gespräch jedoch nicht verstehen können. ("Ich spreche kein Wort Chinesisch",[9] gibt er zu bedenken.) Daraus folgt, argumentiert er, dass der Computer das Gespräch auch nicht verstehen könne.

Searle argumentiert, dass wir ohne "Verstehen" (oder "Intentionalität") das, was die Maschine tut, nicht als "Denken" beschreiben können, und da sie nicht denkt, hat sie keinen "Verstand" im normalen Sinne des Wortes . Daher kommt er zu dem Schluss, dass „starke KI“ falsch ist.

Quelle: https://en.wikipedia.org/wiki/Chinese_room

https://www.youtube.com/watch?v=TryOC83PH1g&edufilter=42sx_3NqAVcegVpqn7ZbPg

Ich hoffe, diese helfen und können Sie zu einer Antwort führen. Meiner Meinung nach haben maschinelle Lernalgorithmen, wie Sie vielleicht sagen können, kein Wissen.

Searles Argument ist relevant, aber Verstehen (sein Begriff) ist nicht identisch mit Wissen (mein Fokus). Zumindest ist es für mich nicht offensichtlich, dass diese Begriffe in diesem Zusammenhang austauschbar sind; Sehen Sie klarer, wie man sein Beispiel auf das Wissen (JTB) selbst entpackt?

Algorithmen für maschinelles Lernen instanziieren Wissen. Es ist durchaus möglich, dass ein System Wissen hat, aber dieses Wissen nicht versteht.

Viele Philosophen vertreten den gerechtfertigten wahren Glauben. Wissen, das Menschen haben, ist nicht gerechtfertigt . Wissen muss auch nicht wahr sein, zB - die Newtonsche Mechanik ist falsch, aber es ist Wissen. Und einer der Gründe, warum Wissen als Glaube angesehen wird, ist, dass man eine Person braucht, um es zu rechtfertigen, aber das stimmt nicht, also ist kein Glaube notwendig.

Da von der JTB-Wissenstheorie nichts übrig geblieben ist, bleibt die Frage, was Wissen von Nichtwissen trennt. Wissen ist Information, die ein Problem löst.

Es ist nicht erforderlich, dass irgendjemand von der Existenz eines Problems weiß, damit ein Problem gelöst werden kann. Zum Beispiel ist das menschliche Herz eine Pumpe, die jahrzehntelang ohne menschliches Eingreifen oder Wartung ununterbrochen arbeiten kann. Spatzenflügel helfen bei der Lösung des Problems, wie man kleine, leichte Objekte zum Fliegen bringt. Die Informationen zur Lösung dieser Probleme sind in den Genen der jeweiligen Organismen enthalten. Die Tatsache, dass niemand diese Informationen kennt, ist irrelevant. Viele geringfügige Varianten dieser Strukturen würden die Probleme, die sie lösen, nicht lösen. Diese enge Übereinstimmung zwischen diesen Strukturen und einem bestimmten Problem erfordert eine Erklärung. Die Erklärung für diese Übereinstimmung hat starke strukturelle Ähnlichkeiten mit der Art und Weise, wie menschliches Wissen entsteht. Sowohl menschliches Wissen als auch biologisches Wissen werden durch viele Variations- und Auswahlrunden geschaffen.

Algorithmen für maschinelles Lernen instanziieren Wissen, das größtenteils von Menschen geschaffen wird. Menschen entscheiden, welche Informationen an die Algorithmen weitergegeben werden. Menschen schreiben den Code, der Variationen erzeugt. Menschen entscheiden, welche Ergebnisse als Erfolg gelten. Menschen entscheiden, wie die Auswahl funktionieren soll. Die Algorithmen instanziieren Informationen darüber, wie ein Problem gelöst werden kann, in einer Form, die wir nicht explizit lesen können. Aber der Algorithmus kann trotzdem ein Problem lösen, sagt die Gesichtserkennung, sodass die Menschen es nicht mehr tun müssen. Das maschinelle Lernprogramm instanziiert also etwas Wissen.

Beispiel für Wissen, aber Wissen nicht verstehen: e = mc^2.
Viele Leute verstehen E=mc^2, mich eingeschlossen. Wenn nicht, lesen Sie „Special Relativity“ von AP French.
Ich denke, der Punkt von @gnasher729 ist, dass wir wissen können, dass e = mc^2 "wahr" ist, aber nicht mehr darüber wissen, was das bedeutet - wie es bekannt wurde und angewendet werden kann. Ich weiß Unmengen von Dingen, die ich nicht wirklich verstehe. Ich weiß, dass dein Screenname alanf ist und dass du (in diesem Moment) 3.605 Punkte hast, aber warum? Wieso den? Bedeutet das, dass ich diese Dinge nicht weiß? Sie sind direkt vor meinem Gesicht. Ich kann sogar das Ausmaß dessen kennen, was ich nicht weiß, um den berühmten Ausdruck zu leihen.
Ich glaube nicht, dass Sie wissen, dass e=mc^2 wahr ist, wenn Sie es nicht verstehen. Sie sagen nur, dass es wahr ist, weil es ein weithin akzeptierter Slogan ist. Der Ausdruck bedeutet etwas, das im Kontext der Physik wahr ist und von einigen Menschen bekannt und verstanden wird. Sie wissen, dass mein Bildschirmname alanf ist, weil Sie wissen, dass der Browser Ihnen genaue Informationen über diesen Namen gibt, ebenso für meine Punktzahl.

Arthur Samuel, ein amerikanischer Pionier auf dem Gebiet des Computerspiels und der künstlichen Intelligenz, prägte 1959 bei IBM[12] den Begriff „Machine Learning“ .

Als wissenschaftliches Unterfangen entstand maschinelles Lernen aus der Suche nach künstlicher Intelligenz.

Schon in den Anfängen der KI als akademische Disziplin interessierten sich einige Forscher dafür, Maschinen aus Daten lernen zu lassen.

Sie versuchten, sich dem Problem mit verschiedenen symbolischen Methoden sowie den damals als "neuronale Netze" bezeichneten Methoden zu nähern ; dabei handelte es sich hauptsächlich um Perceptrons und andere Modelle, die sich später als Neuerfindungen der verallgemeinerten linearen Modelle der Statistik herausstellten.[13] Wahrscheinlichkeitsrechnung wurde auch eingesetzt, insbesondere in der automatisierten medizinischen Diagnose.[14]:488

Die zunehmende Betonung des logischen, wissensbasierten Ansatzes führte jedoch zu einer Kluft zwischen KI und maschinellem Lernen.

Bis 1980 dominierten Expertensysteme die KI, und Statistiken waren in Ungnade gefallen.[15] Die Arbeit an symbolischem/wissensbasiertem Lernen wurde innerhalb der KI fortgesetzt, was zu induktiver Logikprogrammierung führte, aber die eher statistische Forschungslinie lag nun außerhalb des Bereichs der eigentlichen KI, in der Mustererkennung und Informationsbeschaffung.[14]:708–710; 755

Die Erforschung neuronaler Netze wurde etwa zur gleichen Zeit von KI und Informatik aufgegeben. Auch diese Linie wurde außerhalb des KI/CS-Bereichs als „connectionism“ von Forschern anderer Disziplinen wie Hopfield, Rumelhart und Hinton fortgeführt. Ihr größter Erfolg kam Mitte der 1980er Jahre mit der Neuerfindung der Backpropagation.[14]:25

Maschinelles Lernen begann in den 1990er Jahren zu florieren.

Das Feld änderte sein Ziel von der Erzielung künstlicher Intelligenz zur Bewältigung lösbarer Probleme praktischer Natur. Es verlagerte den Fokus weg von den symbolischen Ansätzen, die es von der KI geerbt hatte, und hin zu Methoden und Modellen, die der Statistik und Wahrscheinlichkeitstheorie entlehnt waren.[15] Es profitierte auch von der zunehmenden Verfügbarkeit digitalisierter Informationen und der Möglichkeit, diese über das Internet zu verbreiten.

Maschinelles Lernen und Data Mining verwenden häufig die gleichen Methoden und überschneiden sich erheblich, aber während sich maschinelles Lernen auf die Vorhersage konzentriert, basierend auf bekannten Eigenschaften, die aus den Trainingsdaten gelernt wurden, konzentriert sich Data Mining auf die Entdeckung (bisher) unbekannter Eigenschaften in den Daten (d der Analyseschritt der Wissensentdeckung in Datenbanken). Data Mining verwendet viele Methoden des maschinellen Lernens, jedoch mit unterschiedlichen Zielen; Andererseits setzt maschinelles Lernen auch Data-Mining-Methoden als „unüberwachtes Lernen“ oder als Vorverarbeitungsschritt ein, um die Lerngenauigkeit zu verbessern.

Ein Großteil der Verwirrung zwischen diesen beiden Forschungsgemeinschaften (die oft separate Konferenzen und separate Zeitschriften haben, ECML PKDD ist eine große Ausnahme) rührt von den Grundannahmen her, mit denen sie arbeiten: Beim maschinellen Lernen wird die Leistung normalerweise in Bezug auf die Fähigkeit dazu bewertet bekanntes Wissen reproduzieren,

während bei Knowledge Discovery und Data Mining (KDD) die Hauptaufgabe darin besteht, bisher unbekanntes Wissen zu entdecken.

Bewertet in Bezug auf bekanntes Wissen wird eine uninformierte (unüberwachte) Methode leicht von anderen überwachten Methoden übertroffen, während in einer typischen KDD-Aufgabe überwachte Methoden aufgrund der Nichtverfügbarkeit von Trainingsdaten nicht verwendet werden können.

Maschinelles Lernen ist auch eng mit der Optimierung verbunden: Viele Lernprobleme werden als Minimierung einer Verlustfunktion an einer Reihe von Trainingsbeispielen formuliert. Verlustfunktionen drücken die Diskrepanz zwischen den Vorhersagen des trainierten Modells und den tatsächlichen Probleminstanzen aus (bei der Klassifizierung möchte man beispielsweise Instanzen eine Bezeichnung zuweisen, und Modelle werden trainiert, um die vorab zugewiesenen Bezeichnungen einer Menge von korrekt vorherzusagen Beispiele) .

Der Unterschied zwischen den beiden Feldern ergibt sich aus dem Ziel der Verallgemeinerung: Während Optimierungsalgorithmen den Verlust bei einem Trainingssatz minimieren können, befasst sich maschinelles Lernen mit der Minimierung des Verlusts bei unsichtbaren Proben.[16] Ref.-

https://en.wikipedia.org/wiki/Machine_learning#Inductive_logic_programming

Leider beantwortet diese Antwort nicht die Frage, ob diese Algorithmen Wissen haben .
@Carl Masens- siehe das Zitat< Data Mining konzentriert sich auf die Entdeckung von (bisher) unbekannten Eigenschaften in den Daten (dies ist der Analyseschritt der Wissensentdeckung in Datenbanken)>
Auch dies beschreibt die Entdeckung von Wissen durch Algorithmen und nicht das Haben von Wissen, was zwei sehr unterschiedliche Dinge sind.
@ Carl Masens-<Während in Knowledge Discovery und Data Mining (KDD) die Hauptaufgabe die Entdeckung von bisher unbekanntem Wissen ist ... dieser Begriff 'bisher unbekanntes, neues Wissen führt zur Konstruktion von Wissen ...