Ich spiele mit dem sozialen Lernen von nahezu optimalen Verhaltensregeln für eine Reihe von Agenten herum. Die Idee ist ungefähr, dass für einen Einkommensprozess (oder Technologieprozess, je nach Fragestellung) eine optimale nichtlineare, intertemporale Policy-Regel existiert. Angenommen, diese Regel kann durch eine lineare Funktion gut angenähert werden. Agenten möchten diese Richtlinienregel lernen, und ein erster Schritt besteht darin, sie die Regel einfach durch Experimentieren lernen zu lassen. "In Autarkie", dh ohne jeglichen Informationsaustausch mit anderen Agenten, würde ein Agent eine Regel für einige Zeit ausprobieren, eine Metrik verwenden, um festzustellen, wie gut sie im Vergleich zu anderen Regeln, die er/sie ausprobiert hat, abschneidet, und vielleicht neu bewerten, vielleicht ganz versuchen andere Regel durch Experimentieren. Dieser Agent beobachtet nur seine eigene Geschichte.
Ein zweiter Durchgang besteht darin, dem Agenten Zugriff auf die Historien aller anderen Agenten zu gewähren. Vermutlich würde dies das Lernen beschleunigen. Ein dritter Schritt könnte darin bestehen, diese Agenten in eine Art Informationsnetzwerk einzubinden.
Ich habe Literatur über soziales Lernen gelesen, bin mir aber nicht ganz sicher, ob die Rahmenbedingungen, die ich betrachte, genau das sind, was ich will. Viele von ihnen scheinen bayesianisches Lernen über einen verborgenen Zustand der Natur zu sein, für den jeder ein privates Signal hat. Ich rezensiere gerade aktiv Literatur, aber hat jemand irgendwelche Gedanken/Vorschläge?
Werfen Sie einen Blick auf POMDPs - teilweise beobachtbare Markov-Entscheidungsprozesse.
Wenn Sie eine Wertfunktion (Einkommen) haben, die für Agenten in verschiedenen Staaten bekannt ist, und Sie versuchen, die optimale Strategie zu identifizieren , hilft Ihnen die Bellman -Gleichung, die das Herzstück von POMDP bildet, diese Strategie zu identifizieren.
Diese Tools sind Teil einer Klasse von Reinforcement- Learning-Algorithmen (tatsächlich werden sie ziemlich oft für die Robotik verwendet). Sie ordnen sich also sehr gut dem von Ihnen identifizierten Rahmen zu (Agenten, eine Belohnungsfunktion und ein Zustands-/Aktionsraum).
Ein weiterer Angriffswinkel wäre die Verwendung genetischer Algorithmen in Ihrem Optimierungsverfahren.
Hier sind zwei rechnerische Ansätze, die funktionieren könnten:
I. Künstliches neuronales Netz
Ein neuronales Netzwerk besteht aus einer miteinander verbundenen Gruppe künstlicher Neuronen und verarbeitet Informationen unter Verwendung eines konnektionistischen Berechnungsansatzes. In den meisten Fällen ist ein KNN ein adaptives System, das seine Struktur basierend auf externen oder internen Informationen ändert, die während der Lernphase durch das Netzwerk fließen. Moderne neuronale Netze sind nichtlineare statistische Datenmodellierungswerkzeuge. Sie werden normalerweise verwendet, um komplexe Beziehungen zwischen Eingaben und Ausgaben zu modellieren oder Muster in Daten zu finden. Der vielleicht größte Vorteil von KNNs ist ihre Fähigkeit, als Mechanismus zur Approximation beliebiger Funktionen verwendet zu werden, der aus beobachteten Daten „lernt“. Ihre Anwendung ist jedoch nicht so einfach und ein relativ gutes Verständnis der zugrunde liegenden Theorie ist unerlässlich.
Eine Reihe verwandter überwachter Lernmethoden, die Daten analysieren und Muster erkennen, die für die Klassifizierung und Regressionsanalyse verwendet werden. Die Standard-SVM nimmt einen Satz von Eingabedaten und sagt für jede gegebene Eingabe voraus, zu welcher von zwei möglichen Klassen die Eingabe gehört, was die SVM zu einem nicht probabilistischen binären linearen Klassifikator macht. Da eine SVM ein Klassifikator ist, erstellt ein SVM-Trainingsalgorithmus bei gegebener Menge von Trainingsbeispielen, die jeweils als zu einer von zwei Kategorien gehörend markiert sind, ein Modell, das vorhersagt, ob ein neues Beispiel in die eine oder die andere Kategorie fällt. Intuitiv ist ein SVM-Modell eine Darstellung der Beispiele als Punkte im Raum, die so abgebildet sind, dass die Beispiele der einzelnen Kategorien durch eine möglichst breite Lücke getrennt sind.
Neuronale Netze wurden verwendet, um äußerst wettbewerbsfähige Computerplayer für das Open-Source-FreeCiv zu erstellen . Dort werden Neuronale Netze mit Monte-Carlo-Methoden verwendet, die ich auch bei der Simulation wirtschaftlicher Interaktionen in Spielen verwendet habe.
Sie sind sich nicht sicher, ob dies genau das ist, wonach Sie suchen, aber es könnte ein Anfang sein?
Viele Schlüsselalgorithmen sind auf der ACE Research Area: Learning and the Embodied Mind Website zusammengefasst.
ACE = Agentenbasierte Computational Economics
Dieses Papier von Glazer und Rubinstein verwendet, obwohl es für Ihre Forschung nicht unbedingt relevant ist, ein bestimmtes algorithmisches Modell des Agentenverhaltens und analysiert seine Auswirkungen auf die Implementierbarkeit verschiedener Mechanismen. Der Algorithmus selbst könnte für Sie von Interesse sein - ich denke, Varianten davon könnten sowohl realistisch als auch in angewandten Modellen einfach zu verwenden sein.
Jason B
Turukawa
Nate