Was sind die Schlüsselalgorithmen zum Erlernen des optimalen Verhaltens von Wirtschaftsakteuren?

Ich spiele mit dem sozialen Lernen von nahezu optimalen Verhaltensregeln für eine Reihe von Agenten herum. Die Idee ist ungefähr, dass für einen Einkommensprozess (oder Technologieprozess, je nach Fragestellung) eine optimale nichtlineare, intertemporale Policy-Regel existiert. Angenommen, diese Regel kann durch eine lineare Funktion gut angenähert werden. Agenten möchten diese Richtlinienregel lernen, und ein erster Schritt besteht darin, sie die Regel einfach durch Experimentieren lernen zu lassen. "In Autarkie", dh ohne jeglichen Informationsaustausch mit anderen Agenten, würde ein Agent eine Regel für einige Zeit ausprobieren, eine Metrik verwenden, um festzustellen, wie gut sie im Vergleich zu anderen Regeln, die er/sie ausprobiert hat, abschneidet, und vielleicht neu bewerten, vielleicht ganz versuchen andere Regel durch Experimentieren. Dieser Agent beobachtet nur seine eigene Geschichte.

Ein zweiter Durchgang besteht darin, dem Agenten Zugriff auf die Historien aller anderen Agenten zu gewähren. Vermutlich würde dies das Lernen beschleunigen. Ein dritter Schritt könnte darin bestehen, diese Agenten in eine Art Informationsnetzwerk einzubinden.

Ich habe Literatur über soziales Lernen gelesen, bin mir aber nicht ganz sicher, ob die Rahmenbedingungen, die ich betrachte, genau das sind, was ich will. Viele von ihnen scheinen bayesianisches Lernen über einen verborgenen Zustand der Natur zu sein, für den jeder ein privates Signal hat. Ich rezensiere gerade aktiv Literatur, aber hat jemand irgendwelche Gedanken/Vorschläge?

Sie könnten in die KI-Literatur schauen.
Stimmen Sie der KI zu. Dazu kommen Bayes'sche Netze und genetische Algorithmen.
Irgendwelche besonderen Referenzen?

Antworten (4)

Werfen Sie einen Blick auf POMDPs - teilweise beobachtbare Markov-Entscheidungsprozesse.

Wenn Sie eine Wertfunktion (Einkommen) haben, die für Agenten in verschiedenen Staaten bekannt ist, und Sie versuchen, die optimale Strategie zu identifizieren , hilft Ihnen die Bellman -Gleichung, die das Herzstück von POMDP bildet, diese Strategie zu identifizieren.

Diese Tools sind Teil einer Klasse von Reinforcement- Learning-Algorithmen (tatsächlich werden sie ziemlich oft für die Robotik verwendet). Sie ordnen sich also sehr gut dem von Ihnen identifizierten Rahmen zu (Agenten, eine Belohnungsfunktion und ein Zustands-/Aktionsraum).

Ein weiterer Angriffswinkel wäre die Verwendung genetischer Algorithmen in Ihrem Optimierungsverfahren.

+1 Reinforcement-Learning-Algorithmen sind wirklich etwas, das das OP berücksichtigen sollte. Schlüsselwörter zum Auffinden von Referenzen: Q-Learning, Kearns-Algorithmus, Planungsproblem, Approximation für Markov-Entscheidungsprozesse. Zum Beispiel können Sie sich zunächst die Papiere von G. Tesauro ansehen.
Danke, ich werde das weiter untersuchen. Nachdem ich eine Weile die Literatur gelesen habe (es gibt viele nette Dinge im Handbook of Computational Economics, Vol. 2, die ich beim ersten Lesen vor langer Zeit übersehen habe), denke ich, dass ich mich für eine entschieden habe Ansatz. Danke an alle!

Hier sind zwei rechnerische Ansätze, die funktionieren könnten:

I. Künstliches neuronales Netz

Ein neuronales Netzwerk besteht aus einer miteinander verbundenen Gruppe künstlicher Neuronen und verarbeitet Informationen unter Verwendung eines konnektionistischen Berechnungsansatzes. In den meisten Fällen ist ein KNN ein adaptives System, das seine Struktur basierend auf externen oder internen Informationen ändert, die während der Lernphase durch das Netzwerk fließen. Moderne neuronale Netze sind nichtlineare statistische Datenmodellierungswerkzeuge. Sie werden normalerweise verwendet, um komplexe Beziehungen zwischen Eingaben und Ausgaben zu modellieren oder Muster in Daten zu finden. Der vielleicht größte Vorteil von KNNs ist ihre Fähigkeit, als Mechanismus zur Approximation beliebiger Funktionen verwendet zu werden, der aus beobachteten Daten „lernt“. Ihre Anwendung ist jedoch nicht so einfach und ein relativ gutes Verständnis der zugrunde liegenden Theorie ist unerlässlich.

  • Wahl des Modells: Dies hängt von der Datendarstellung und der Anwendung ab. Zu komplexe Modelle führen tendenziell zu Problemen beim Lernen.
  • Lernalgorithmus: Es gibt zahlreiche Kompromisse zwischen Lernalgorithmen. Nahezu jeder Algorithmus funktioniert gut mit den richtigen Hyperparametern für das Training auf einem bestimmten festen Datensatz. Die Auswahl und Abstimmung eines Algorithmus für das Training mit unsichtbaren Daten erfordert jedoch eine erhebliche Menge an Experimenten.
  • Robustheit: Wenn Modell, Kostenfunktion und Lernalgorithmus geeignet gewählt werden, kann das resultierende KNN äußerst robust sein.

II. Support-Vektor-Maschine

Eine Reihe verwandter überwachter Lernmethoden, die Daten analysieren und Muster erkennen, die für die Klassifizierung und Regressionsanalyse verwendet werden. Die Standard-SVM nimmt einen Satz von Eingabedaten und sagt für jede gegebene Eingabe voraus, zu welcher von zwei möglichen Klassen die Eingabe gehört, was die SVM zu einem nicht probabilistischen binären linearen Klassifikator macht. Da eine SVM ein Klassifikator ist, erstellt ein SVM-Trainingsalgorithmus bei gegebener Menge von Trainingsbeispielen, die jeweils als zu einer von zwei Kategorien gehörend markiert sind, ein Modell, das vorhersagt, ob ein neues Beispiel in die eine oder die andere Kategorie fällt. Intuitiv ist ein SVM-Modell eine Darstellung der Beispiele als Punkte im Raum, die so abgebildet sind, dass die Beispiele der einzelnen Kategorien durch eine möglichst breite Lücke getrennt sind.

Neuronale Netze wurden verwendet, um äußerst wettbewerbsfähige Computerplayer für das Open-Source-FreeCiv zu erstellen . Dort werden Neuronale Netze mit Monte-Carlo-Methoden verwendet, die ich auch bei der Simulation wirtschaftlicher Interaktionen in Spielen verwendet habe.

Sie sind sich nicht sicher, ob dies genau das ist, wonach Sie suchen, aber es könnte ein Anfang sein?

Danke für deine Antwort. Das ist nicht genau das, wonach ich suche – im Moment suche ich eher nach Beispielen für einfachere Lernmechanismen, idealerweise in einigen veröffentlichten Wirtschaftsartikeln. Ich schätze die Hinweise jedoch; Vielen Dank!
@Nathan - meinst du tatsächliche Arbeitsalgorithmen mit Papieren, die Beweise zeigen, oder nur allgemeine Wirtschaftswissenschaften, die diese Art von Modellen verwenden?
Am Ende des Tages suche ich nach Papieren, die Mechanismen verwendeten, die ich verwenden könnte; idealerweise Papiere, die ich in einer Literaturübersicht zitieren könnte.
Ich wollte es nur noch einmal sagen – danke für die obigen Hinweise! Der Artikel über FreeCiv ist besonders interessant – vor allem, weil ich eine harte Zeit hatte, die neueste Version davon zu schlagen :) Nochmals vielen Dank für die Zeit und Mühe, die Sie in Ihre Antwort gesteckt haben! Ich denke, ich werde diese ein bisschen verwenden.

Viele Schlüsselalgorithmen sind auf der ACE Research Area: Learning and the Embodied Mind Website zusammengefasst.

ACE = Agentenbasierte Computational Economics

Die Website von Leigh Tesfatsion sollte jeder von Zeit zu Zeit durchsehen – eine absolut fantastische Ressource. Ich habe dort selbst ein wenig Zeit verbracht, als ich mich damit befasste.
Ja, es ist eine großartige Website für Verhaltensökonomie und das Verständnis von agentenbasierter Motivation. @Sylvain Peyronnet, es gibt sehr viel Material auf dieser Website, gibt es bestimmte Einträge, die Sie in Ihrer Antwort erwähnen könnten, und warum?

Dieses Papier von Glazer und Rubinstein verwendet, obwohl es für Ihre Forschung nicht unbedingt relevant ist, ein bestimmtes algorithmisches Modell des Agentenverhaltens und analysiert seine Auswirkungen auf die Implementierbarkeit verschiedener Mechanismen. Der Algorithmus selbst könnte für Sie von Interesse sein - ich denke, Varianten davon könnten sowohl realistisch als auch in angewandten Modellen einfach zu verwenden sein.