Einführung von A/B-Tests zu Richtlinien

Gibt es Fälle, in denen eine Regierung "Test"-Gesetze verwendet hat, um die Wirkung einer Politik zu bestimmen, bevor sie diese Politik für die gesamte Bevölkerung erließ? Bevor Sie beispielsweise einen Plan im ganzen Land einführen, einer Region etwas Geld geben, die ihn testen möchte, oder einen A/B-Test mit zwei Regionen durchführen? Was waren die Begründungen für diese Art von Tests?

Wie schlagen Sie vor, andere Bedingungen in zwei Regionen anzugleichen, um ordnungsgemäße A/B-Tests durchzuführen?
"Macht es Sinn" ist eine meinungsbasierte Frage. Abhängig vom Gesetz, den Regionen, in denen Sie es testen möchten, und Ihrer persönlichen Schwelle für "Sinnhaftigkeit", können Sie zu ganz unterschiedlichen Schlussfolgerungen kommen, ob es "sinnvoll" ist oder nicht. Sie könnten stattdessen fragen, ob dies in Ihrem bevorzugten Wahlkreis verfassungskonform ist oder ob es solche Experimente in Ihrem bevorzugten politischen Interessengebiet gibt. So gab es zum Beispiel durchaus regionale Experimente, um zu testen, was passiert, wenn alle Grundeinkommen beziehen oder wenn jeder eine Schusswaffe in seinem Haushalt besitzen muss.
@Philipp "macht Sinn" ist sicher nicht der richtige Wortlaut, da ich mich auf die Erhöhung des Index für menschliche Entwicklung beziehe
@J.Doe Je nachdem, wie "Gesetz" interpretiert werden soll, ist es fraglich, ob dies bereits geschieht. Über mehrere Gerichtsbarkeiten hinweg werden Vorschriften und Verfahren häufig in kleineren geografischen Regionen erprobt, bevor sie landesweit eingeführt werden. Primärrecht ist natürlich etwas anderes.
@origimbo cool, das wusste ich nicht; Gibt es neuere Beispiele?
Es ist nicht genau geografisch, aber Finnland hatte eine randomisierte Studie zum universellen Grundeinkommen als Wohlfahrtssystem. Am Ende entschieden sie sich, es nicht zu adoptieren. theguardian.com/world/2018/apr/23/…
@origimbo ja: und gibt es geografische beispiele?
Ja. Tatsächlich habe ich einige UBI gefunden. wired.co.uk/article/…
@origimbo es gab noch eins in einer Stadt in Cailfornia, es erschien vor ein paar Wochen in der Presse. Und es gibt Testprojekte, die von einigen Gesetzen ausgenommen werden (zB gab es einen Test zur Behandlung von Drogenabhängigen mit Heroin statt Methadon).
Ich habe oft gehört, dass die USA als das Labor der Demokratie bezeichnet werden. Die föderale Natur der USA bedeutet, dass jeder Staat ein Gesetz verabschieden kann und nur eine Untergruppe der Bevölkerung betrifft, und dann können die anderen Staaten oder Feds die Ergebnisse sehen und sie erlassen. eine fehlerhafte Implementierung berücksichtigen oder sogar direkt ablehnen. Obamas Gesundheitsgesetz basierte größtenteils auf dem Gesetz von Massachusetts, und der vorgeschlagene Federal Dream Act basierte auf dem vollständig umgesetzten Dream Act von Maryland.

Antworten (3)

Diese werden als Richtlinienpiloten bezeichnet. Die britische Regierung hat um 2003 (ziemlich veraltet) eine Umfrage über sie durchgeführt, die die USA und Großbritannien abdeckt, aber die meisten sind ziemlich obskur, z

Employment Retention and Advancement (ERA) Scheme: Ziel: Ein Test der Wirksamkeit neuer Dienstleistungen zur Verbesserung der Arbeitsplatzerhaltung und der Aufstiegsaussichten für Geringverdiener

oder

Drug Treatment and Testing Orders (DTTOs) – [schottische Exekutive] Ziel: Pilotprojekt zur Information über Entscheidungen darüber, ob DTTOs in Schottland eingeführt werden sollen, und um Nachweise über die logistischen, finanziellen und kriminalitätsmindernden Auswirkungen der Politik zu liefern.

Das stellt auch die Umfrage fest

Greenberg und Shroders Digest of Social Experiments (1997) beschreiben über 140 Versuche der US-Politik der einen oder anderen Art. [...] Einige dieser Studien wurden entwickelt, um die Wirkung, einige den Prozess und einige beides zu messen, aber sie alle zielten darauf ab, eine bestimmte Option (oder eine Reihe von Optionen) so genau wie möglich mit dem Kontrafaktischen zu vergleichen.

Wie in den Kommentaren angemerkt wurde, ist die aus Finnland zum Grundeinkommen eine bekanntere .

Auch die UK-Umfrage stellt diesen interessanten Unterschied zwischen den USA und UK fest

Aus welchen Gründen auch immer, die meisten politischen Studien, die routinemäßig randomisierte Studien mit Personen in den USA verwenden würden, werden in Großbritannien tendenziell nach etwas weniger strengen Methoden durchgeführt. Dies ist zum Teil eine Funktion unterschiedlicher politischer Systeme. Viele Richtlinien in den USA werden vor einer nationalen Einführung und ohne Verpflichtung zu einer nationalen Einführung innerhalb eines Bundesstaates implementiert und evaluiert. Unabhängig davon, ob sie durch Bundesmittel unterstützt werden oder nicht, sind dies echte Pilotprojekte, die aufgegeben werden, wenn sie sich als unwirksam erweisen. Großbritanniens stärker zentralisierte Struktur macht diese Art von Experimenten und Innovationen schwieriger. Wie bereits erwähnt, basieren viele weitere Richtlinien hier auf Manifestverpflichtungen oder anderen gut verstärkten vorherigen Ankündigungen, was bedeutet, dass es ein stärkeres Engagement der Partei für ihren Erfolg gibt.

Grundsätzlich scheint mehr Dezentralisierung für die Durchführung solcher Politikpiloten förderlicher zu sein ... nur weil eine Region selbst entscheiden kann (da sie kann), eine Änderung umzusetzen und somit effektiv als Pilot für den Rest des Landes fungiert; aber solche Piloten sind in Bezug auf Alternativen, Störfaktoren usw. nicht allzu gut kontrolliert. Wahrscheinlich ist "natürliches Experiment" ein besserer Begriff für regional basierte Piloten, aber das ist nur meine Meinung.

Quasi-Experiment könnte ein nützlicher Begriff für regional basierte Piloten sein. Ein natürliches Experiment ist etwas anderes: Es ist im Wesentlichen eine Beobachtungsstudie, bei der Forscher eine skurrile Variable entdecken, die Probanden nachträglich einer Behandlung zuordnet, ohne dass sie es unbedingt merken.

In den Vereinigten Staaten gibt es die Vorstellung, dass Staaten „Testumgebungen“ für neue Richtlinien sind. In diesem Sinne testet jeder Staat Richtlinien, bevor die Bundesregierung sie für die gesamte nationale Bevölkerung erlässt (oder nicht erlässt).

Dies wird üblicherweise in Einführungskursen in die amerikanische Regierung in Diskussionen über Föderalismus gelehrt, aber es wurde 1932 von Richter Brandeis am Obersten Gerichtshof formell artikuliert .

Beispielsweise variieren die Gesetze zum Marihuana-Gebrauch zwischen den Bundesstaaten: Geben Sie hier die Bildbeschreibung ein[Quelle – Governing Magazine]

In gewissem Sinne erproben die Bundesstaaten verschiedene Strategien, die später auf Bundesebene angenommen werden können.

Es ist interessant zu sehen, wie die A/B-Test-Terminologie an vielen Stellen auftaucht, von der Politik bis zum Kochen, wo sie tatsächlich genau so ist, wie die Web-/Software-Entwicklungsgemeinschaft gute alte wissenschaftliche Experimente nennt. Die grundlegende Methode existiert mindestens seit dem 16. Jahrhundert und wurde im letzten Jahrhundert stark verfeinert und routinemäßig in angewandten Umgebungen eingesetzt, beispielsweise in der Agrarwissenschaft, Medizin oder Psychotherapie. Andere Bereiche haben nicht auf webbasierte A/B-Tests gewartet, um Interventionen empirisch zu evaluieren, ob Sie das „klinische Studien“, „Experimente“ oder etwas anderes nennen. Es macht also Sinn und wird seit Jahrzehnten praktiziert: Viele Länder führen regelmäßig Richtlinien in einem begrenzten „Pilot“ oder „Test“ ein, oft in einem Bundesstaat, einer Provinz, einer Stadt, einem Büro, einer Straße, einem Bahnhof usw.

In Politik und Wirtschaft besteht eine Schwierigkeit darin, dass es praktisch unmöglich ist, einen rein experimentellen Ansatz zu verfolgen, bei dem einer großen Anzahl von Testeinheiten zufällig eine Behandlung zugewiesen wird. Sie können höchstens eine vorläufige Politik für ein Land oder ein paar Regionen einführen und mit anderen Ländern vergleichen, aber das ist nur ein Datum, und es ist schwierig, die Wirkung Ihrer Intervention (der Politikänderung) aus unzähligen anderen Faktoren (a verwandte Idee ist die eines „ Quasi-Experimentes “). Sie können dies auch nicht auf individueller Ebene richtig analysieren (wie Sie es bei Besuchen auf einer Website tun würden), da die Bewohner eines bestimmten Gebiets viele Gemeinsamkeiten haben, die die Ergebnisse verfälschen könnten.

Ein weiteres heikles Thema ist die Definition und Messung des Ergebnisses. Der Human Development Index ist ein zusammengesetzter Index, der versucht, mehrere, vermutlich unabhängige Variablen zusammenzufassen (obwohl dieser spezielle Punkt in diesem speziellen Fall umstritten ist). Daher ist die Gewichtung, die Sie diesen Variablen oder Faktoren beimessen, offen für Diskussionen. Ein komplexes Konzept wie Entwicklung in eine messbare Größe zu übersetzen („operationalisieren“) ist weder praktisch noch theoretisch trivial. Und sobald ein Maß als etwas Erstrebenswertes erkannt oder zur Bewertung der Leistung verwendet wird, werden Menschen ihr Verhalten tendenziell ändern, um das Maß selbst ins Visier zu nehmen oder das System auszutricksen (dies ist unter anderem als Goodharts Gesetz oder Campbells Gesetz bekannt).

Auch die Einführung einer Police ist mit erheblichen Kosten verbunden. Sie können nicht einfach jede Intervention ausprobieren, die Ihnen in den Sinn kommt, und schnell Ergebnisse erzielen, indem Sie einige Stunden lang eine neue Version auf einem Server bereitstellen, ohne dass es jemand merkt. Sie müssen die Richtlinie konkretisieren, eine Rechtsgrundlage für den Prozess schaffen, Unterstützung von verschiedenen Interessengruppen erhalten, Beamte schulen usw. Um all dies zu rechtfertigen, benötigen Sie auch starke Argumente dafür, dass die Richtlinie funktionieren könnte, und zwar nach so viel Investition in die Studie ist es schwierig, eine unvoreingenommene Bewertung zu erhalten. Bis der Prozess abgeschlossen ist, wird es viele Menschen geben, die ein emotionales, politisches oder finanzielles Interesse an seinem Erfolg haben.

Aufgrund dieser technischen Schwierigkeiten ist die Bewertung des Effekts immer behaftet und erfordert viel Modellierung, und Sie können kaum hoffen, politische Meinungsverschiedenheiten auf diese Weise zu „lösen“.