Finden von sich überschneidenden Teilmengen für einen gegebenen Binomialkoeffizienten

Ich entschuldige mich, wenn diese Frage für mathisfun.com besser geeignet ist, aber ich kann nur so weit über Kombinatrie und Mengenlehre lesen, bevor die ineinandergreifende Logik völlig verschwommen wird. Wenn dies ein völlig grundlegendes Konzept ist, können Sie es einfach benennen, damit ich die Mathematik selbst lesen und verstehen kann.

Das Ziel ist also, die Wiederholung von Fragen in einem Quiz zu minimieren, um die Erstellung eines Hauptschlüssels zu vermeiden (oder wirklich zu verlangsamen). Dies ist für einen Kunden und ich habe erklärt, dass die Anzahl der Fragen im Master-Pool riesig sein müsste, um dies wirklich realistisch zu machen, aber ich möchte ihnen die Mathematik hinter ihrer Idee zeigen.

Also schlugen sie vor, einen Pool mit 20 Fragen zu haben, wobei eine gegebene Menge eine 5-köpfige Teilmenge ist. Ich fand heraus, dass die Gesamtzahl der einzigartigen Quizes ( 20 5 ) wäre 20 ! 5 ! ( 20 5 ) ! oder 15504 einzigartige Quizes. Aber ich weiß, dass die meisten dieser Quizes nahezu identisch sein werden und dass es nicht so lange dauern wird, bis Betrüger alle 20 Fragen sehen, um den Schlüssel zu machen. Um mir das selbst zu beweisen (ohne die Mathematik zu kennen), habe ich die Gesamtkombinationen zu vereinfacht ( 4 3 ) , so:

{a,b,c,d} = {{a,b,c}; {a,b,d}; {b,c,d}; {a,c,d} }

Und ich sehe, dass man nur 2 Quizes sehen muss, um alle 4 Mitglieder des Master-Sets zu sehen. Da ich also weiß, dass die Anzahl der Kombinationen (Binominalkoeffizient!) Nicht der Anzahl der einzigartigen Erscheinungen des Master-Sets entspricht, würde ich gerne die tatsächliche Mathematik kennen, die damit verbunden ist, um dem Kunden zu zeigen, dass er zwar eine Menge Quizes hat, es aber nimmt nur X alle Mitglieder kennen.

Danke wie immer.

Nachtrag

Ein bisschen mehr Forschung hat mich zu dem NP-vollständigen Problem geführt, das als Exact Cover bekannt ist, das (wenn ich es richtig lese) eine präzise Menge von Teilmengen wäre, die eine Vereinigung haben, die der ursprünglichen Master-Menge entspricht. Ich möchte nur klarstellen, dass diese Einschränkung der perfekten Überlappung für meine Frage nicht erforderlich ist, sondern nur die minimale Anzahl von Teilmengen, die zu einer Vereinigung führen würde, die unabhängig von der Wiederholung alle Master-Set-Mitglieder enthält, um zu zeigen, wie viele Teilmengen es gibt benötigt, um die ursprüngliche Menge zu kennen (unter der Annahme, dass der Suchende der Master-Menge die Gesamtzahl der Mitglieder kennt). Ich zwickte mein Mikroexperiment aus ( 4 3 ) Zu ( 4 2 ) was dazu führt, dass 6 Kombinationen und die Ableitung der Master-Menge mit einer bestimmten Anzahl beliebiger Teilmengen nicht mehr möglich sind. Stattdessen bekomme ich:

{a, b, c, d} = { {ab} ; {ac} ; {Anzeige} ; {bc} ; {bd} ; {CD} }

die den Master-Satz mit den ersten drei ( A ) Gruppen oder die genaue Abdeckung von A , B ; C , D . Dies lässt mich denken, dass die minimalen Teilmengen, die zum Ableiten der ursprünglichen Menge benötigt werden, gleich der Anzahl der Teilmengen sind, in denen ein bestimmtes Mitglied vorkommt (also in diesem Fall 3 A s, aber das stimmt nicht mit dem überein ( 4 3 ) , wo es mit 2 Teilmengen zu finden ist. Die nächste offensichtliche Lösung (für mich) ist, dass die Mindestanzahl, die zum Ableiten des Master-Sets (blind) benötigt wird, die Hälfte der Gesamtzahl der Teilmengen ist, aber ich möchte wirklich einen Link zu einem Beweis oder einer einfachen englischen Demonstration, wie Ein Pool von 20 Fragen würde 7752 Teilmengen erfordern, um mit Sicherheit zu wissen, dass alle 20 Mitglieder mindestens einmal aufgetreten sind.

Noch einmal Danke.

Frage als Wahrscheinlichkeit:

Ich habe eine Tüte mit Scrabble-Steinen und ich weiß Folgendes:

  1. Die Tüte enthält 20 Fliesen,
  2. Jede Kachel ist einzigartig (keine zwei Kacheln haben den gleichen Charakter),
  3. Die Kacheln stammen aus einem viel größeren (und ansonsten irrelevanten) Satz eines Erweiterungssatzes, der Zahlen und nicht-lateinische Buchstaben enthält, wodurch jeder Vorteil zunichte gemacht wird, zu wissen, dass dieser Satz von 20 aus einem größeren, aber begrenzten Satz stammt (mit anderen Worten , die Zeichen sind nur informativ füreinander und ich kann alles Klingonisch oder eine Mischung aus Chinesisch und Tamil bekommen. Ich sollte nichts über das Set vermuten, außer was in der Tasche ist).

Folgende Schritte darf ich in der angegebenen Reihenfolge beliebig oft durchführen:

  1. Ziehe 5 Kacheln heraus,
  2. Schreiben Sie die gezeichneten Zeichen auf,
  3. Legen Sie die Kacheln zurück in den Beutel.
  4. Aufschäumen, ausspülen, wiederholen.

Außerdem: Ich habe magische Finger, die mich daran hindern, den gleichen 5er-Satz zweimal zu ziehen, wodurch die Anzahl der Ziehungen von unendlich auf 15504 mögliche Ziehungen reduziert wird.

Mein Ziel ist es, irgendwann alle 20 Zeichen aufgeschrieben zu haben und dann mit dem Zeichnen aufzuhören.

Ich weiß, dass die Gesamtzahl der einzigartigen Kombinationen, die ich ziehen könnte, ist ( 20 5 ) das ist 15504. Ich weiß auch, dass die erforderlichen Mindestziehungen gleich sind 20 / 5 , was sehr viel Glück wäre. Was mich interessiert, ist die maximale Anzahl von Ziehungen, die erforderlich sind, um alle 20 Zeichen aufzudecken.

Ich denke, dass dies nicht die richtige Frage für das eigentliche Problem aus dem wirklichen Leben ist: Die Vermeidung von Wiederholungen für eine bestimmte Person hilft den Menschen tatsächlich, schnell eine vollständige Fragenliste zu erstellen.

Antworten (2)

Mit insgesamt 20 Fragen; und 5 pro Quiz und dem einzigen Ziel, so spät wie möglich zu wiederholen (so wie ich Ihre Frage verstehe), sollten Sie beim fünften Quiz mit der Wiederholung beginnen. Wenn Sie sie willkürlich nummerieren, haben Sie 1 5 im Quiz 1 , Und 16 20 im Quiz 4 (wenn Ihr einziges Ziel darin besteht, die Zeit bis zur Wiederholung zu minimieren/zu verlängern). Durch das gleiche Ziel, Quiz 5 wird wiederholen 1 5 usw. Dies ist wahrscheinlich nicht das, was Sie implementieren würden, da Sie die genauen Fragen für ein bevorstehendes Quiz (nach einer Weile) genau vorhersagen könnten. aber - wie ich deine Frage verstehe - was du tun würdest. Es ist nicht wirklich eine Binomialkoeffizientenfrage (ich habe Ihre Trennung des Pools nicht verstanden, die dazu führt ( 4 3 ) ). Um etwas anderes sinnvoll zu verwenden, müssen Sie weitere Bedingungen aufstellen.

Ich sehe, dass Sie sagen (glaube ich) - dass das Subjekt das Master-Set mit mindestens 4 Teilmengen ableiten könnte, wenn es die 4 sich nicht überschneidenden Teilmengen zeichnet, was in meinem Problem unglaublich glücklich wäre. Das wäre das wahre Minimum, das benötigt wird, genauso wie das Vorhandensein aller 15504 das wahre Maximum wäre, da das Vorhandensein aller Teilmengen jeden Zweifel beseitigen würde. Ich hoffe, dass es eine Formel gibt, um die minimale Anzahl von Teilmengen zu bestimmen, die der Täter blind erhalten muss, um sicherzustellen, dass alle Mitglieder der Hauptmenge vorhanden sind, wobei er nur die Poolgröße und die Stichprobengröße kennt.
Ich verstehe. Sie ziehen also jedes Mal 5 Tests nach dem Zufallsprinzip? Dann können Sie nur Wahrscheinlichkeiten berechnen (angenommen, 5 pro Ziehung, gleiche Wahrscheinlichkeit, bei jeder Ziehung eine zu ziehen); und Sie können niemals garantieren, dass alle gezogen wurden (es wird nur immer unwahrscheinlicher). Ist die Einstellung?
Ist das das Setup, wollte ich sagen.
...aber ich habe auch zunehmend das Gefühl, dass Sie eine interessante Frage stellen, die ich einfach nicht verstehe. :)
@Anthony: Die "Mindestanzahl von Untergruppen, die der Täter blind erhalten muss, um sicherzustellen, dass alle Mitglieder der Hauptgruppe anwesend sind" ist N / k , Wo N ist die Poolgröße und k ist die Stichprobengröße. Vielleicht suchen Sie tatsächlich nach der erwarteten Anzahl von Tests, die erforderlich sind, um den gesamten Pool gesehen zu haben. Das würde es zu einer Wahrscheinlichkeitsfrage machen, also wenn Sie das wollen, sollten Sie es als solche markieren.
@gnometorule - Ich hoffe, es ist interessant, wie das Fehlen einer einfachen Antwort über Google vermuten lässt. Ich hoffe zumindest, dass es nicht NP ist. Der Aufbau sieht so aus, dass ein Testteilnehmer einen Test mit 5 Fragen erhält und diese 5 Fragen aus einem 20-Fragen-Pool stammen. Das Ziel des Testteilnehmers ist es, den Test so oft zu machen, dass er alle 20 Fragen kennt (wobei davon ausgegangen wird, dass der Betrüger die Poolgröße bereits kennt). Wenn die Anzahl die Gesamtzahl der Testteilnehmer übersteigt, können wir vernünftigerweise davon ausgehen, dass alle Testteilnehmer mindestens eine Frage haben, die nicht auf einem zusammengestellten Spickzettel steht.
@Snowball - Vielleicht meine ich "maximale Anzahl von Teilmengen, die erforderlich sind, um sicherzustellen, dass alle Mitglieder vorhanden sind, aber auch die schnellere kurzfristige Lösung zu vermeiden, einfach alle Teilmengen zu stehlen." Ich bin mir nicht sicher, wie ich die Idee des "maximalen Minimums" ausdrücken soll, um anzuzeigen, dass ich es auf die Zahl reduzieren möchte, die eine vollständige Vereinigung gewährleistet, ohne den Inhalt der Teilmengen zum Zeitpunkt ihres Abrufs zu sehen.
So wie ich das gelesen habe, geht das immer noch nicht. Hier ist eine Analogie: Angenommen, Sie werfen wiederholt eine Münze. Ich würde Ihre Frage auf diesen Fall übersetzen "Wann werde ich H und T sicher gesehen haben?" Aber die Wahrscheinlichkeit, H niemals zu sehen, ist nicht Null: Obwohl es unglaublich unwahrscheinlich ist, könnten Sie weiterhin T werfen (asymptotisch geht diese Wahrscheinlichkeit gegen Null; aber ist keine Zahl.
Eine mögliche probabilistische Frage wäre: „Was ist die Wahrscheinlichkeit P N alle Charaktere Schritt für Schritt gesehen zu haben N ? Gibt es eine Formel in geschlossener Form, die schöner ist, als nur alle Fälle zu summieren?" Wenn Sie dies interessieren, posten Sie vielleicht die letzte Version Ihrer Frage als neue Frage erneut, da sie ausreichend anders ist, aber wahrscheinlich nur von mir bemerkt wurde.
Um auf Ihre ursprüngliche Frage zurückzukommen, ich denke, was Sie gefragt haben, ist Folgendes: Beschreiben Sie Ihr Setup. Ziel ist es, "das Ableiten Ihres Master-Sets schwierig zu machen". Gibt es eine Möglichkeit, dieses Problem in einen informationstheoretischen Rahmen zu fassen? Wie? Wie vergleicht man in einem solchen Rahmen die „Sicherheit“ verschiedener Vergleiche (z. B. 40/10 vs. 20/5 usw.)? Gibt es nur die probabilistische Berechnung von Wahrscheinlichkeiten? Fühlen Sie sich frei, geringfügige Änderungen an der Grundeinstellung vorzunehmen,
Settle = Setups (Tippfehler). Also, wenn ich dich richtig verstanden habe (du wunderst dich über den Aufbau der letzten Frage), könntest du diese auch posten (ich bin mir bei den Statuten hier nicht sicher, aber es scheint mir ausreichend anders zu sein, um einen neuen Post zu rechtfertigen).
@gnometorule - aktualisiert, um die Unendlichkeit zu entfernen.
Ich denke, Sie sehen sich etwas an, das keine Million Meilen vom "Problem des Coupon-Sammlers" entfernt ist, und Sie werden viel Literatur finden, wenn Sie nach diesem Schlüsselwort suchen.

Sie scheinen nach der maximalen Anzahl unterschiedlicher Kombinationen von zu fragen 5 Elemente ausgewählt unter 20 so dass die Vereinigung all dieser Kombinationen nicht alle ausfüllt 20 Element. (Wählen Sie dann eine weitere eindeutige aus 5 -Kombination eins deckt sicher alle ab 20 Elemente.)

Es scheint die beste Strategie zu sein, nicht alles abzudecken 20 Elementen besteht darin, (heimlich) eines der Elemente auszuwählen 20 die Sie niemals auswählen werden, bis Sie durch die Anforderung gezwungen werden, niemals eine vorherige Auswahl zu reproduzieren. Dies lässt Sie 19 Elemente, von denen Sie alle präsentieren können ( 19 5 ) = 11628 Kombinationen in zufälliger Reihenfolge. Danach ist Ihre 11629-te Kombination gezwungen, das letzte Element zu verwenden, das Sie so sehr geheim halten wollten.