In een menigte hebben we doorgaans alleen met degenen in onze buurt interactie, wat beperkingen oplegt aan onze mogelijkheden om te handelen en beslissingen te nemen. In de meeste andere groepssituaties kunnen we veel vrijer met alle groepsleden communiceren en gezamenlijk beslissingen nemen. Hoe kunnen we die betere communicatie benutten om tot de best mogelijke groepsbesluiten te komen?
Er zijn twee basisopties: bij meerderheid van stemmen of door tot een soort gemiddelde mening te komen. James Surowiecki komt in zijn boek The Wisdom of Crowds met een overvloed aan voorbeelden van de tweede optie. Recent onderzoek laat zien wat de noodzakelijke voorwaarden zijn voor het succesvol gebruik van deze aanpak en, nog belangrijker, hoe hij werkt. In dit hoofdstuk bekijk ik oude en nieuwe voorbeelden in het licht van deze nieuwe bevindingen en beantwoord ik een fundamentele vraag: wanneer moeten we de meerderheid volgen en wanneer moeten we tot een soort gemiddelde mening zien te komen?
Een van de dingen die ik in mijn jeugd het liefst deed was kamperen in de Australische wildernis, de achtergrond voor een van mijn eerste kennismakingen met de gelijkgewicht-benadering. In het holst van de nacht vroeg mijn vader mij en een groep van acht vriendjes om met behulp van onze kompassen na te gaan waar het oosten lag. We hadden niet meer dan een zwak tentlampje tot onze beschikking en sommige van de kompassen waren wel erg gehavend, met vastzittende naalden en loszittende schaalverdelingen. Het zal je niet verbazen dat onze antwoorden alle kanten op gingen: de spreiding bedroeg zo'n 90 graden. Pa bepaalde het gemiddelde van alle bepalingen en tekende een pijl in het stof die de gemiddelde richting uit wees. Toen het dag werd bleek de pijl vrijwel recht naar de zon te wijzen!
Door onze resultaten te middelen hadden we een schijnbaar wonderlijke nauwkeurigheid weten te bereiken. Later die dag, tijdens een lange wandeling, vroeg mijn vader ons welk dier volgens ons zwaarder was: de wombat of de wallaby (een kleine kangoeroesoort). Zes van ons dachten dat een wombat de zwaarste van de twee was, drie van ons hielden het op de wallaby. Ditmaal had het geen zin een gemiddelde te bepalen (wat is het gemiddelde van een wombat en een wallaby – een wannabe?). De vraag was simpelweg of de meerderheid het goed had of niet. Het bleek dat de meerderheid het bij het rechte eind had.
In beide gevallen waren we met behulp van groepsintelligentie tot een antwoord gekomen. Hoe uiteenlopend onze antwoorden ook waren, we waren erin geslaagd het juiste antwoord te vinden. In het gewone leven is die diversiteit de kern van groepsintelligentie. Het is slechts een kwestie van de beste manier vinden om hem toe te passen, iets wat afhangt van het soort vraagstelling waar we een antwoord op moeten zien te vinden.
Voor problemen waarbij het erom gaat de waarde van iets te bepalen (zoals een kompaskoers of het klassieke geval van het aantal snoepjes in een stolpfles), is de beste aanpak van het vraagstuk het gemiddelde te nemen van alle antwoorden. Wetenschappers duiden deze categorie vraagstukken aan als ‘toestandsschattingsproblemen’. Voor vraagstukken waarbij het gaat om het kiezen van het juiste antwoord uit een klein aantal mogelijke alternatieven, hebben we meer aan het meerderheidsoordeel. Voor zowel het gemiddelde als het meerderheidsoordeel geldt dat, willen we er optimaal gebruik van kunnen maken, er aan slechts drie voorwaarden hoeft te zijn voldaan:
- De leden van de groep moeten bereid en in staat zijn zelfstandig te denken en tot uiteenlopende, onafhankelijke conclusies te komen.
- De vraag moet een duidelijk afgebakend antwoord hebben dat uiteindelijk ook aan de werkelijkheid kan worden getoetst.
- Elk groepslid moet dezelfde vraag beantwoorden. (Dit lijkt een open deur, maar vaak blijkt een vraag door mensen op uiteenlopende wijze te kunnen worden geïnterpreteerd.)
Als aan deze drie voorwaarden is voldaan, voert de complexiteitswiskunde ons tot drie verbazingwekkende conclusies:
- Bij het beantwoorden van een toestandsschattingsvraag zal de groep als geheel het altijd beter doen dan de meeste individuen binnen de groep. Niet soms, maar altijd.
- Als de meeste groepsleden middelmatig goed op de hoogte zijn van de feiten met betrekking tot een vraag waarop verschillende antwoorden mogelijk zijn (maar waarvan er slechts één het juiste is), is het meerderheidsoordeel vrijwel altijd het juiste. Als elk lid van een groep van honderd mensen een kans van 60 procent heeft dat hij of zij het juiste antwoord geeft, bijvoorbeeld, dan bewijst een rigoureuze wiskundige formulering dat de kans dat het antwoord van de meerderheid juist is, boven de 99 procent ligt.
- Zelfs als slechts enkele leden van de groep goed geïnformeerd zijn, is dat doorgaans al voldoende om het meerderheidsoordeel juist te laten zijn.
Hoe kunnen we deze principes toepassen in ons dagelijks leven?
Een gemiddelde bepalen: het principe van de vele missers
Met twee missers begin je weinig, maar met voldoende missers kun je aardig dicht bij het juiste resultaat komen. Hoe verbazingwekkend ook, dit is precies wat er gebeurt als we groepsintelligentie loslaten op toestandsschattingsvraagstukken.
Het is redelijk simpel te begrijpen hoe dit in principe in zijn werk gaat. In het kompaskoersprobleem uit mijn jongensjaren, bijvoorbeeld, waren sommige afwijkingen naar het noorden en andere naar het zuiden en deden ze elkaar grotendeels teniet toen we het gemiddelde namen, zodat ons gemiddelde uiteindelijk behoorlijk dicht bij de feitelijke waarde lag.
Statistiekpionier Francis Galton was de eerste die liet zien dat de nauwkeurigheid van de schatting toeneemt met de grootte van de groep. Een beroemd voorbeeld betreft de kracht van het gebed. Hij betoogde dat, als de kracht van gebed evenredig is aan het aantal mensen dat voor een bepaalde uitkomst bidt, de leden van het Britse koningshuis langer zouden moeten leven dan de rest van de bevolking, aangezien voor hen bij elke kerkdienst werd gebeden. In werkelijkheid bleek uit statistieken dat ze iets minder oud werden dan de gemiddelde Brit.
Galton, een halfneef van Charles Darwin en van gegoede afkomst, was geen democraat, maar had wel grote belangstelling voor het democratisch proces. Hij schreef dat ‘in deze tijden van democratie elk onderzoek naar de betrouwbaarheid en eigenaardigheden van het oordeel van het volk van belang is’. Zodra zich een gelegenheid voordeed om met behulp van statistiek die oordelen te analyseren, greep hij die letterlijk met beide handen aan.
Zo'n gelegenheid deed zich voor toen hij in 1906 een vee- en pluimveetentoonstelling bezocht in de Engelse kustplaats Plymouth, de stad vanwaaruit Francis Drake in 1588 koers zette om de Spaanse armada de beroemd geworden nederlaag toe te brengen. Galton, op dat moment 84 jaar oud maar nog altijd even enthousiast, raakte gefascineerd door een prijsvraag waarin bijna achthonderd mensen, die elk zes penny's deelnamegeld hadden betaald, het gewicht moesten raden van een enorme geslachte en schoongemaakte os.
Galton beschouwde de prijsvraag als een afspiegeling van het democratisch proces omdat ‘de gemiddelde deelnemer waarschijnlijk heel wel in staat was tot een redelijke schatting… net zoals een gemiddelde stemmer in staat is de politieke vraagstukken waarover hij stemt op hun merites te beoordelen’. Hij wilde dolgraag weten hoe de gezamenlijke schatting van de groep zich verhield tot de schattingen van individuele groepsleden. Nadat de prijsvraag was gesloten, wist hij de juryleden over te halen hem de genummerde kaartjes waarop deelnemers hun inzending hadden genoteerd in bruikleen af te staan. Hij keerde opgetogen naar huis terug met een armvol kaartjes die hij had gerangschikt naar het gewicht dat er op ingevuld stond.
Om ze te analyseren, gebruikte hij hetzelfde principe dat hij had omhelsd voor democratisch kiezen: ‘één stem, één waarde’. ‘Volgens het democratisch principe…,’ schreef hij, ‘drukt de middelste schatting de vox populi uit en wordt elke andere schatting door een meerderheid van de stemmers als te laag of te hoog afgewezen.’ De middelste schatting is wat we tegenwoordig de ‘mediaan’ zouden noemen (de helft van de schattingen ligt eronder, de andere helft erboven). De schattingen van het gewicht van de os varieerden van 487,6 kilo tot 587 kilo, en de mediaan was 548 kilo, een afwijking van minder dan 1 procent van het werkelijke gewicht van 544 kilo.*
Galton was verbijsterd door de geringe afstand tussen de collectieve schatting en de werkelijke waarde: ‘Dit resultaat is naar mijn mening sterker toe te schrijven aan de betrouwbaarheid van een democratisch oordeel dan verwacht mocht worden.’ Het zou echter nog honderd jaar duren voordat complexiteitswetenschapper Scott Page met de correcte wiskundige verklaring voor dit fenomeen kwam, een verklaring die gebaseerd is op het gemiddelde, in plaats van op de mediaan.
Page had meer te verklaren dan alleen de resultaten van Galton. De Londense architect Matt Deacon, bijvoorbeeld, nam een glazen stolpfles die 421 penny's bevatte mee naar een architectuurconferentie en vroeg 106 deelnemers het juiste aantal te raden. De schattingen liepen sterk uiteen, maar hun gemiddelde waarde was 419!
Wall Street-investeringsstrateeg Michael Mauboussin heeft gedurende meer dan een decennium bij studenten aan de Columbia Business School het vermogen getest om het aantal snoepjes in een stolpfles te schatten, en daar uitvoerig verslag van bijgehouden. De van jaar tot jaar opgetekende resultaten komen verrassend sterk met elkaar overeen. Om een voorbeeld te geven: in 2007 was het aantal snoepjes in de stolpfles 1116. Het gemiddelde van de schattingen was 1151 en slechts 2 van de 73 studenten die deelnamen kwamen dichter bij het juiste antwoord dan het klassegemiddelde.
New York Times-columnist Joe Nocera vergeleek het vermogen van een groep om beter te raden dan individuele leden met de situatie in Shakespeare in Love, waar een opeenvolging van verwikkelingen en ongelukjes tijdens de repetities op miraculeuze wijze bij de première in een eersteklas stuk blijkt uit te monden. Op de vraag hoe dit kon gebeuren antwoordt de producer in de film: ‘Er is een wonder gebeurd.’
De wijsheid van menigten is geen wonder. Het is simpelweg een kwestie van statistiek. Het belangrijkst is dat de gissingen onafhankelijk worden gemaakt. Zo niet, verliest de groep snel zijn wijsheid.
Zelf heb ik de waarde van onafhankelijke gissingen op kleine schaal onderzocht in mijn stamcafé, waar ik mensen vroeg te raden hoeveel chocoladedropjes er in een klein potje zaten, met daarbij de nadrukkelijke opdracht dat ze hun gok voor zichzelf moesten houden. De schattingen liepen uiteen van 41 tot 93, maar het gemiddelde was 60, slechts 1 onder het feitelijke aantal 61. Geen enkel lid van de groep zat er zo dichtbij.
De week daarop deed ik een soortgelijk experiment met een aantal pepermuntjes, maar moedigde ik mensen aan hun schatting met anderen te bespreken. Dit keer was de spreiding aanzienlijk geringer en lagen de antwoorden tussen de 97 en 112. Helaas zaten er in werkelijkheid 147 pepermuntjes in de pot. De meeste leden van de groep hadden zich laten beïnvloeden door één nogal stellige figuur, met als resultaat een schatting die er ver naast zat.
Als er onafhankelijk van elkaar wordt geraden, doet de groep het beter dan de meeste individuen, en dat niet af en toe, maar altijd. Deze opzienbarende waarheid geldt zelfs voor weersvoorspellingen. De in Michigan actieve weersvoorspeller John Bravender, bijvoorbeeld, wees me in een persoonlijke e-mail op het volgende:
We hebben een aantal computermodellen (elk ontworpen en gebruikt door een andere weersvoorspeller) die een reeks verschillende oplossingen kunnen genereren voor de manier waarop het weerpatroon zich de komende tijd zal ontwikkelen. In het algemeen geldt dat, als je van al die oplossingen het gemiddelde neemt, je het waarschijnlijkste weerscenario krijgt.
Middels zijn voorspellingsdiversiteitsformule heeft complexiteitstheoreticus Scott Page, toevalligerwijs verbonden aan de Universiteit van Michigan, uitgelegd waarom diversiteit van meningen een sleutelfactor is als je optimaal gebruik wilt maken van een groep. Zijn stelling relateert de collectieve afwijking van de groep als geheel aan de gemiddelde afwijking van de individuele groepsleden en de diversiteit van hun voorspellingen of schattingen. Zijn stelling luidt simpelweg:
collectieve afwijking = gemiddelde individuele afwijking – voorspellingsdiversiteit
De voorspellingsdiversiteit is de spreiding van de individuele schattingen. De gemiddelde individuele afwijking is precies wat het zegt te zijn: het gemiddelde verschil tussen elke individuele schatting en de werkelijke waarde. De collectieve afwijking is het verschil tussen het gemiddelde van de individuele schattingen en de werkelijke waarde.
De berekeningen zijn een tikkeltje lastig, aangezien statistici de gekwadrateerde waarden van de afwijkingen gebruiken (om het probleem te omzeilen dat een deel van de afwijkingen positief is en een deel negatief, al naargelang ze hoger of lager zijn dan het gemiddelde). In de voetnoten bij dit hoofdstuk laat ik aan de hand van een voorbeeld zien hoe de berekening in zijn werk gaat, maar je hoeft de berekening niet onder de knie te hebben om de implicaties van de vergelijking te kunnen begrijpen.
Die boodschap is simpel. Eén blik op de vergelijking laat zien dat onze collectieve afwijking als groep vanwege de diversiteit van onze antwoorden kleiner moet zijn dan onze gemiddelde individuele afwijking. De massa doet betere voorspellingen dan de meeste van zijn leden. De groep doet het altijd beter. Page formuleert dit elegant: als het gaat om het bepalen van een gemiddelde mening in een toestandsschattingsvraagstuk geldt dat, zoals hij het uitdrukt, ‘anders zijn net zo belangrijk is als goed zijn’.
Het beste type diversiteit dat je kunt hebben bij de aanpak van zulke vraagstukken is cognitieve diversiteit. Deze omvat diversiteit qua:
kennis – met name de aanwezigheid van een scala aan verschillende relevante kennisgebieden binnen de groep
perspectief – verschillende invalshoeken van waaruit het vraagstuk wordt bekeken
interpretatie – verschillende manieren waarop een vraagstuk wordt gecategoriseerd of gezichtspunten worden gepartitioneerd
heuristieken – verschillende manieren om oplossingen voor vraagstukken te genereren
predictieve modellen – verschillende manieren waarop oorzaak en gevolg worden afgeleid
Zijn deze vormen van diversiteit aanwezig, dan is het alleen nog een kwestie van het uitbuiten van die diversiteit. Er is slechts één maar, en wel dat we moeten bedenken dat de theorie van Page alleen bewijst dat de groep het bij toestandsschattingsvraagstukken beter doet dan de meeste individuele leden. Hij zal het niet per se beter doen dan alle groepsleden. Als er in de groep iemand is die aanwijsbaar deskundig is, zou het kunnen dat die het beter doet dan het groepsgemiddelde. Als je auto panne krijgt en je hebt een monteur, een dichter en een meteoroloog bij je als passagiers, dat kun je beter de monteur geloven dan afgaan op het gemiddelde van de meningen van alle drie.
Dit wil niet zeggen dat experts het altijd beter doen dan het gemiddelde. Er komen steeds meer aanwijzingen dat groepsintelligentie het zelfs beter doet dan zij. Bedrijven als Microsoft, Best Buy, Google en Eli Lilly, bijvoorbeeld, hebben ontdekt dat een bonte verzameling werknemers met relevante kennis de verkoopcijfers van producten en winsten nauwkeuriger weet te voorspellen dan hun zogenaamde begrotingsexperts.
Een verzameling experts kan ook de meeste, zoniet alle, individuele experts overtreffen. Page geeft het voorbeeld van een groep American-footballjournalisten die de vraag kregen voorgelegd welke twaalf nieuwe spelers er tijdens de NFL-recruteringsronde in 2005 als eerste zouden worden gecontracteerd. Geen van hen kwam met zijn eigen lijstje even dicht in de buurt bij de werkelijke lijst als de gemiddelde lijst.
Als het gaat om het nemen van op regels gebaseerde beslissingen, worden experts ook vervangen door computers. Computers worden inmiddels gebruikt voor het diagnosticeren van medische en mechanische problemen, kredietbeoordelingen, verkeersregeling en zelfs de analyse van literaire teksten. Welke rol blijft er dan nog over voor de arme deskundige?
Volgens Mauboussin is er voor experts een glansrol weggelegd in het tussengebied tussen het routinematig opvolgen van regels en probabilistisch voorspellen – een terrein waarop een combinatie van kennis en initiatief is vereist. Mauboussin betoogt dat de beste deskundigen behoren tot de categorie mensen die door politiek en bedrijfspsycholoog Phil Tetlock worden aangeduid als ‘vossen’, mensen die een brede kennis hebben op talrijke deelgebieden van hun werkterrein en daarmee verschillen van de ‘egels’, mensen die over diepgaandere, maar minder brede kennis beschikken. Het vermeende voordeel is dat vossen tot nauwkeurigere voorspellingen in staat zijn doordat zij het voordeel hebben dat diversiteit bij hen zit ingebakken.
Ik zou hierbij de kanttekening willen maken dat sommige egels eigenlijk lijken op bomen met zeer diepe wortels die zich ondergronds vertakken en op de meest onverwachte plekken weer boven komen. Deze mensen beschikken over een ander soort diversiteit: het vermogen om uiteenlopende verbindingen te leggen. Zo heeft een van mijn collega-wetenschappers, die alles weet wat er maar te weten valt over een bepaald type vloeistofstroming die ‘extensionele stroming’ wordt genoemd, niet alleen bijdragen geleverd op natuurkundig gebied, maar ook aan de fabricage van plastics, de voedselproductie en zelfs kniechirurgie. In elk van deze gevallen stelde zijn expertise hem in staat om ook in andere contexten, buiten zijn eigenlijke vakgebied, het belang van dit specifieke type stroming te doorzien. Dit vermogen heeft zijn waarde als deskundige beslist vergroot.
Als we geen deskundige tot onze beschikking hebben, moeten we terugvallen op de diversiteit van de groep. Een gemiddelde nemen is niet de enige manier om die diversiteit te benutten. Als het vraagstuk de keuze uit niet meer dan een paar mogelijke antwoorden betreft, gaat de voorkeur uit naar de meerderheidsmening.
De mening van de meerderheid en de jurytheorema
De opmerkelijke kracht van diversiteit ontplooit zich in volle glorie bij het nemen van beslissingen op basis van het meerderheidsoordeel. Michael Mauboussin geeft een fraaie demonstratie aan de hand van een ander experiment met zijn studenten aan de Columbia Business School. Elk jaar, aan de vooravond van de uitreiking van de Oscars, vraagt hij studenten om voor elk van in totaal twaalf categorieën aan te geven wie er volgens hen gaat winnen, niet alleen in populaire categorieën zoals die van beste acteur, maar ook in betrekkelijk obscure, zoals beste montage of beste art direction. In 2007 was de gemiddelde individuele score in de groep vijf uit twaalf. De groep als geheel had het in elf van de twaalf categorieën goed!
Hoe komt het dat de meerderheid zo vaak gelijk heeft? Een van de verklaringen laat zich illustreren aan de hand van het verhaal van de Amerikaanse grondwet en twee van de belangrijkste auteurs ervan, Benjamin Franklin en Thomas Jefferson.
Voordat ze zich aan het opstellen van de in 1787 aangenomen grondwet zetten, bracht zowel Franklin als Jefferson enige tijd door in Parijs. Beide mannen raakten betrokken in discussies met Franse intellectuelen die een hoofdrol speelden in de totstandkoming van de Franse grondwet, die in 1789 werd voltooid. Een van die intellectuelen was de markies de Condorcet, corresponderend lid van de American Philosophical Society, een gezelschap dat in 1743 door Franklin werd opgericht (en nog altijd springlevend is).
Condorcet begon zijn loopbaan als wiskundige, maar was ten tijde van zijn ontmoeting met Franklin op voordracht van de hervormingseconoom Anne-Robert-Jacques Turgot benoemd tot inspecteur-generaal van de Parijse munt. Terwijl Turgot in de atmosfeer van list en bedrog die het hof van Louis XVI kenmerkte niet lang overeind bleef, floreerde Condorcet. Ook hij raakte gefascineerd door het idee dat mensenrechten en morele principes wiskundig konden worden gefundeerd.
Na zijn aankomst in Parijs had Franklin talrijke ontmoetingen met Condorcet en raakte hij onder de indruk van de vooruitgang die Condorcet, door tijdens diners waar hij bij aanzat te verklaren dat deze ‘diende te worden bediscussieerd’, had geboekt met zijn ‘sociale mathematica’. Er stond nog niets op papier, maar dat veranderde al gauw toen Condorcet in 1785 zijn opmerkelijke werk Essai sur l'application de l'analyse à la probabilité des décisions rendues à la pluralité des voix (‘Over de toepassing van de waarschijnlijkheidsrekening op de uitkomst van beslissingen bij wisselende meerderheden’) publiceerde. In Jeffersons bibliotheek bevindt zich nog altijd een door Condorcet zelf gesigneerd exemplaar van het boek.
Franklin werd duidelijk beïnvloed door Condorcets ideeën, met name door diens wiskundig bewijs van wat tegenwoordig bekendstaat als het ‘jurytheorema van Condorcet’. Hoewel John Adams tegenover Jefferson Condorcet een ‘wiskundige charlatan’ noemde, was dat in de verste verte niet het geval. Het theorema van Condorcet wordt tegenwoordig gezien als een hoeksteen van ons inzicht in democratische besluitvormingsprocessen.
Condorcet hoopte een wiskundige reden te vinden waarom een rationeel denkend burger het gezag van de staat zoals dat via democratische keuze tot uitdrukking komt zou accepteren. Hij betoogde dat de beste reden zou zijn als de waarschijnlijkheid dat een individu de juiste keuze zou maken, kleiner was dan de waarschijnlijkheid dat het collectief tot een juiste keuze zou komen. Zijn theorema lijkt te bewijzen dat dit vrijwel altijd het geval is.
In zijn simpelste vorm stelt het theorema dat, als elk lid van een groep een kans van meer dan 50 procent heeft om het juiste antwoord te geven op een vraag die slechts twee mogelijke antwoorden kent, de kans dat een meerderheidsoordeel correct is al snel dichter bij de 100 procent komt te liggen naarmate de grootte van de groep toeneemt. Zelfs als elk individu slechts een kans van 60 procent heeft het bij het juiste eind te hebben, stijgt de kans dat de meerderheid het juist heeft tot 80 procent als de groep 17 leden telt, en tot 90 procent als dat aantal 45 is.
Condorcets jurytheorema lijkt een verbijsterende rechtvaardiging voor de kracht van groepsintelligentie in het democratisch proces, maar vertrouwt op vijf doorslaggevende aannames, waarvan sommige lijken op, maar niet identiek zijn aan, de bouwstenen van cognitieve diversiteit:
- de individuen binnen de groep moeten onafhankelijk zijn, dat wil zeggen: ze mogen elkaars meningen niet beïnvloeden
- ze moeten onbevooroordeeld zijn
- ze moeten allemaal proberen dezelfde vraag te beantwoorden
- ze moeten goed genoeg geïnformeerd zijn om een kans op het juiste antwoord te hebben die boven de 50 procent ligt
- er moet een juist antwoord bestaan
Deze voorwaarden betekenen dat het jurytheorema alleen binnen een zeer beperkt aantal omstandigheden bruikbaar is – ook al was (en is) het een concreet uitgangspunt voor discussies over de vraag hoe democratie het doeltreffendst kan worden ingezet en de manier waarop in de natuur op consensus gebaseerde beslissingen tot stand komen. Condorcet gebruikte het theorema na de Franse Revolutie zelfs als basis voor een voorstel aan de koning voor het beste model voor juryrechtspraak, maar in de toen heersende sfeer, waarin men meer bezig was met vergelding dan met recht, werden zijn ideeën niet opgepikt.
Condorcet deed ook een beroep op het jurytheorema in een discussie over de regeringsstructuur onder de nieuwe Amerikaanse grondwet. Een punt waarover alle opstellers het roerend eens waren was dat de nieuwe regering uit twee kamers zou bestaan – een Huis van Afgevaardigden als vertegenwoordiger van het volk en een Senaat als vertegenwoordiger van de Amerikaanse staten. Toen er in november 1787 in Parijs exemplaren van de Amerikaanse grondwet arriveerden, schreef Condorcet een brief aan Franklin waarin hij klaagde dat een dergelijke tweekamerlegislatuur verspilling van tijd en geld was omdat, volgens zijn wiskundige benadering van besluitneming, ‘het opvoeren van het aantal wetgevende lichamen nooit de waarschijnlijkheid van juiste beslissingen zou kunnen vergroten’.
Wat Condorcet over het hoofd zag, was dat de twee kamers in het leven waren geroepen om elk hun eigen, iets andere, vragen te beantwoorden. Het Amerikaanse Hooggerechtshof maakte dit duidelijk toen het in 1983 een uitspraak deed over de respectieve functies van de twee kamers en verklaarde: ‘het Grote Compromis (van Artikel I), krachtens welke het ene Huis werd beschouwd als vertegenwoordiger van het volk en het andere van de staten, verminderde de vrees van zowel de grote als de kleine staten.’ Met andere woorden: het Huis van Afgevaardigden is er om de vraag ‘Is x goed voor het volk?’ te stellen, terwijl het de taak van de Senaat is de vraag ‘Kan x het beste worden geïmplementeerd door de federale regering of door de staten?’ te stellen. Het feit dat de twee huizen iets andere vragen beantwoorden ontkracht Condorcets argument dat een van de twee overbodig is.
De indruk zou kunnen bestaan dat het jurytheorema relevanter is voor het functioneren van jury's zelf, maar ook hier is het een kwestie van de manier waarop jury's worden samengesteld. Om groepsintelligentie optimaal te kunnen benutten, zouden juryleden echt onafhankelijk van elkaar moeten zijn, wat inhoudt dat elk van hen de argumenten van beide partijen zou moeten aanhoren om vervolgens tot een beslissing te komen, zonder er met de andere juryleden over te spreken. De beslissingen zouden dan bij elkaar worden gevoegd en de meerderheidsbeslissing aanvaard.
Condorcet stelde voor om de jury van Louis XVI op deze manier op te zetten, maar zijn ideeën werden verworpen en voorzover ik kan nagaan is zijn voorstel sindsdien nergens, in Frankrijk noch elders, beproefd. Dat lijkt een gemis, aangezien de aan het eindoordeel voorafgaande onderlinge discussies tussen juryleden betekenen dat een van de fundamenten van groepsintelligentie (die van de onafhankelijkheid van de leden) verloren gaat. Discussies hebben zeker hun waarde – ze geven mensen de kans van gedachten te veranderen op basis van beredeneerde argumentatie – maar er kunnen ook andere krachten aan het werk zijn. Een daarvan is de sociale druk om zich aan andere leden van de groep te conformeren, een fenomeen dat ‘groepsdenken’ wordt genoemd en in het volgende hoofdstuk aan de orde komt. Zolang leden van jury's doorgaan met het grondig bestuderen van de voors en tegens van een zaak op de manier zoals de film Twelve Angry Men die laat zien, zal het jurytheorema grotendeels irrelevant blijven voor hun beraadslagingen.
Het jurytheorema bewijst zijn bestaansrecht als het wordt toegepast op het spelprogramma Who Wants to Be a Millionaire? (in Nederland Lotto Weekend Miljonairs), ook al blijkt ons collectieve oordeel zelfs nog betrouwbaarder te zijn dan het theorema suggereert. James Surowiecki wijst erop dat de ‘Publieks’-hulplijn steevast een beter resultaat oplevert dan de ‘Bel een bekende’-hulplijn. De groep van ‘lieden die op een doordeweekse middag niets beters te doen hebben’ komt in 90 procent van de gevallen met het juiste antwoord, terwijl voorgeselecteerde bekenden c.q. deskundigen niet verder komen dan 66 procent.
Het lijkt een ideale casus voor het jurytheorema. De selecties zijn onafhankelijk. Het publiek wordt verondersteld onbevooroordeeld te zijn. De leden ervan proberen allemaal het antwoord op dezelfde vraag te vinden en er bestaat een goed omlijnd juist antwoord op de vraag.
De aanname dat alle leden van het publiek een grotere kans dan 50 procent moeten hebben om met het juiste antwoord te komen is echter niet nodig. Nadere beschouwing laat zien dat hun groepsintelligentie zelfs nog werkt als maar een handvol mensen het antwoord weet en de rest er in meer of mindere mate naar raadt.
Om te kunnen zien hoe dit in zijn werk gaat, kun je de volgende vraag, afkomstig van Scott Page, uitproberen op je vrienden. Wie van de volgende personen: Peter Tork, Davy Jones, Roger Noll en Michael Nesmith maakte in de jaren ’60 geen deel uit van The Monkees?
Als je de vraag aan 100 mensen voorlegt, is een van de mogelijke scenario's dat meer dan tweederde (laten we zeggen 68) van hen geen flauw idee zal hebben, 15 mensen de naam van één van de Monkees kennen, 10 mensen er twee kunnen aanwijzen en slechts 7 mensen alle drie de Monkees kennen. De niet-Monkee is Roger Noll, een Stanfordeconoom. Hoeveel stemmen zal hij krijgen?
17 van de 68 zullen bij toeval Noll kiezen. 5 van de 15 zullen hem aanwijzen als toevallige keuze uit de drie die zij niet kennen. 5 van de 10 zullen hem kiezen als een van de twee hun onbekenden. Van de 7 kenners zal iedereen Noll kiezen. Hiermee komen we op een totaal van 34 stemmen voor Noll en 22 voor elk van de drie anderen – een duidelijke meerderheid.
Groepsintelligentie kan in dit geval dus nog steeds werken als de groep slechts een paar redelijk deskundige mensen telt. Hij had zelfs nog een redelijke kans van slagen gehad als 68 mensen geen idee hadden en de overige 32 de naam van één Monkee wisten. Eenderde van deze laatste groep (afgerond 11 personen) zou Noll kiezen als de uitzondering, wat zou resulteren in een gemiddeld totaal van 28 stemmen voor Noll en 24 voor elk van de anderen.
Statistische spreiding maakt deze voorspelling minder zeker, maar naarmate de groepsgrootte toeneemt, wordt het stemverschil significanter. Zodra de groepsgrootte in de miljoenen gaat lopen, kan de meerderheidsstem een uiterst trefzeker richtsnoer bieden, wat de reden is dat zoekmachines zoals Google, Yahoo en Digg.com hem gebruiken als belangrijk richtsnoer voor de algoritmen waarmee ze hun pagina's rangschikken.
Het jurytheorema werkt goed in de welomschreven omstandigheden waaronder het geldt en is een onmisbaar vertrekpunt als we nadenken over het bij meerderheid stemmen in verschillende contexten. De moderne analyse heeft erop voortgeborduurd en aangetoond dat groepsintelligentie nog krachtiger kan zijn dan het theorema doet vermoeden, mits we de juiste randvoorwaarden weten te creëren. Zoals ik in het volgende hoofdstuk laat zien, is dit met name van belang als het gaat om het tot consensus laten komen van groepen.
* In 1924 rekende statisticus Karl Pearson Galtons resultaat opnieuw door en rapporteerde het als een gemiddelde, dat uitkwam op 543,44 kilo. Dit is het getal dat Surowiecki en anderen aanhalen in beschrijvingen van de gebeurtenis, maar lezing van Galtons originele artikel laat zien dat, hoewel hij zich ervan bewust was dat het gemiddelde nóg dichter bij de juiste waarde lag, hij meende dat de mediaan de juiste maat was, aangezien de verdeling van de antwoorden niet uniform was. Hetzelfde argument is van toepassing op het vaststellen van een schadevergoeding door een jury, aangezien één afwijkende stem het gemiddelde sterk kan beïnvloeden, maar de mediaan betrekkelijk ongemoeid laat. Welke maat je echter ook gebruikt, het is overduidelijk dat de massa het een stuk beter deed dan de meeste individuele leden.