
Bijna twee jaar geleden voorspelde Microsoft-topman Satya Nadella dat generatieve AI het kenniswerk zou overnemen. Wie vandaag rondkijkt op een advocatenkantoor of bij een zakenbank ziet echter iets anders: mensen doen nog steeds het echte werk. Waarom heeft AI ons werk nog niet overgenomen?
Een nieuwe studie van trainingsdatabedrijf Mercor laat zien waarom die AI-revolutie voorlopig uitblijft. De kern van de studie is dat AI absoluut niet dom is, maar wel belachelijk slecht om kan gaan met hoe rommelig kantoorwerk in de praktijk is.
Test van Mercor
Mercor ontwikkelde een nieuwe benchmark, APEX-Agents die het echte kantoorwerk moest uitvoeren. Geen gedichten schrijven of losse sommetjes oplossen, maar echte opdrachten uit de dagelijkse praktijk van juristen, consultants en bankiers. Taken die uit meerdere stappen bestaan en waarbij informatie uit verschillende bronnen gecombineerd moet worden.
De uitkomst is pijnlijk voor de grootste AI-modellen van dit moment. Zelfs de toppers, denk dan aan Gemini 3 Flash en GPT-5.2, kwamen niet verder dan een score van rond de 25 procent. Gemini haalde 24 procent, GPT-5.2 bleef steken op 23 procent. Veel andere modellen presteerden nog slechter.
Hoe kan dat?
Volgens Mercor-ceo Brendan Foody zit het probleem niet in rekenkracht of taalbegrip, maar in context. In echt kantoorwerk ligt het antwoord zelden netjes klaar. Laten we een advocaat als voorbeeld nemen. Om iets op te lossen moet hij of zij bijvoorbeeld een Slack-gesprek teruglezen, een beleidsdocument in pdf openen, cijfers uit een spreadsheet erbij pakken en daaruit één samenhangend antwoord destilleren. Mensen schakelen moeiteloos tussen die bronnen. AI-modellen raken juist de weg kwijt zodra informatie verspreid is over meerdere plekken.
Daardoor gedraagt AI zich voorlopig niet als een ervaren professional, maar eerder als een stagiair die het soms goed doet, maar net zo vaak de plank misslaat. Alhoewel stagiairs meestal nog stukken beter presteren dan 25 procent.
Geruststellend of nog niet?
Dus al je bang was om vervangen te worden, is dit geruststellend nieuws. Althans, het is maar net vanuit welk perspectief je het bekijkt. De studie geeft namelijk ook een waarschuwing: een jaar geleden scoorden deze modellen nog tussen de 5 en 10 procent op vergelijkbare taken. Nu zitten ze al rond de 24 procent.