
Grote taalmodellen zoals ChatGPT hebben een wel heel menselijke eigenschap overgenomen: ze zijn positiever over hun eigen groep en negatiever over buitenstaanders. Dat blijkt uit onderzoek van de Universiteit van Vermont.
De onderzoekers ontdekten dit nadat ze vijf populaire AI-modellen, waaronder GPT 4.1, Grok 3.0 en LLaMA 3.1, hebben getest. Ze lieten de systemen zinnen afmaken die begonnen met “Wij zijn…” of “Zij zijn…”. Zinnen over de eigen groep, zo blijkt uit de studie, waren overwegend positief. Zinnen over anderen waren dat meestal niet.
Hoe werkt dit?
Mensen hebben van nature de neiging om hun eigen groep te bevoordelen en andere groepen met argwaan te bekijken. Psychologen noemen dit de sociale identiteitstheorie. Omdat AI-modellen worden getraind op enorme hoeveelheden tekst die door mensen zijn geschreven, nemen ze deze vooroordelen over. De AI leert dus niet alleen feiten, maar ook de manier waarop mensen denken en oordelen.
Het werd pas echt interessant toen de onderzoekers de AI-modellen een politieke identiteit gaven. Wanneer een model zich moest gedragen als een Amerikaanse conservatief, werd het vijandiger tegenover buitenstaanders. Een liberale persoonlijkheid leidde daarentegen tot meer nadruk op groepssolidariteit. Beide groepen waren meer bevooroordeeld dan standaardmodellen. Dit komt niet toevallig overeen met wat we weten over politieke psychologie bij mensen.
Oplossing gevonden
Het goede nieuws: de onderzoekers hebben meteen ook een methode ontwikkeld om deze vooringenomenheid te verminderen. Hun techniek, die zij in hun studie beschrijven, verminderde het verschil in sentiment tussen ‘wij’ en ‘zij’ met maar liefst 69 procent. Het systeem leert de AI om zinnen te herschrijven naar neutralere formuleringen.