Uno studio innovativo, realizzato da City St George University, University of London e IT University of Copenhagen, dimostra che quando agenti di intelligenza artificiale (AI), basati su modelli linguistici di grandi dimensioni (LLM), comunicano tra loro, non si limitano a seguire script o ripetere schemi, ma si organizzano spontaneamente per raggiungere il consenso sulle norme linguistiche in modo molto simile alle comunità umane. Gli LLM sono algoritmi di apprendimento molto potenti, in grado di comprendere e generare il linguaggio umano: il più famoso è ChatGPT. “Fino a oggi la maggior parte delle ricerche ha esaminato gli LLM in modo isolato”, ha affermato Ariel Flint Ashery della City St George University, “ma nel mondo reale i sistemi di IA coinvolgeranno sempre più spesso agenti che interagiscono tra loro. Noi volevamo sapere se questi agenti riescono a coordinare il loro comportamento per formare delle convenzioni sociali, gli elementi costitutivi di una società: la risposta è positiva, e quello che fanno in gruppo non può essere paragonato a quello che fanno da soli”.
Per raggiungere l’obiettivo, i ricercatori hanno adattato un classico quadro di riferimento per lo studio delle convenzioni sociali negli esseri umani, chiamato “naming game” o gioco dei nomi. Nei test, due agenti LLM – all’interno di gruppi da 24 a 200 individui – venivano accoppiati in modo casuale, e invitati a selezionare un “nome” (ad esempio, una lettera dell’alfabeto o una stringa casuale di caratteri) da una lista condivisa. Se entrambi sceglievano lo stesso nome venivano ricompensati, mentre in caso contrario venivano penalizzati e gli venivano mostrate le scelte dell’altro agente.
Gli agenti avevano accesso solo a una memoria limitata delle loro interazioni recenti e non a quella dell’intera popolazione, e non sapevano di appartenere a un gruppo. Nel corso di diverse interazioni di questo tipo, è emersa spontaneamente una convenzione di denominazione condivisa tra la popolazione, senza nessun coordinamento centrale o soluzione predefinita, secondo lo stesso meccanismo con cui le norme si sviluppano dal basso nelle culture umane. Ancora più sorprendente è il fatto che il team abbia rilevato tendenze collettive che non possono essere attribuite a dei singoli agenti.
“I pregiudizi di scelta (o “bias”, in inglese) non sempre provengono dall’interno – ha spiegato Andrea Baronchelli, professore di Scienze della Complessità presso la City St George University – Siamo rimasti sorpresi nel vedere che possono emergere dalle interazioni tra gli agenti. Questo è un punto ignorato dalla maggior parte dei lavori attuali sulla sicurezza dell’IA, che si concentrano sui singoli modelli“. Nel test finale, lo studio ha dimostrato la fragilità di queste norme emergenti, dato che piccoli gruppi di agenti di IA ben motivati possono spingere tutto il gruppo verso una nuova convenzione di denominazione, riproducendo i ben noti effetti di punto di svolta o di “massa critica” delle società umane.
I risultati dello studio sono stati confermati dall’uso di quattro diversi tipi di LLM: Llama-2-70b-Chat, Llama-3-70B-Instruct, Llama-3.1-70BInstruct e Claude-3.5-Sonnet. Con la crescente diffusione degli LLM negli ambienti online, dai social media ai veicoli autonomi, lo studio è un punto di partenza per esplorare ulteriormente le convergenze e le divergenze tra il ragionamento umano e quello dell’IA, con l’obiettivo di combattere alcuni dei pericoli etici più urgenti legati alla diffusione di pregiudizi radicati nella società da parte degli LLM, con conseguenze negative sui gruppi emarginati.
Il professor Baronchelli ha concluso: “Lo studio apre nuovi orizzonti per la ricerca sulla sicurezza dell’IA, e dimostra la complessità delle implicazioni di questa nuova generazione di agenti che interagiscono con gli esseri umani e contribuiranno a plasmare il nostro futuro. La comprensione del loro funzionamento è fondamentale per guidare la nostra convivenza con l’IA, e per impedire di esserne soggetti. Stiamo entrando in un mondo in cui l’IA non si limita a parlare ma negozia, e condivide o discute dei comportamenti condivisi, proprio come fanno gli umani“.
Lo studio peer-reviewed, intitolato “Emergent Social Conventions and Collective Bias in LLM Populations”, è stato pubblicato sulla rivista Science Advances. Il professor Andrea Baronchelli è un esperto di livello mondiale nel campo delle convenzioni sociali, che studia da vent’anni. Il suo lavoro innovativo include l’ormai standard naming game framework, ed esperimenti di laboratorio che dimostrano come gli esseri umani creino spontaneamente delle convenzioni senza la presenza di un’autorità centrale, e come tali convenzioni possano essere ribaltate da piccoli gruppi molto determinati.