Linguaggio naturale e IA: comunicazione o simulazione?  

Di Damiana Biga

L’intelligenza artificiale ha fatto passi da gigante nella comprensione e generazione del linguaggio, ma può davvero comunicare come un essere umano, cioè si tratta di comunicazione o di simulazione? 

Alessandro Lenci, esperto di linguistica computazionale e scienze cognitive (Professore di Linguistica computazionale all’Università di Pisa, Direttore del Computational Linguistic Laboratory), ci aiuterà a comprendere il rapporto tra linguaggio naturale e IA. Possiamo parlare di una vera e propria comprensione da parte dei modelli di linguaggio? Oppure si tratta solo di una sofisticata simulazione che a noi appare come comunicazione? E come possiamo riconoscere l’uso improprio di queste tecnologie nella società?  

Tra comunicazione e simulazione, approfondiamo insieme a lui il ruolo dell’IA generativa nella creazione e diffusione delle informazioni, i rischi legati alla manipolazione del linguaggio e le implicazioni etiche dell’uso dell’IA nella comunicazione digitale.

L’IA generativa può produrre testi sempre più complessi e persuasivi. Esiste il rischio che diventi impossibile distinguere contenuti scritti da un essere umano da quelli prodotti dall’IA (distinguendo quindi comunicazione da simulazione)?

Ad un’analisi immediata e superficiale, indistinguibili lo sono già. Ecco perché questi modelli hanno reso obsoleto il famoso Test di Turing (l’“imitation game” del film omonimo) per riconoscere se una macchina ha intelligenza umana. Questo test si basa appunto sulla possibilità o meno di distinguere se stiamo parlando con un altro essere umano oppure no. I modelli di IA Generativa passano questo test senza problemi, anche se ovviamente intelligenti non lo sono.

A un livello più profondo, invece, ci sono dettagli (es. la distribuzione statistica delle parole) che rendono possibile capire se il testo è artificiale o umano, un “umanoscritto” come lo ha definito Stefano Bartezzaghi. Ma sono necessarie analisi molto accurate che solo altre macchine sono in grado di fare. In realtà ci sono già software online che forniscono la probabilità che un test sia stato scritto da un’IA. Ma non sempre ci indovinano. Ed è probabile che capacità di creare testi “più umani degli umani” migliori con le prossime generazioni dei modelli di IA.

Uno dei temi più discussi è l’impatto dell’IA generativa sulla creatività umana. Come possiamo garantire che l’uso dell’IA nel linguaggio e nella comunicazione rimanga uno strumento a supporto dell’essere umano e non una minaccia alla nostra capacità critica?

Prima di tutto, non dobbiamo demandare alle macchine la capacità di inventare. Tenendo presente che loro non inventano mai dal nulla, ma semplicemente riassemblano pezzi di testi o immagini già esistenti. Sono in grado di creare anche un copione di una serie TV o una poesia, ma sarà sempre una variazione di qualche lavoro esistente.

La cosa interessante è che anche creatività umana funziona così. Scrittori e pittori rielaborano sempre la tradizione passata da cui si ispirano. La differenza è che essi sono poi in grado di creare qualcosa che sia autenticamente nuovo. Dante ha “inventato” la Divina Commedia, che è legata ovviamente legata a tutta una tradizione poetica precedente, ma che ha anche elementi unici. I modelli di IA Generativa possono solo creare delle variazioni dell’esistente, ma non inventare il nuovo assoluto. Detto questo, un aspetto affascinante dei modelli di IA Generativa è che ci obbligano a rivedere i concetti stessi di creatività, originalità, autenticità, ecc.

Sul piano della capacità critica, bisogna sempre pensare che questi modelli non comunicano pensieri originali, ma producono solo contenuti basati sulle fonti che sono state usat per addestrali. Non sono autorevoli, non più di Wikipedia o di altre fonti testuali. Dobbiamo guardare ai contenuti che producono con lo stesso senso critico che usiamo quando leggiamo qualsiasi cosa. L’autorevolezza è un fenomeno complesso che si basa su un rapporto di fiducia sulle capacità dell’altro basata sulla sua storia e su cosa conosciamo di esso.

Scopiazzando qua e là potrei anche creare un testo di botanica, ma non avrei autorevolezza come botanico. Potrei ingannare coloro che non lo sono, ma un vero esperto si chiederebbe che credenziali ho mai per scrivere quello che ho scritto. Il problema è che quando interagiamo con un IA Generativa spesso ce ne dimentichiamo e ci fidiamo di essa più di un essere umano. Forse è legata proprio al fatto che la nozione di IA si accompagna a un’aura di infallibilità e sovraumanità che in realtà non ha.

Nel film cult di Kubrik “2001 Odissea nello Spazio, il supercomputer HAL, che dovrebbe essere infallibile, fa uno sbaglio. L’equipaggio dell’astronave controllata da HAL se ne accorge e per questo si incrina il rapporto di fiducia con HAL. Ecco un esempio di capacità critica che non deve venire mai meno neppure quando abbiamo davanti un’entità tecnologica che sembra sapere più cose di ogni essere umano. 

Esistono pregiudizi e bias nei modelli di linguaggio basati sull’IA, spesso derivanti dai dati su cui vengono addestrati. Come possiamo intervenire per rendere l’elaborazione del linguaggio più equa e imparziale?

Sì, ci sono bias di tutti i generi: razziali, di genere, stereotipi, ecc. Nei modelli generativi commerciali “top di gamma” (es. GPT-4 ecc,) questi pregiudizi sono mitigati dall’intervento umano con il cosiddetto “apprendimento con rinforzo”. La cosa assurda è che spesso questi condizionamenti introducono “controbias”. Ad esempio, siccome i modelli che generano immagini sono stati modificati per evitare che producessero soprattutto immagini di persone bianche, il risultato è che ora queste in alcuni casi tendono a generare immagini soprattutto di altre etnie, anche quando queste non sono corrette (es. soldati romani con il volto di afroamericani). Naturalmente i bias potrebbero essere attenuati anche migliorando la qualità dei dati su cui i modelli di IA Generativa sono addestrati. 

Qual è il ruolo della linguistica computazionale nella lotta contro la disinformazione online? Possiamo immaginare strumenti efficaci per riconoscere automaticamente fake news e manipolazioni testuali?

La linguistica computazionale è impegnata da sempre, ben prima dell’arrivo dell’IA Generativa, nella lotta contro le fake news. Ci sono strumenti e tecniche molto sofisticate basate sul machine learning che possono essere usate per cercare di riconoscere testi e immagini fake. Come dicevo prima, in alcuni casi questo è molto difficile, ma possibile con una buona accuratezza.

Se ci pensiamo bene, è singolare che la stessa IA Generativa che permette di fabbricare deep fake con facilità sia anche l’unica che può combatterli. Un buon esempio di come una tecnologia possa essere un veleno e anche la sua medicina, come il termine greco “pharmakon” suggeriva.

Tra comunicazione e simulazione, l’IA sta trasformando la comunicazione umana, ma esiste il rischio che possa influenzare anche il modo in cui pensiamo e costruiamo il significato? Se sì, in che modo?

Può sicuramente influenzare il modo in cui pensiamo dal momento che i contenuti prodotti dall’IA non sono neutri (come spesso erroneamente pensiamo). Ci comunicano punti di vista e opinioni (non loro ma di altri) e questo finirà certamente per condizionarci, se appunto non manteniamo spirito critico, come ho detto sopra. Sicuramente influenzeranno la lingua stessa. Molto presto saremo esposti più a testi scritti da IA che da umani.

Si è visto che progressivamente i testi scritti da IA sono più poveri dal punto linguistico per una naturale tendenza a usare le strutture più probabili e comuni (sono infatti modelli che generano il testo su base probabilistica). Questo porterà a un progressivo impoverimento della lingua. Certe parole o costruzioni rischiano progressivamente di scomparire o di essere sempre meno usate. L’unica alternativa è continuare ad usare una pluralità di fonti e di letture.

Già oggi una persona che legge solo su Facebook e non legge mai un libro ha un linguaggio più povero di una che invece legge libri, giornali, ecc. Lo stesso potrà accadere se il nostro interlocutore linguistico finirà per essere sempre di più solo ChatGPT, invece che autentici “umanoscritti”.