NEWS SPAZIO :- Riprendiamo a parlare di Intelligenza Artificiale, continuando il cammino che abbiamo iniziato anni fa. Recentemente abbiamo inaugurato una nuova serie di post dedicati in cui voglio far riflettere su alcuni concetti fondamentali della IA, sia per stimolare la discussione che per arrivare a capirla di più, per poi riuscire a gestirla meglio.
Nell'ultimo post della serie avevo introdotto un primo concetto fondamentale da tenere bene a mente: l'IA è uno strumento, potentissimo quanto vogliamo, ma è uno strumento. Lo trovate qui
Oggi facciamo un passo in avanti, un passo molto importante. Perché sapere che l'IA è uno strumento non ci basta. Infatti, qual'è la prima cosa che pretendiamo da uno strumento? O da un assistente? O da un nuovo assunto? O da un meccanico a cui portiamo la nostra auto a riparare per la prima volta? O, in generale, da una nuova risorsa a cui abbiamo accesso? La risposta che voglio dare è: "Che ci sia utile e che sappia fare bene il proprio lavoro!".
Quando cerchiamo, ad esempio, un avvocato, vogliamo che sappia fare bene il suo mestiere, devo potermi fidare del suo parere legale. Se ho un problema di salute, non cerco forse un bravo medico?
Ebbene, Il concetto importante è proprio questo: Competenza! Saper fare un lavoro di qualità. Che tradotto in termini informatici diventa produrre risultati con correttezza, precisione, accuratezza nei risultati.
Anticipo solamente che non basterà la competenza per potersi fidare completamente di un sistema basato su IA. Ci sono tanti altri aspetti da considerare, che concorrono tutti nella capacità o meno di dare fiducia ad un tale sistema. Li vedremo a mano a mano che procederemo con i prossimi post. Si perché la fiducia è una cosa grossa, fatta di tante cose, inscindibili tra loro.
Per adesso concentriamoci sulla competenza di un sistema basato su IA.
Era la fine di novembre del 2022 quando fece rilasciato il sistema IA che di lì a poco diventò il più noto al grande pubblico, ChatGPT. Dopo solo cinque giorni dalla sua uscita aveva già superato 1 milione di utenti. Si trattò di uno spartiacque, da allora, Intelligenza Artificiale era diventata sinonimo di ChatGPT.
A gennaio 2023 aveva superato i 100 milioni di utenti attivi mensili.
E non è stato l'unico, la famiglia dei Large Language Model (LLM) ha iniziato crescere sempre più, si pensi a Claude, Gemini, Grok, Copilot (ecc. ecc.), sistemi basati su grandi modelli linguistici (LLM, Large Language Model) che a fronte di una domanda dell'utente umano (detta Prompt) producevano una risposta ed una conversazione articolata e talmente simile a quanto avrebbe potuto darci un esperto umano, da risultare a dir poco affascinanti.
Col tempo questi sistemi hanno aumentato le loro dimensioni e le loro capacità di "processare" anche altri tipi di input oltre al linguaggio, immagini, audio, video, ed a produrre risposte anch'esse multimodali. E la loro "evoluzione" è lungi dall'essere terminata, la corsa è tutt'ora in corso, nuove versioni, nuovi modelli che si rincorrono l'uno con l'altro vengono prodotti ad una velocità impressionante.
Ma visto l'argomento di oggi, la domanda fondamentale che ciascuno di noi deve sempre farsi di fronte ad un sistema basato su IA è: i suoi risultati sono corretti? Posso basare le mie decisioni su quello che mi dice? (Quindi) posso fidarmi di quello che l'IA mi dice?
Ci troviamo in un momento in cui sembra che ogni settimana esca un nuovo sistema di IA capace di fare cose sorprendenti. Genera testi, crea immagini, produce video, scrive codice, riassume documenti, risponde a domande su qualsiasi argomento. L'effetto è spesso stupefacente, e la tentazione davvero forte è prendere quello che il sistema produce ed usarlo così com'è, punto. Produce risultati che sembrano perfetti, con il giusto stile, intonazione, confidenza, sempre molto centrati sull'argomento. Ecco, questo è il primo errore da evitare.
Tutti gli strumenti di IA oggi disponibili possono commettere errori.
Ogni sistema IA lo dichiara esplicitamente sia a video che in tutti i suoi manuali. Ed il più delle volte questi errori non sono banali o molto evidenti.
Al contrario, si tratta di errori sottili, formulati con un linguaggio sicuro e convincente, che li rende difficili da riconoscere. In ambito tecnico si parla di "allucinazioni", un termine che descrive il fenomeno per cui un sistema di IA genera informazioni che sembrano plausibili e corrette ma che in realtà sono parzialmente o completamente sbagliate. Può inventare un dato, attribuire una citazione a chi non l'ha mai pronunciata, affermare con sicurezza qualcosa che non corrisponde alla realtà.
Perché questo accade? Se volete possiamo certamente approfondire i dettagli tecnici in un post dedicato - fatemelo sapere! - per adesso voglio solo dire che tali sistemi funzionano generando una risposta parola dopo parola, scegliendo la sequenza di parole più probabili in base a ciò che hanno "appreso" durante il loro addestramento (su enormi quantità di dati).
Non "comprendono" davvero le cose nel mondo, non hanno la conoscenza così come la possiede un esperto umano. Essi hanno una rappresentazione interna di tutti i dati che gli sono stati forniti, strutturata con miliardi di collegamenti che rappresentano quanto una parola sia in relazione con le altre. E poiché durante la fase di apprendimento di questi sistemi, tipicamente gli vengono dati in input milioni/miliardi di testi e di documenti, tale patrimonio testuale è fittamente correlato nelle sue parti. Al punto che ne emergono proprietà linguistiche sempre più complesse all'aumentare dei dati complessivi utilizzati per l'addestramento iniziale.
Le parole della risposta vengono generate in maniera probabilistica, ad ogni passaggio viene scelta quella che sulla base dei miliardi di relazioni registrate ha la probabilità maggiore di essere quella giusta. Ma senza una vera comprensione di ciò di cui si sta discutendo. Ed il risultato che vediamo tutti noi comparire sullo schermo è un testo che suona corretto, nella maggior parte dei casi lo è, ma non sempre. Ma - importante! - non vi sono meccanismi interni in grado di distingue il vero dal falso, ma solo il più probabile dal meno probabile tra ciò che gli è stato insegnato.
A questo punto la cosa fondamentale, da tenere sempre nella massima considerazione quando si usano questi strumenti, è non pensare di avere davanti a sé un oracolo, specialmente se i risultati che stiamo cercando ci servono per un compito importante o critico.
Un semplice parallelo. Quando usiamo un navigatore satellitare in auto, ciascuno di noi certamente si fida delle indicazioni che questo produce, ma restiamo con gli occhi bene aperti sulla strada. Se il navigatore ci dice di svoltare a destra, e ci accorgiamo che a destra la strada è o chiusa o magari c'è un muro, non è che svoltiamo lo stesso solo perché ce lo ha detto il navigatore! In altre parole, usiamo sempre il nostro giudizio. E con l'IA deve essere esattamente la stessa cosa. Non possiamo proprio permetterci di fidarci ciecamente.
Quindi che fare? La prima cosa è non prendere per vero tutto quello che una IA genera, specialmente quando si tratta di fatti, dati, nomi, date, riferimenti. Se l'informazione è importante, verificatela. Fate una ricerca, controllate la fonte, chiedete conferma altrove. Questo vale per qualsiasi strumento di IA, senza eccezioni, compresi i più avanzati e costosi.
La seconda cosa è imparare a conoscere lo strumento che usate. Ogni strumento ha punti di forza e limiti. Alcuni sono più affidabili su certi tipi di compiti e meno su altri. L'unico modo per scoprirlo è usarli con attenzione, confrontare i risultati, e nel tempo costruire una propria esperienza. Sperimentare! Esattamente come fareste con qualsiasi altro strumento.
La terza cosa, senza dubbio la più importante, è mantenere sempre attivo il proprio senso critico. L'IA è un assistente, non la fonte dello scibile umano. Non delegate MAI il vostro giudizio. Se qualcosa non vi convince, se un risultato vi sembra strano, fidatevi del vostro istinto ed approfondite. Il fatto che una risposta sia formulata in modo fluido e sicuro non significa che sia corretta.
E per chi ha meno dimestichezza con queste tecnologie, è ancora più importante non sentirsi intimoriti o inadeguati di fronte a questi strumenti. Non serve essere informatici o ingegneri per usarli bene. Serve buon senso, la stessa attenzione critica che tutti noi abbiamo imparato ad applicare nel corso della vita di tutti i giorni quando qualcuno, un estraneo, ci dice qualcosa e dobbiamo decidere se credergli o meno.
Regola d'oro: quando "parlate" con una IA, misurate le vostre reazioni nello stesso modo in cui fareste se davanti a voi vi fosse un essere umano che non conoscete.
Perché alla fine la fiducia funziona con l'IA esattamente come funziona tra esseri umani. Non la potete dare a chiunque vi racconti cose mirabolanti solo perché parla bene. La fiducia si costruisce nel tempo, verificando, confrontando e man mano capendo fino a che punto potete contare su ciò che vi dice chi vi sta di fronte.
Purtroppo, nella pratica quotidiana, l'effetto "wow" che si prova davanti ad una IA è potente e la tentazione di delegare è forte. In aggiunta, la velocità con cui questi sistemi producono una risposta gioca contro la nostra capacità di fermarci a riflettere.
Concludo dicendo che i sistemi IA odierni sono strumenti molto potenti, e lo sono sempre di più! Possono certamente darci un supporto molto importante - avete notato che li ho chiamati "strumenti?" -. Ma devono restare solo un "booster" di supporto, non dobbiamo MAI abdicare il controllo, il razzo principale deve rimanere sempre la nostra mente!
Mi fermo qui, nei prossimi post allargheremo il discorso e parleremo di altre cose sempre legate ai nuovi sistemi IA che tentano la nostra fiducia. Sì perché avere una IA che mi genera una risposta corretta, vera, verificabile ed affidabile è condizione necessaria ma non sufficiente per potersi fidare.
Ma ne parleremo più avanti.
Nel frattempo vi lascio un un elenco di casi documentati di errori compiuti da IA, errori documentati e commessi in contesti "importanti". Ho chiesto a Claude di Antropic di produrmi questo elenco e volutamente non l'ho verificato. Volete provarci voi?
Il caso Mata v. Avianca (2023), New York. Un avvocato, Steven Schwartz dello studio Levidow, Levidow & Oberman, ha utilizzato ChatGPT per preparare un documento legale in una causa per lesioni personali contro la compagnia aerea Avianca. ChatGPT ha generato sei casi giurisprudenziali completamente inventati, con nomi, numeri di fascicolo, citazioni e persino riassunti delle sentenze, tutto fabbricato. Quando il giudice ha chiesto chiarimenti, l'avvocato ha chiesto conferma a ChatGPT, che ha ribadito che i casi erano reali. L'avvocato e il suo studio sono stati sanzionati con una multa di 5.000 dollari. Il giudice ha sottolineato che gli avvocati hanno un "ruolo di controllo" (gatekeeping role) e non possono delegare la verifica dei fatti a uno strumento di IA.
Riferimento: sentenza del giudice P. Kevin Castel, U.S. District Court, Southern District of New York, caso Mata v. Avianca Inc., 22-cv-1461, giugno 2023.
Il caso Anthropic/Claude in tribunale (2025). La stessa Anthropic, l'azienda che produce Claude, è incappata in un problema analogo. In una causa per copyright intentata da Concord Music Group contro Anthropic, un perito ha presentato una dichiarazione contenente una citazione a un articolo accademico inesistente, un'allucinazione prodotta da Claude durante la formattazione dei riferimenti bibliografici. La giudice Susan Van Keulen del tribunale distrettuale della California del Nord ha definito l'incidente una "preoccupazione seria" (serious concern).
Riferimento: Concord Music Group, Inc. v. Anthropic PBC, ordinanza del 23 maggio 2025, U.S. District Court, Northern District of California.
Il fenomeno è in crescita, non in diminuzione. Il ricercatore legale Damien Charlotin ha creato un database pubblico che traccia i casi documentati di allucinazioni IA nei documenti giudiziari. Al maggio 2025 il database contiene 120 casi accertati: 10 nel 2023, 37 nel 2024, 73 nei soli primi cinque mesi del 2025. Nel 2023 la maggior parte degli errori era commessa da persone che si rappresentavano da sole in tribunale. Nel 2025 sono sempre più gli avvocati professionisti a commettere questi errori.
Riferimento: database di Damien Charlotin, citato da Business Insider e Ars Technica, maggio 2025.
Studio Stanford/Yale sulle allucinazioni legali (2024). Pubblicato sul Journal of Legal Analysis (Oxford Academic), questo studio ha testato sistematicamente diversi modelli di IA su domande verificabili riguardanti casi giudiziari federali americani reali. Risultato: i tassi di allucinazione vanno dal 58% (GPT-4) all'88% (Llama 2). In pratica, alla domanda diretta e verificabile su un caso reale, i modelli inventano la risposta nella maggioranza dei casi.
Riferimento: "Large Legal Fictions: Profiling Legal Hallucinations in Large Language Models", Journal of Legal Analysis, Volume 16, Issue 1, 2024.
Studio Mount Sinai sulle allucinazioni cliniche (2025). Ricercatori della Icahn School of Medicine del Mount Sinai hanno testato sei modelli di IA (tra cui GPT-4o, DeepSeek, Llama 3.3) su 300 casi clinici validati da medici, in cui era stato inserito un dettaglio medico fittizio (un esame di laboratorio inesistente, un segno clinico inventato, una sindrome fabbricata). I tassi di allucinazione sono risultati compresi tra il 50% e l'82% a seconda del modello. Il modello con le prestazioni peggiori (DeepSeek) ha prodotto allucinazioni nell'80-82% dei casi. Il migliore (GPT-4o) nel 50-53%. Anche con tecniche di mitigazione nei prompt, il tasso medio è sceso dal 65,9% al 44,2%, restando quindi molto elevato.
Riferimento: "Large Language Models Are Highly Vulnerable to Adversarial Hallucination Attacks in Clinical Decision Support: A Multi-Model Assurance Analysis", pubblicato su medRxiv (preprint) marzo 2025, poi su Nature 2025.
https://www.medrxiv.org/content/10.1101/2025.03.18.25324184v1
https://www.healthcareitnews.com/news/garbage-garbage-out-mount-sinai-experts-compare-hallucinations-across-6-llms
Con la continua "evoluzione" di questi sistemi AI anche le loro performance migliorano. Oltre a ciò vi sono poi specifiche tecniche che possiamo adottare per utilizzarli al meglio (ad esempio Prompt engineering) in modo da metterle nelle condizioni di produrre risultati migliori. Ma il concetto fondamentale di questo post resta sempre valido: verificare sempre le loro risposte!
Vogliamo riassumere questo post in un'ultima frase? Beh, direi che potete andare a rileggervi il titolo del post!
Stay tuned!

Nessun commento:
Posta un commento
Chiunque può liberamente commentare e condividere il proprio pensiero. La sola condizione è voler contribuire alla discussione con un approccio costruttivo e rispettoso verso tutti. Evitate di andare off-topic e niente pubblicità, grazie.