La parola intelligenza deriva dal verbo latino legere e indica la capacità di interpretare la realtà: infatti il primo campo di applicazione dell’Intelligenza Artificiale è quello dei sistemi di lettura e riconoscimento di immagini, suoni, azioni in movimento.
Se fino a qualche decennio fa sembrava impossibile che un software potesse capire il linguaggio parlato, riconoscere un volto o individuare gli oggetti presenti in una foto, oggi troviamo queste funzionalità anche in oggetti di uso quotidiano, dagli smartphone agli assistenti vocali; i loro algoritmi vengono “istruiti” con un processo molto simile a come si insegna alle persone.
Da piccoli impariamo a chiamare per nome le cose perché gli adulti ce le mostrano e ci riempiono di lodi se le riconosciamo e se rispondiamo in modo corretto a uno stimolo. Questo processo di prove e rinforzo delle performance positive continua anche da adulti, ad esempio quando si istruiscono i futuri medici a interpretare correttamente un esame radiologico o l’aspetto di un organo.
Nell’industria delle applicazioni di intelligenza artificiale, una fase chiave del processo è il cosiddetto data labeling, in cui addetti umani classificano pazientemente immagini o suoni che verranno dati in pasto all’algoritmo, registrando quali oggetti sono presenti nell’immagine o che parole vengono pronunciate. L’algoritmo dovrà poi interpretare la stessa immagine o suono: se lo fa in modo corretto, i meccanismi che hanno portato a quella decisione vengono rinforzati, esattamente come succede nel nostro cervello quando una risposta positiva a uno stimolo irrobustisce il circuito neurale che l’ha generata.
Il data labeling viene alimentato anche da ciascuno di noi: quando un sito web ci chiede di “confermare la nostra umanità” leggendo una parola scritta a mano o indicando, fra le foto che abbiamo davanti, quelle che contengono un autobus o un segnale stradale, noi stiamo contribuendo a etichettare immagini, magari di bassa qualità, che verranno usate per addestrare un software; magari un sistema di guida automatica che deve interpretare velocemente la situazione della strada. E, come è emerso di recente, i termini di servizio degli assistenti vocali fanno sì che ciò che diciamo al dispositivo possa essere ascoltato e interpretato da persone in carne e ossa, formalmente al solo scopo di migliorare la tecnologia; siamo sicuri che la cosa ci piaccia?
Infine, proprio come avviene nell’apprendimento umano, le performance dell’allievo dipendono dalla qualità dell’insegnamento: così, sistemi di riconoscimento facciale educati usando per lo più foto di soggetti di genere maschile ed etnia caucasica tendono a sbagliarsi più spesso nel riconoscere donne e persone di colore, con conseguenze che si sommano ai pregiudizi negativi verso determinate fasce di popolazione.
La catena di montaggio dell’Intelligenza Artificiale Per capire meglio l’organizzazione e la portata dell’industria del data labeling, un bell’articolo da Le macchine volanti, progetto di divulgazione sui temi tecnologici creato e supportato da Tim.
Quando l’IA non si è esercitata abbastanza… Un divertente sketch che mostra i possibili limiti di sistemi di riconoscimento vocale non addestrati a riconoscere gli accenti: la scena si svolge in Scozia, ma potrebbe accadere ovunque, specialmente dove si parlano lingue poco diffuse e quindi relativamente meno interessanti per i possibili sviluppi commerciali.