Dati di training, le aziende ignorano l’AI Act sulle informazioni relative all’addestramento

Tempo di lettura: 3 minuti

Lo studio del Trinity College Dublin analizza la pubblicazione dei riassunti sui dati di addestramento previsti dall’AI Act e solleva dubbi sulla reale accessibilità delle informazioni per autori, editori e imprese digitali. Un primo banco di prova sull’enforcement europeo in materia di intelligenza artificiale e copyright

L’obbligo di trasparenza sui dati di addestramento dei modelli di uso generale entra ora nella sua prima verifica concreta. Uno studio del Trinity College Dublin, finanziato da Mozilla e pubblicato in versione pre-print, ha analizzato se i fornitori abbiano reso disponibili i riassunti sui dataset utilizzati per l’addestramento così come richiesto dall’AI Act. Il risultato offre un quadro meno lineare di quanto lasci intendere l’impianto normativo europeo.

Come funziona l’obbligo di trasparenza previsto dall’AI Act

L’AI Act impone ai fornitori di modelli di uso generale di pubblicare un riassunto sufficientemente dettagliato dei dati impiegati per il training. L’obiettivo è consentire ai titolari di diritti d’autore di comprendere se e in quale misura le proprie opere siano state utilizzate nei processi di addestramento. Il legislatore ha scelto una via intermedia e cioè quella di evitare la diffusione integrale dei dataset, spesso coperti da vincoli contrattuali o tecnici, ma garantire informazioni tali da rendere possibile una verifica autonoma.

Il punto critico individuato dai ricercatori riguarda la reperibilità di questi documenti. In diversi casi i riassunti risultano assenti; in altri sono pubblicati ma collocati in sezioni poco visibili dei siti aziendali o all’interno di repository tecnici difficili da individuare per chi non ha competenze specifiche. L’AI Act non prevede un registro pubblico né un portale unico di consultazione. Ogni operatore sceglie modalità e collocazione della disclosure.

Le criticità emerse sul piano pratico

La frammentazione delle informazioni rende complesso l’esercizio del diritto di informazione da parte di autori, editori e società di gestione collettiva. Senza un’infrastruttura condivisa, la trasparenza si traduce in una ricerca dispersiva tra documentazione tecnica, pagine istituzionali e comunicazioni accessorie.

Anche sul piano qualitativo emergono differenze marcate. Il modello predisposto dall’AI Office per uniformare le comunicazioni non ha prodotto una standardizzazione effettiva. Alcuni riassunti risultano sintetici e generici, altri offrono un livello di dettaglio maggiore. Lo studio cita il caso di Microsoft in relazione a un modello open source, evidenziando lacune informative o formulazioni poco precise rispetto alle indicazioni europee. In parallelo, alcune realtà di dimensioni più contenute hanno pubblicato documenti più aderenti allo spirito della norma.

Il sistema sanzionatorio dell’AI Act non è ancora pienamente operativo. Le omissioni attuali non comportano conseguenze immediate, ma la questione investe la credibilità dell’intero impianto regolatorio. L’Unione europea ha presentato il regolamento come il primo quadro organico al mondo sull’intelligenza artificiale. La sua tenuta dipende dalla capacità di rendere effettivi gli obblighi previsti.

Lo studio propone la creazione di un portale centralizzato che raccolga tutti i riassunti sui dati di addestramento. Una soluzione di questo tipo consentirebbe controlli più agevoli e ridurrebbe l’incertezza per operatori economici e titolari di diritti.

La questione si inserisce in un contesto già segnato da tensioni tra sviluppatori di modelli generativi ed editori. Se la trasparenza resta difficile da verificare, il rischio è un aumento del contenzioso in materia di diritto d’autore nei prossimi anni. Il primo stress test dell’AI Act passa quindi dalla qualità delle informazioni rese disponibili e dalla capacità delle istituzioni europee di costruire un ecosistema di trasparenza realmente funzionante.