Il contenzioso globale sull’addestramento dei sistemi di intelligenza artificiale generativa si arricchisce di un nuovo capitolo. Encyclopaedia Britannica e la sua controllata Merriam-Webster hanno citato in giudizio OpenAI presso un tribunale federale di Manhattan accusando la società di aver utilizzato senza autorizzazione i propri contenuti per addestrare i modelli linguistici che alimentano ChatGPT.
Secondo quanto riportato nella denuncia, l’azienda di San Francisco avrebbe copiato e utilizzato circa 100 mila voci enciclopediche e definizioni lessicografiche presenti nei database digitali di Britannica e Merriam-Webster. Questo materiale sarebbe stato impiegato per migliorare la capacità dei modelli GPT di generare risposte alle domande degli utenti.
L’azione legale si inserisce in una serie di cause ad alto impatto promosse negli ultimi due anni da editori, autori e media contro le principali aziende di intelligenza artificiale. Il cuore della controversia riguarda la legittimità dell’uso di contenuti protetti da copyright nella fase di addestramento dei modelli.
L’accusa: contenuti copiati e traffico “cannibalizzato”
Nella denuncia depositata davanti alla corte federale, Britannica sostiene che OpenAI abbia sfruttato sistematicamente i propri contenuti online per alimentare i dataset utilizzati nel training dei modelli linguistici di grandi dimensioni.
Secondo l’azienda editoriale, il risultato sarebbe duplice. Da un lato, ChatGPT sarebbe in grado di produrre risposte che replicano in modo molto vicino, in alcuni casi quasi parola per parola, le voci dell’enciclopedia e le definizioni del dizionario. Dall’altro, queste risposte generative sottrarrebbero traffico ai siti originali di Britannica, riducendo l’afflusso di utenti che in passato consultavano direttamente le fonti. Nel linguaggio della causa, questo fenomeno viene descritto come una forma di “cannibalizzazione” del traffico informativo. Gli utenti otterrebbero infatti le informazioni direttamente dal chatbot senza avere più necessità di visitare il sito dell’editore.
La denuncia solleva inoltre un ulteriore profilo problematico. Le cosiddette allucinazioni dell’intelligenza artificiale. Britannica sostiene che ChatGPT in alcune occasioni abbia citato erroneamente l’enciclopedia come fonte di informazioni inesatte, creando una falsa attribuzione che potrebbe danneggiare la reputazione del marchio.
La difesa di OpenAI
OpenAI, sostenuta finanziariamente da Microsoft, ha respinto le accuse richiamando la posizione già adottata in altri contenziosi analoghi. Un portavoce della società ha dichiarato che i modelli sono addestrati utilizzando dati pubblicamente disponibili e che il processo di training rientra nell’ambito del cosiddetto “fair use”, la dottrina del diritto statunitense che consente l’utilizzo trasformativo di opere protette da copyright in determinate circostanze. Secondo questa interpretazione, i modelli non riproducono semplicemente i contenuti originari ma li utilizzano per apprendere schemi linguistici e conoscenze generali, generando successivamente risposte nuove e originali.
Si tratta di una linea difensiva già adottata in numerosi procedimenti negli Stati Uniti, inclusa la causa intentata dal New York Times contro OpenAI e Microsoft e diverse azioni promosse da autori e fotografi.
Il nodo giuridico dell’addestramento dei modelli
Il caso Britannica è particolarmente significativo perché coinvolge una delle istituzioni editoriali più autorevoli della storia moderna. Fondata nel 1768, Encyclopaedia Britannica rappresenta uno dei simboli della produzione sistematica del sapere enciclopedico. Il suo passaggio al digitale negli ultimi decenni ha trasformato l’enciclopedia in una piattaforma online basata su contenuti verificati e aggiornati. L’uso di questo patrimonio informativo per addestrare sistemi di intelligenza artificiale solleva quindi questioni giuridiche complesse.
Il punto centrale riguarda la natura stessa del training dei modelli linguistici. Se l’addestramento viene considerato una forma di analisi trasformativa dei dati, potrebbe rientrare nel fair use. Se invece viene interpretato come una riproduzione massiva di opere protette, potrebbe configurare una violazione del copyright.
Il tribunale federale di Manhattan sarà chiamato a valutare proprio questo equilibrio tra innovazione tecnologica e tutela dei diritti d’autore.
Un fronte legale sempre più ampio
La causa contro OpenAI non è la prima iniziativa giudiziaria intrapresa da Britannica nel campo dell’intelligenza artificiale. L’editore ha già avviato un contenzioso simile contro la startup Perplexity AI, accusata anch’essa di utilizzare contenuti enciclopedici per generare risposte automatiche.
Il proliferare di queste azioni legali dimostra come il settore editoriale stia cercando di ridefinire il proprio ruolo nell’ecosistema informativo dominato dai modelli generativi. Per le aziende tecnologiche, i dataset rappresentano la materia prima necessaria per sviluppare sistemi sempre più sofisticati. Per gli editori, invece, quei dati costituiscono un patrimonio economico e culturale costruito nel tempo e protetto dal diritto d’autore. Il conflitto tra queste due logiche sta diventando uno dei principali terreni di scontro nella regolazione dell’intelligenza artificiale. L’esito del procedimento potrebbe avere implicazioni rilevanti non solo per OpenAI ma per l’intero settore dell’AI generativa. Se i tribunali dovessero stabilire che l’addestramento dei modelli su contenuti protetti costituisce una violazione del copyright, molte aziende tecnologiche potrebbero essere costrette a rivedere radicalmente le proprie pratiche di raccolta e utilizzo dei dati.
