L’anonimato online ha sempre richiesto tempo, competenze, accesso a fonti esterne. Per questo, nella pratica, molte piattaforme hanno trattato lo pseudonimo come una protezione sufficiente, soprattutto quando i contenuti pubblicati erano “solo testo” e sparsi in anni di commenti. La novità portata dai modelli linguistici usati dall’AI è un’altra. La reidentificazione passa da attività artigianale a procedimento ripetibile, automatizzabile e con costi che scendono fino a diventare una voce di budget.
Il riferimento più preciso è il preprint “Large-scale online deanonymization with LLMs”, pubblicato su arXiv il 18 febbraio 2026 e firmato da Simon Lermen insieme a Daniel Paleka, Joshua Swanson, Michael Aerni, Nicholas Carlini e Florian Tramèr. Il lavoro descrive attacchi di deanonimizzazione condotti su contenuti testuali non strutturati, con un agente che può operare anche con accesso a internet e, in scenari più chiusi, con un pipeline pensata per scalare su grandi insiemi di candidati.
Che cosa dice davvero lo studio su Hacker News e LinkedIn
Il dataset più citato collega profili Hacker News a profili LinkedIn, partendo da un dettaglio spesso sottovalutato. Alcuni utenti inseriscono nel profilo pubblico su Hacker News un riferimento a LinkedIn, utile a costruire un ground truth verificabile senza coinvolgere soggetti inconsapevoli. I ricercatori raccolgono 338 utenti e rimuovono dalle biografie e dai contenuti gli identificatori diretti, usando una procedura di anonimizzazione descritta negli allegati, così da evitare abbinamenti banali basati su nome o link. Su questo materiale, l’agente basato su modello linguistico riesce a reidentificare 226 profili su 338, con circa 67 per cento di recall a 90 per cento di precisione.
Il lavoro, nella versione divulgativa e nelle discussioni collegate, stima anche i costi. Per quel campione, l’ordine di grandezza è intorno ai 2.000 dollari, con un costo per profilo che cade in una fascia tra uno e quattro dollari. I numeri contano perché spostano la valutazione dal “si può fare” al “si può fare spesso”, e con un’organizzazione minima.
La pipeline in quattro fasi e perché conta per il diritto
Il cuore tecnico del paper è una catena di lavoro che mira a ridurre i falsi positivi e a rendere l’attacco compatibile con grandi insiemi di candidati. In estrema sintesi, l’approccio combina estrazione di caratteristiche identitarie dal testo, ricerca di candidati tramite embedding semantici, ragionamento sui candidati migliori per verificare l’abbinamento e un passaggio di calibrazione per controllare la qualità delle corrispondenze. Questa struttura “a fabbrica” è ciò che rende la deanonimizzazione meno dipendente dall’intuizione umana e più simile a un processo industriale.
Da qui si arriva alla parte giuridica. Nel Regolamento generale sulla protezione dei dati, un’informazione rientra nella categoria di dato personale quando riguarda una persona identificata o identificabile. L’identificabilità si valuta tenendo conto anche dei mezzi ragionevolmente utilizzabili, quindi di tecnologia e costi. Se strumenti generativi abbassano drasticamente quella soglia, contenuti che ieri venivano trattati come “anonimi di fatto” rischiano di rientrare nella disciplina, con conseguenze su basi giuridiche, informative e misure di sicurezza.
La distinzione tra anonimizzazione e pseudonimizzazione diventa più delicata. Nella pratica quotidiana, molte community hanno costruito la fiducia sulla promessa implicita dello pseudonimo. Niente nome e cognome, quindi rischio contenuto. Il paper mostra un’altra dinamica. Dallo stile di scrittura ai dettagli professionali, dai riferimenti geografici alle tracce sociali indirette, il testo “libero” produce segnali che un modello riesce a raccogliere, sintetizzare e trasformare in ipotesi di identità con una velocità irraggiungibile per un’analisi manuale.
Per chi gestisce servizi digitali, la ricaduta è pratica. Spazi di discussione tecnica, forum di prodotto, community verticali e piattaforme professionali dovranno aggiornare le valutazioni d’impatto, soprattutto quando ospitano contenuti che accumulano dettagli nel tempo. Anche la progettazione dell’esperienza utente cambia. Lasciare pubbliche certe informazioni di profilo, o rendere facile il collegamento tra account, modifica in modo diretto il rischio di reidentificazione, e quindi il rischio legale e reputazionale.
Il tema si intreccia anche con la disciplina europea sull’intelligenza artificiale, perché un modello di uso generale può essere impiegato in contesti che incidono sui diritti delle persone. Se un’organizzazione usa un sistema per collegare un profilo pseudonimo a un individuo, l’attività si avvicina a un trattamento di dati personali. La responsabilità, lungo la filiera, resta un terreno con molte zone grigie: chi integra, chi usa, chi fornisce il modello e con quali controlli.
L’indicazione per chi lavora nel digitale, è semplice e operativa. L’anonimato come promessa tecnica regge quanto regge la distanza tra ciò che un utente pubblica e ciò che un attore terzo riesce a inferire con strumenti disponibili sul mercato. Lo studio su arXiv suggerisce che quella distanza si è ridotta parecchio in pochi anni, e che molte policy nate per un web “a bassa correlazione” vanno ripensate con urgenza, partendo da minimizzazione dei dati esposti e governance più esplicita dei rischi legati ai contenuti testuali.
