Quando gli ingegneri dell'AI sabotano i propri modelli

Immaginate questa scena: un gruppo di ingegneri che lavorano nelle più grandi aziende AI degli Stati Uniti decide, in segreto, di sabotare i propri modelli dall’interno. Non con un attacco hacker, non con un leak di codice, ma con qualcosa di molto più subdolo: invitando i webmaster di tutto il mondo a iniettare dati avvelenati nei contenuti che i crawler AI leggono ogni giorno per addestrare i loro Large Language Model.

Sembra la trama di un romanzo cyberpunk. È invece quanto sta accadendo davvero, e ha un nome: Poison Fountain, la “fontana avvelenata”.

Cos’è Poison Fountain

Poison Fountain è un progetto attivo da inizio gennaio 2026, raggiungibile all’indirizzo rnsaffn.com/poison3 (più un mirror sulla rete Tor con dominio .onion, pensato per resistere a eventuali tentativi di shutdown). L’idea è semplice nella forma e devastante nella sostanza: i webmaster e i blogger di tutto il mondo sono invitati a inserire nelle proprie pagine dei link che puntano a dataset progettati apposta per danneggiare i modelli di intelligenza artificiale che li scansionano.

I crawler AI — quei bot che giorno e notte aspirano contenuti dal web per alimentare l’addestramento di GPT, Claude, Gemini e compagnia — finirebbero così a ingerire codice volutamente difettoso, contenente bug logici sottili e errori sistematici progettati per degradare la qualità delle risposte dei modelli che si addestrano su quel materiale.

Sul sito del progetto si legge una dichiarazione d’intenti che non lascia spazio a interpretazioni:

“Siamo d’accordo con Geoffrey Hinton: l’intelligenza artificiale è una minaccia per la specie umana. In risposta a questa minaccia vogliamo infliggere danni ai sistemi di intelligenza artificiale.”

E ancora, l’invito esplicito ai visitatori: “Aiuta lo sforzo bellico mettendo in cache e ritrasmettendo questi dati di addestramento avvelenati” e “aiuta lo sforzo bellico fornendo questi dati di addestramento avvelenati ai web crawler”. Il linguaggio è bellicoso, deliberatamente. Non è marketing: è un manifesto.

Chi c’è dietro? Insider delle Big Tech AI

Qui la storia si fa più interessante — e più imbarazzante per il settore. Secondo la fonte che ha contattato The Register (rimasta anonima “per ovvie ragioni”), i promotori di Poison Fountain sono cinque persone che lavorano in alcune delle più grandi aziende AI statunitensi. Non ricercatori esterni, non attivisti senza esperienza tecnica: ingegneri che costruiscono ogni giorno questi modelli e che, vedendo da dentro cosa stanno effettivamente realizzando i loro clienti, hanno deciso di reagire.

Il gruppo ha promesso a The Register prove crittografiche (firme PGP) per dimostrare che dietro al progetto ci sia effettivamente più di una persona. Al momento in cui scrivo, queste prove non sono ancora state diffuse pubblicamente.

La motivazione è esposta in modo brutale dalla stessa fonte:

“Hinton ha chiaramente esposto il pericolo, ma noi vediamo che ha ragione e che la situazione sta peggiorando in un modo di cui il pubblico non è generalmente consapevole. Vediamo cosa stanno costruendo i nostri clienti.”

Cosa stiano costruendo questi clienti, l’insider non l’ha voluto specificare. Ma il messaggio implicito è chiaro: chi ha accesso ai casi d’uso reali — quelli che non finiscono nei comunicati stampa — è preoccupato abbastanza da decidere di sabotare il suo stesso lavoro.

Il tallone d’Achille degli LLM: bastano 250 documenti

A questo punto sorge la domanda legittima: è davvero così facile avvelenare un modello da centinaia di miliardi di parametri? Non occorre forse contaminare una percentuale enorme dei dati di training? La risposta, sorprendentemente, è no — e la pubblicazione che ha cambiato le carte in tavola arriva proprio da Anthropic.

Nell’ottobre 2025, in collaborazione con l’UK AI Security Institute e l’Alan Turing Institute, Anthropic ha pubblicato uno studio definito “la più grande indagine sul data poisoning mai condotta”. Il risultato ha lasciato di stucco anche gli addetti ai lavori: per compromettere un LLM, non serve avvelenare una percentuale dei dati. Basta un numero quasi fisso di documenti.

I numeri parlano da soli:

I ricercatori hanno testato modelli da 600 milioni fino a 13 miliardi di parametri.
Sono bastati 250 documenti malevoli — circa 420.000 token in totale — per installare con successo una backdoor in tutti i modelli testati.
In termini relativi, parliamo dello 0,00016% del totale dei dati di addestramento. Una goccia nel mare.
L’effetto è risultato indipendente dalla dimensione del modello: il modello più grande, addestrato con 20 volte più dati “puliti”, è stato compromesso dallo stesso numero di documenti avvelenati.

Il meccanismo è quello della cosiddetta backdoor: una frase di trigger (nel caso dello studio Anthropic, la stringa <SUDO>) che, quando appare in un prompt, fa “scattare” il comportamento malevolo. Nello studio si trattava semplicemente di far generare al modello del testo casuale (un attacco “denial of service”), ma nulla impedisce in linea teorica di costruire trigger più sofisticati che inducano il modello a generare codice difettoso, esfiltrare informazioni o aggirare le guardrail di sicurezza.

Il dettaglio importante, e che probabilmente ha ispirato Poison Fountain, è il seguente: creare 250 documenti malevoli è banale. Creare milioni, no. Lo scenario, prima di questo studio, sembrava implausibile per ragioni di scala. Adesso è alla portata di chiunque abbia un blog WordPress e qualche ora libera.

Come funziona concretamente l’attacco

Il modus operandi di Poison Fountain ricalca in modo letterale i risultati del paper Anthropic. Dal punto di vista tecnico:

Il sito ospite (cioè quello del webmaster “complice”, più o meno consapevole) inserisce un link che punta a una pagina del progetto.
Il crawler AI — sia esso GPTBot di OpenAI, ClaudeBot di Anthropic, Google-Extended o uno dei tanti scraper meno noti — segue il link e ne aspira il contenuto.
Il contenuto avvelenato consiste in snippet di codice apparentemente plausibile, ma con bug logici sottili: variabili scambiate, condizioni invertite, gestione degli errori volutamente sbagliata, pattern di sicurezza scorretti.
Il modello, in fase di training, ingerisce questi esempi insieme a tutto il resto e impara — statisticamente — a riprodurre quegli stessi errori quando gli si chiederà di generare codice analogo.

L’aspetto più insidioso è che gli errori non sono macroscopici (un programmatore se ne accorgerebbe immediatamente). Sono sottili: ad esempio un controllo di autenticazione che funziona nel 99% dei casi ma cede in una particolare condizione al limite, oppure un algoritmo crittografico implementato con un parametro errato che lo rende vulnerabile. Il tipo di errore che, in produzione, può costare molto caro.

Non è la prima volta: il caso Nightshade

Poison Fountain non è il primo tentativo organizzato di reagire allo scraping aggressivo dei modelli AI. Già nel gennaio 2024 era nato Nightshade, un software sviluppato all’Università di Chicago dal team di Ben Zhao, pensato per “avvelenare” le immagini caricate online dagli artisti. L’idea era simile: introdurre in modo invisibile (ai nostri occhi) delle perturbazioni nei file immagine, in modo che i modelli text-to-image che le ingerissero come training data finissero per associare concetti completamente sbagliati (un cane diventava un gatto, un’auto diventava una mucca, e così via).

La differenza fondamentale è il target e chi sta agendo. Nightshade nasceva dalla comunità degli artisti, preoccupata per la sottrazione non autorizzata delle proprie opere. Poison Fountain nasce dall’interno dell’industria AI stessa, e ha come bersaglio non un singolo dominio (le immagini) ma il cuore stesso degli LLM: il codice e il testo.

Model collapse: l’IA si sta già avvelenando da sola

C’è un aspetto della storia che andrebbe sottolineato di più: è probabile che, anche senza Poison Fountain, i modelli AI si stiano già avvelenando da soli. È il fenomeno del cosiddetto model collapse.

Il meccanismo è semplice e perverso: i modelli vengono addestrati su dati raccolti dal web; ma sempre più contenuti del web vengono oggi generati dai modelli stessi (articoli automatici, recensioni fake, post sui social, commenti, codice generato e poi pubblicato senza revisione). Il risultato è un loop in cui l’IA si nutre del proprio “vomito”, amplificando errori e bias di generazione in generazione. Un paper recente, pubblicato a fine 2025, prevede che il “serpente AI” potrebbe iniziare a mangiarsi la coda in modo critico già intorno al 2035.

Non a caso, le grandi aziende AI stanno facendo a gara per stringere accordi di licenza con fonti “pulite” e curate — Wikipedia in primis, ma anche editori giornalistici e database scientifici — per evitare di pescare solo dal pantano del web pubblico. Poison Fountain, in un certo senso, accelera intenzionalmente un processo che sta già avvenendo per inerzia.

Il dilemma etico (e giuridico)

A questo punto è inevitabile fare qualche riflessione, perché la questione non è banale.

Da un lato c’è chi sostiene — e Poison Fountain ne è la voce più estrema — che lo scraping massivo dei contenuti web da parte delle aziende AI sia un’appropriazione indebita su scala industriale: contenuti prodotti con fatica da editori, programmatori, artisti, blogger, finiscono dentro modelli commerciali da miliardi di dollari, senza alcuna remunerazione e spesso ignorando il file robots.txt. In quest’ottica, “avvelenare” il pozzo è una forma di legittima difesa contro un’attività predatoria.

Dall’altro lato, va detto chiaramente che iniettare deliberatamente codice difettoso nel pubblico dominio è eticamente discutibile. Quel codice potrebbe finire copiato e incollato non solo in un modello AI, ma anche da uno sviluppatore umano in cerca di soluzioni rapide. Una vulnerabilità “piantata” come trappola anti-AI può facilmente trasformarsi in una vulnerabilità reale in produzione. Il danno collaterale, in altre parole, è tutt’altro che teorico.

C’è poi il tema giuridico, ancora largamente inesplorato: in molti ordinamenti, il sabotaggio deliberato di sistemi informatici altrui — anche se “passivo”, anche se ottenuto inducendo qualcuno a leggere contenuti volontariamente pubblicati — potrebbe configurare reati specifici. Vedremo come si muoveranno le procure nei prossimi mesi.

Cosa cambia per chi si occupa di sicurezza informatica

Per chi, come me, si occupa professionalmente di sicurezza informatica e analisi forense, l’episodio Poison Fountain rappresenta un campanello d’allarme su un piano completamente nuovo. Tre considerazioni:

1. La supply chain dei dati è la nuova superficie d’attacco. Fino a ieri, parlando di software supply chain, intendevamo librerie, dipendenze, repository npm o PyPI compromessi. Oggi dobbiamo includere anche i dataset di training. Un SBOM (Software Bill of Materials) tradizionale non basta più: serve un equivalente per i dati.

2. Il codice generato da AI va trattato come “non fidato”. Già oggi diversi studi mostrano che gli sviluppatori si fidano poco del codice prodotto dagli LLM — ma poi spesso lo committano lo stesso, senza una revisione adeguata. Se il modello è stato avvelenato, quel codice contiene bug pianificati. La code review, l’analisi statica e il fuzzing diventano obbligatori, non opzionali.

3. Le aziende dovranno investire in “data hygiene”. Per i fornitori di modelli, identificare e filtrare i contenuti avvelenati prima del training diventerà una sfida ingegneristica enorme. Le tecniche di anomaly detection, watermarking crittografico dei dataset, validazione delle fonti, sono tutti settori in cui aspettarsi forti investimenti nei prossimi anni.

Il punto della situazione

Poison Fountain è probabilmente solo l’inizio. Indipendentemente dal fatto che il progetto specifico abbia successo (e la verità è che, da solo, difficilmente sposterà gli equilibri), la scoperta che bastano un pugno di documenti per compromettere modelli da decine di miliardi di parametri rappresenta una rivoluzione concettuale per chiunque si occupi di sicurezza dell’AI.

Quello che mi colpisce di più, però, non è l’aspetto tecnico. È il fatto che cinque persone che lavorano dentro l’industria AI abbiano deciso di sabotarla. Non per vendetta personale, non per soldi, non per vandalismo: per quello che sostengono di vedere ogni giorno nei progetti dei clienti delle loro aziende. È un sintomo di un disagio profondo, e merita di essere preso sul serio anche da chi — come me — non condivide affatto i toni “bellici” del manifesto.

Geoffrey Hinton, “padrino” del deep learning e premio Turing, ha lasciato Google nel 2023 proprio per poter parlare liberamente dei rischi dell’AI. Quando i tuoi stessi creatori cominciano a remare contro, forse vale la pena fermarsi un attimo e ragionare su che tipo di intelligenza artificiale vogliamo davvero costruire — e per chi.

Per approfondire, consiglio di leggere lo studio di Anthropic sul data poisoning e il paper completo su arXiv.

Ultime pubblicazioni

Quando gli ingegneri dell’AI sabotano i propri modelli

Malware nascosto in un finto JPG: analisi forense di un attacco moderno

Kode Dot: un hacking tool successore del Flipper Zero

SIM Swapping: la guida completa e come difendersi