Anthropic ha distrutto milioni di libri cartacei per addestrare Claude
Da alcuni documenti desecretati emergono dettagli sul Project Panama: libri acquistati, smembrati e digitalizzati per allenare l'intelligenza artificiale. Un metodo per aggirare le leggi sul copyright
👉 fonte: Wired
"Scansionare in modo distruttivo tutti i libri del mondo": suonano sinistre le parole del piano Project Panama. Concepito nel 2024 per l'addestramento di Claude, partiva da un presupposto: dare in pasto tonnellate di libri (fisici, in carta e inchiostro) per insegnare ai bot "come scrivere bene" invece di imitare il "linguaggio di bassa qualità di internet".
Ognuno di essi era stato scansionato pagina per pagina e poi dato in pasto al LLM di Anthropic per affinare le sue capacità di scrittura. Nello specifico si legge che il processo utilizzava una "macchina da taglio idraulica" per "tagliare con precisione" i milioni di libri che riceveva dai rivenditori di libri usati, per poi scansionarne le pagine "con scanner ad alta velocità, alta qualità e di livello professionale". Successivamente, un'azienda di riciclaggio veniva incaricata di ritirare i volumi smembrati, perché, dopotutto, non si voleva sprecare nulla.
Un piano ingegnoso e una catena di montaggio al contrario: distrugge oggetti per produrre informazioni. Anche per questo, Project Panama doveva rimanere un segreto: una pratica distruttiva che non concorreva alla buona reputazione della società fondata dai fratelli Amodei.
A portare alla luce il progetto segreto è stato il Washington Post, grazie a una serie di documenti emersi nell'ambito di una class action di editori contro Anthropic, accusata di aver violato il diritto d'autore delle opere usate per addestrare i suoi modelli. La vicenda si era chiusa lo scorso settembre con un patteggiamento da circa 1,5 miliardi di dollari, ma a gennaio un giudice ha reso pubblici alcuni degli atti del caso, e con loro i dettagli di un'operazione che l'azienda avrebbe preferito tenere nell'ombra.
Dalle carte del dibattimento, l'azienda puntò quasi esclusivamente sul mercato dell'usato per contenere i costi e, probabilmente, tenere basso il profilo. Partì da The Strand, storica libreria newyorchese, per poi affidarsi soprattutto a due rivenditori specializzati: l'americano Better World Books e il britannico World of Books. Quanti volumi siano stati acquistati in totale non è dato saperlo con certezza, ma il Washington Post stima una cifra compresa tra cinquecentomila e due milioni di volumi, acquisiti nell'arco di circa sei mesi per una spesa nell'ordine delle decine di milioni di dollari.
La storia di Project Panama evoca un'abitudine piuttosto diffusa nel panorama dell'intelligenza artificiale. È risaputo che la maggior parte delle grandi aziende del settore ha usato testi protetti da copyright per addestrare i propri modelli, attingendo di solito a siti illegali, "biblioteche ombra" che offrono accesso a migliaia di opere digitalizzate. OpenAI e Meta non hanno fatto mistero di averne approfittato.
Prima di passare ai libri fisici è emerso però che anche Anthropic ha utilizzato il metodo del pirataggio. Dalle carte è emerso che nel 2021 il co-fondatore di Anthropic, Ben Mann, si assunse l'incarico di scaricare personalmente milioni di libri da LibGen. L'anno successivo, Mann elogiò un nuovo sito web chiamato Pirate Library Mirror, che dichiarava apertamente di violare "deliberatamente" la legge sul copyright nella maggior parte dei paesi.
Il cambio di metodologia (dallo scaricare libri sul web su siti illegali al comprarli di seconda mano) secondo l'accusa è stato un modo per aggirare le leggi sul copyright sfruttando un concetto legale noto come dottrina della prima vendita, che consente agli acquirenti di fare ciò che vogliono con il loro acquisto senza che il detentore del copyright interferisca. Ma mentre la distruzione dei libri usati da parte di Anthropic è stata ritenuta legale, l'uso di libri piratati non lo è stato, portando al risarcimento di 1,5 miliardi di dollari.

Nessun commento:
Posta un commento