
Image by Oberon Copeland, from Unsplash
I Bot AI stanno Saturando i Server di Wikipedia
La Wikimedia Foundation ha lanciato un allarme a causa della crescente pressione sui suoi server dovuta ai bot automatizzati che raschiano i dati per addestrare i modelli di intelligenza artificiale.
In fretta? Ecco i fatti essenziali:
- I bot IA stanno scandagliando i contenuti di Wikimedia a livelli record.
- I bot hanno causato un aumento del 50% nell’uso della larghezza di banda multimediale.
- Il 65% del traffico ad alto costo proviene ora dai crawler.
La Fondazione ha riportato in un recente post che il traffico generato dalle macchine continua a crescere a un ritmo senza precedenti, mentre le persone costituiscono solo una piccola parte di questo traffico.
“Da gennaio 2024, abbiamo visto la larghezza di banda utilizzata per il download di contenuti multimediali crescere del 50%”, afferma il post.
“Questo aumento non proviene da lettori umani, ma in gran parte da programmi automatizzati che raschiano il catalogo di immagini di Wikimedia Commons con licenza aperta per alimentare le immagini ai modelli di intelligenza artificiale”, ha aggiunto il post.
I bot noti come crawler rubano grandi quantità di dati dai progetti di Wikimedia, incluso Wikipedia e Wikimedia Commons, senza dare il giusto credito o utilizzare strumenti di accesso ufficiali. Il processo rende difficile per i nuovi utenti scoprire Wikimedia e mette eccessiva pressione sui loro sistemi tecnici.
Ad esempio, il post evidenzia che la pagina Wikipedia di Jimmy Carter ha ricevuto più di 2,8 milioni di visualizzazioni nel giorno della sua morte avvenuta nel dicembre 2024. Il video del dibattito del 1980 ha causato un notevole aumento del traffico sul sito. Anche un video del suo dibattito del 1980 ha fatto impennare il traffico. Wikimedia ha gestito la situazione – ma a stento. Il vero problema, secondo gli ingegneri, è il flusso continuo di traffico bot.
“Il 65% del nostro traffico più costoso proviene dai bot”, ha scritto la Fondazione. I bot “leggono in blocco” i contenuti, soprattutto le pagine meno popolari, attivando richieste costose ai data center centrali di Wikimedia.
Sebbene i contenuti di Wikimedia siano gratuiti da utilizzare, i suoi server non lo sono. “Il nostro contenuto è gratuito, la nostra infrastruttura no”, ha detto la Fondazione. Il team continua a sviluppare metodi per promuovere “l’uso responsabile dell’infrastruttura” incoraggiando gli sviluppatori ad utilizzare l’API invece di raschiare l’intero sito.
Il problema riguarda Wikimedia così come numerosi altri siti web e editori. Ma per la più grande piattaforma mondiale di conoscenza aperta, sta minacciando la stabilità dei servizi su cui milioni di persone si affidano.
Lascia un commento
Annulla