Progetti Open-Source alle Prese con i Crawler AI che Sovraccaricano i Loro Sistemi

Image by Matt Wildbore, from Unsplash

Progetti Open-Source alle Prese con i Crawler AI che Sovraccaricano i Loro Sistemi

Tempo di lettura: 3 Min.

I web crawler alimentati da intelligenza artificiale si sono affermati come una grande minaccia per le comunità di software open-source, causando diffusi disagi alla loro infrastruttura.

Hai fretta? Ecco i fatti principali:

  • I web crawler alimentati da intelligenza artificiale stanno travolgendo le comunità di software open-source, causando gravi disturbi.
  • Alcuni progetti open-source riportano che fino al 97% del traffico proviene da bot AI.
  • I progetti stanno implementando liste di blocco specifiche per l’IA, ma i bot si adattano rapidamente, continuando a causare interruzioni.

Popolari repository affrontano una tensione delle risorse a causa di questi bot, che sono stati distribuiti da aziende di Intelligenza Artificiale per raccogliere dati di addestramento per modelli linguistici, rallentando così lo sviluppo, come riportato per la prima volta da ArsTechnica.

Drew DeVault di SourceHut ha condiviso le sue osservazioni riguardo questi crawler attraverso un post sul blog in cui ha descritto i loro effetti distruttivi. Questi bot AI hanno eluso le istruzioni del file robots.txt che direzionano i crawler a evitare certe pagine, creando così importanti interruzioni sulla piattaforma SourceHut.

I crawler hanno attaccato specifici punti di accesso come i log git e i commit attraverso indirizzi IP casuali per mascherare la loro attività come traffico utente normale. I bot hanno reso impossibile il blocco efficace attraverso i loro metodi che hanno creato ritardi prolungati nei compiti del progetto e interruzioni del servizio utente.

L’infrastruttura di GitLab di KDE ha subito un’interruzione temporanea a causa di bot provenienti dalla gamma di IP di Alibaba. I progetti open-source come GNOME e altri hanno subito attacchi identici, quindi hanno implementato Anubis come un sistema che richiede ai bot di completare sfide computazionali prima di concedere l’accesso al sito, come riportato da The LibreNews.

L'”opzione nucleare” introdotta da Anubis ha comportato tempi di attesa aumentati per gli utenti reali che hanno riscontrato una significativa crescita del traffico nelle richieste di merge di GNOME, come riportato da LibreNews.

Ben, che lavora come amministratore di sistema di KDE, ha osservato che i bot mascheravano la loro identità utilizzando gli user agent di Microsoft Edge per imitare gli utenti reali ed evitare la rilevazione dal traffico legittimo. Il team di Fedora ha risposto alla perturbazione interrompendo tutto il traffico web brasiliano per evitare ulteriori problemi, afferma LibreNews.

Il rapporto di LibreNews indica che molti progetti open-source ora sperimentano il 97% del loro traffico web proveniente dai crawler delle aziende di AI. I progetti open-source affrontano sfide crescenti perché le spese per la larghezza di banda continuano a crescere, mentre gli amministratori di sistema affrontano una pressione crescente per mantenere un funzionamento fluido.

I progetti open-source attualmente utilizzano blocklist e filtri specifici per gli user agent AI come soluzioni di emergenza, tuttavia le continue adattamenti dei bot rendono questi metodi inefficaci.

Il crescente problema dei crawler AI rivela come i progetti open-source diventino esposti alle minacce perché dipendono da infrastrutture pubbliche e supporto volontario.

I benefici dei dati aperti per le aziende di intelligenza artificiale sono indiscutibili, tuttavia le loro pratiche estreme di scraping dei dati finiscono per danneggiare i sistemi che consentono l’accessibilità a un internet aperto.

Hai apprezzato questo articolo?
Valutalo!
L'ho odiato Non mi è piaciuto Non male Molto bene! L'ho amato!

Siamo felici che ti sia piaciuto il nostro lavoro!

In qualità di stimato lettore, ti dispiacerebbe lasciare una recensione su Trustpilot? Richiede poco tempo e significa tantissimo per noi. Grazie mille!

Valutaci su Trustpilot
0 Votato da 0 utenti
Titolo
Commento
Grazie per la tua opinione!
Loader
Please wait 5 minutes before posting another comment.
Comment sent for approval.

Lascia un commento

Loader
Loader Mostra di più...