il bot fight ma per davvero

EPPUR SI MUOVE!!!

non è il titolo di uno zombie-movie con protagonista Galileo Galilei, ma è un modo umoristico di presentare dei contenuti dopo QUATTRO anni di stasi.

Non ti tedierò con i dettagli caro lettore, ma nel frattempo ho fatto molte cose. (però non avevo voglia di bloggare)

Sicuramente una delle cose su cui ho messo la testa nei miei progetti è la "gestione dei bot".

non proprio così letterali

Ecco, ti sei dato alla fantascienza

...mi è sempre piaciuta... ma non parliamo di questo.

I "Bot" sono tutti i sistemi di scansione e analisi, che leggono i contenuti dei siti.

Alcuni sono ok e anzi sono necessari ai motori di ricerca (per esempio il cosidetto "Crawler" di Google e quello di Bing), altri sono più fastidiosi (per esempio i crawler dei sistemi di analisi dei backlink) e altri sono completamente rompicoglioni.

Parliamo dell'ultima categoria, i bot rompicoglioni.

Questa categoria analizza costantemente i siti web alla ricerca di vulnerabilità di sicurezza, per potere prendere il controllo di un sito web.

Le finalità sono le più disparate:

  • possono voler inserire un backlink a qualche sito strano all'insaputa dei gestori
  • possono voler inserire una sezione di finto ecommerce per vendere prodotti con affiliazione.
  • possono mettere pagine che vendono prodotti di marca contraffatti.
  • possono mettere contenuti adulti o di gambling non regolarizzati.
  • possono mettere pagine per vendere prodotti per far allungare l'uccello o renderlo duro come il titanio appena sfornato. Sapete di cosa parlo anche se non cito i marchi.
  • Possono voler rubare i dati presenti sul database del sito.
  • Possono voler bloccare e criptare i contenuti per chiedere un riscatto.

Insomma nulla di buono (salvo non abbiate una connotazione di masochismo estremo, allora questo articolo non fa per voi).

Mettere in sicurezza il sito non è lo scopo di questo articolo e non è nemmeno la mia skill: se avete problemi di fughe di dati, (passate, presenti o possibili) vi consiglio i miei amici di Alchimie Digitali che fanno questo da svariati anni.

Quello che vorrei fare con questo post (se ci riusciamo) è di darvi un'arma in più per poter proteggere il vostro sito di cui vedremo le implicazioni SEO.

L'arma in questione è il servizio di Cloudflare.

CLOUDFLARE per prevenire i bot

Cloudflare è un network mondiale di server, che a dir loro rendono "più privato, più sicuro, più affidabile e più veloce il web".

La cosa più interessante è che ha una tariffa di ingresso completamente gratuita.

Dobbiamo spiegare un attimo come funziona per vederne i benefici.

E lo facciamo con questa immagine.

come funziona cloudflare

Un sito normale viene visto in egual misura da utenti normali, bot e crawlers.

Cloudflare mette in piedi uno "scudo" (chiamato "Edge") che ammette l'ingresso degli utenti umani e dei bot consentiti, mentre cerca di escludere i rompicoglioni.

Il metodo con cui questo processo viene fatto è abbastanza sofisticato, se volete approfondire, trovate una spiegazione tecnica a questo link.

Per le persone pragmatiche, la funzionalità può essere attivata con un semplice click di un pulsante che attiva la modalità "COMBATTIMENTO ANTI BOT". (O "bot fight mode").

probabilmente Sarah Connor avrebbe apprezzato.

Questo è figo ma causa dei problemi SEO

Per via delle modalità sopra descritte, il sistema anti bot potrebbe avere due conseguenze:

CASO A: I crawler dei motori di ricerca vengono rimbalzati

Questo è un caso ipotetico che per ora non ho visto capitare: però potrebbe darsi che il crawler di Google venga considerato un bot malevolo e venga rimbalzato.

Un utente umano potrebbe dover risolvere un captcha per accedere al sito, ma un crawler non ha questa capacità.

Quindi viene a mancare l'accesso e il sito viene considerato in stato 403/404 dopo qualche settimana. E ovviamente nuove pagine pubblicate non vengono scoperte, indicizzate e caricate.

Facendo i debiti scongiuri, questo non mi è ancora successo: la ragione è che i motori di ricerca si fanno riconoscere e collaborano con cloudflare, per cui la possibilità che vengano bloccati è abbastanza remota.

CASO B: la velocità di caricamento del sito rallenta

Questo invece mi è successo di frequente e la ragione è semplice: il controllo dei bot prende tempo.

Anche se un bot è riconosciuto come "utile", una serie di controlli avvengono sempre ed essendo Cloudflare in una posizione a metà strada tra il sito e i motori di ricerca, i tempi di caricamento aumentano come se il sito fosse imballato di brutto.

In uno scenario dove il tempo di caricamento è considerato super-importante (sopratutto da Google, che poi trasmette l'ansia agli utenti), un ritardo di mezzo secondo potrebbe incasinare le misurazioni di un progetto.

Possiamo avere capra e cavoli ?

In pratica, possiamo ottenere una soglia di protezione, senza sacrificare la velocità di caricamento ?

La risposta è SI, tramite un calderone di regole personalizzate chiamato WAF (Web Application Firewall).

Però richiede un po' di tempo parlarne e lo vedremo nella prossima puntata :)

AGGIORNAMENTO

La guida completa è disponibile!

copyright della cover

Photo by Mark Chan on Unsplash