Semalt fornisce i motivi principali per cui Googlebot non esegue la scansione di ogni pagina su alcuni siti

Abbiamo ricevuto clienti che si sono lamentati del fatto che alcuni dei loro siti non vengono sottoposti a scansione da Googlebot. In qualità di esperti SEO, è nostro compito trovare il problema e risolverlo in modo che i nostri clienti possano essere felici e mantenere il loro sito in ottime condizioni.
John Mueller di Google spiega alcuni fattori che influenzano il modo in cui le pagine di qualsiasi sito vengono sottoposte a scansione. Naturalmente, questo non era specifico, ma ci indica la giusta direzione. In quel post, John evidenzia anche il motivo per cui alcune pagine di un sito non vengono sottoposte a scansione.
La domanda che ha portato a questa risposta riguardava il motivo per cui Google ha eseguito la scansione dei siti Web a un ritmo relativamente lento, che è insufficiente per gestire l'enorme numero di siti Web di oggi.
Comprensione del budget di scansione di Google
Questa è la prima area su cui scegliamo di concentrarci poiché spiega molto sulla frequenza con cui Google esegue la scansione di un sito web. Googlebot (il nome del web crawler di Google) passa attraverso le pagine web e le tiene indicizzate in modo che possano posizionarsi nella SERP. Tuttavia, il grande volume di siti Web diventa un problema, motivo per cui Google ha ideato una strategia in cui indicizza solo pagine Web di alta qualità. Pensalo come una forma di filtro. Piuttosto che spendere tutte quelle risorse su pagine che molto probabilmente sono irrilevanti per l'utente, Google si concentra solo su pagine web di alta qualità.
Il budget di scansione di un sito è la quantità di risorse che Google dedica alla scansione di quel sito. È anche importante notare che non tutto ciò che viene sottoposto a scansione viene indicizzato. Le pagine Web vengono indicizzate solo dopo essere state sottoposte a scansione e ritenute preziose.
Una volta esaurito il budget di scansione, Google interrompe la scansione delle tue pagine web.
Impostazione del budget di scansione
Un budget di scansione dei siti Web è determinato da quattro fattori principali:
- Dimensione del sito: I siti Web più grandi hanno budget di scansione più grandi.
- La configurazione del server: le prestazioni e il tempo di caricamento del tuo sito possono avere un effetto su quanto budget di scansione è assegnato al tuo sito. Come abbiamo detto, i siti migliori ottengono budget di scansione migliori, quindi quando il tuo sito funziona in modo eccellente, ottiene un budget di scansione più elevato.
- Frequenza degli aggiornamenti: Aggiornamenti regolari significano un flusso regolare di nuovi contenuti. Google darà la priorità ai siti Web che ricevono aggiornamenti regolari e fornirà loro un budget di scansione più significativo.
- Link: anche la tua struttura di collegamento interna e i collegamenti in entrata contribuiscono a quanto budget di scansione ottiene il tuo sito web.
È facile capire perché saresti così preoccupato quando alcuni dei tuoi contenuti non vengono sottoposti a scansione come proprietario di un sito web. Ciò riduce le tue possibilità di posizionamento, soprattutto quando i tuoi contenuti più preziosi vengono tralasciati.
Come risolvere i problemi di scansione
Risolvere i problemi con i meta tag o il file robots.txt
I problemi che rientrano in questa categoria sono generalmente facili da rilevare e risolvere. A volte, l'intero sito web o pagine specifiche del tuo sito web potrebbero non essere viste da Google perché Googlebot non è autorizzato a inserirle.
Esistono numerosi comandi bot che impediscono la scansione della pagina e questo può essere risolto controllando i meta tag e il file robots.txt. Avere i parametri giusti e utilizzarli adeguatamente ti aiuterà, infatti, a risparmiare il budget di scansione e a indirizzare Googlebot nella giusta direzione.
È anche possibile avere collegamenti no-follow. In questo caso, il crawler indicizza una pagina ma non riesce a seguire il collegamento. Questo non va bene per il tuo sito poiché Googlebot utilizza questi link interni per trovare nuove pagine. Questo ci porta al punto successivo.
Collegamenti interni interrotti
Avere collegamenti interrotti non è mai una buona esperienza sia per gli utenti che per i crawler. Per ogni pagina che viene indicizzata, viene eliminata una parte del budget di scansione del sito. Sapendo questo, capiamo che quando ci sono troppi collegamenti interrotti, il bot sprecherà tutto il tuo budget di scansione per indicizzarli, ma non arriverà alle tue pagine pertinenti e di qualità.
La correzione dei link interrotti aiuta a rendere i tuoi contenuti di qualità più visibili a Googlebot.
I collegamenti interrotti interni potrebbero essere il risultato di errori di battitura URL (dove c'è un errore di battitura nell'indirizzo URL del collegamento ipertestuale), URL obsoleti o pagine con accesso negato.
Problema relativo al server
Il tuo server può anche essere il motivo per cui Google non trova determinate pagine. Avere una quantità elevata di errori 5xx sul tuo sito web può essere un segnale che c'è qualcosa che non va nel tuo server. Per risolvere questo problema, riconfiguriamo le aree in cui sono presenti errori e correggiamo i bug.
A volte, potrebbe essere che il tuo server sia sovraccarico. In questo caso, smette di rispondere alle richieste dell'utente e del bot. Quando ciò accade, i tuoi spettatori, così come i bot, non sono in grado di accedere a quella pagina.
In situazioni estreme, potremmo osservare un'errata configurazione del server web. Qui, il sito è visibile agli utenti umani, ma continua a dare un messaggio di errore ai crawler del sito. Questo problema è piuttosto complicato in quanto può essere difficile da notare. In questo caso, la pagina web è inaccessibile a Googlebot, il che rende impossibile la scansione e l'indicizzazione dei bot.
Problemi con l'XML della Sitemap
La mappa del sito influisce su un'ampia gamma di elementi del tuo sito web. È essenziale mantenere pertinenti gli URL nella mappa del sito. Dovrebbero essere aggiornati e corretti. Questo è importante perché quando il tuo budget di scansione è insufficiente, la tua mappa del sito indirizza i bot del crawler ai siti più pertinenti. In questo modo, le tue pagine più importanti vengono comunque indicizzate.
Errori con l'architettura web
Questo è uno dei problemi più difficili da risolvere. I problemi che rientrano in questa categoria possono bloccare o disorientare i crawler nel tuo sito web. Potrebbe presentarsi sotto forma di problemi con il collegamento interno. Oppure potrebbe essere il caso di reindirizzamenti errati. In questo caso, utenti e bot vengono reindirizzati a pagine meno rilevanti. Infine, abbiamo contenuti duplicati. Sfortunatamente, i contenuti duplicati sono uno dei problemi SEO più comuni. Questo è anche uno dei motivi principali per cui esaurisci il budget di scansione e diventa difficile per Google eseguire la scansione di alcune delle tue pagine.
Conclusione
Google non è in grado di trovare i tuoi contenuti non solo a causa di problemi relativi ai contenuti o per l'ottimizzazione per le parole chiave sbagliate. Anche i contenuti ottimizzati possono rimanere invisibili a Google se hanno problemi di crawlability.
Siamo qui per capire cosa c'è che non va e per redigere un piano su come possiamo risolvere il problema. Contattaci oggi, e Semalt può aiutarti a riportare i tuoi contenuti sul radar.