I robot sono macchine appartenenti a entità di ricerca su Internet, comeGoogle,YahoooBing. Questi robot accedono alle pagine web per cercare informazioni al suo interno e aggiungere queste informazioni nei motori di ricerca, che di solito conosciamo come indicizzazione o posizionamento di un sito web su Internet.
Se si dispone di un file ben configurato puoi far scegliere questi robot le informazioni giuste più rapidamente, ottenendo una migliore navigabilità web, un migliore posizionamento nei motori di ricerca e, inoltre, possono anche ridurre alcuni inconvenienti.
Questi robot sono anche chiamati "ragni", "crawler", ragni, "bot" o indicizzatori.
1.- Che cosa è il file robots.txt e per cosa serve
Il file robots.txt è un file di testo semplice creato dall'utente per controllare l'accesso ai robot all'hosting. Questo archivio stabilisce raccomandazioni che i robot di ricerca devono rispettare. Cioè, gli dici che è ciò che non vuoi indicizzare. In questo modo, selezioneranno meglio le informazioni del tuo sito web e miglioreranno il posizionamento.
Il file robots.txt deve essere caricato alla radice dell'alloggio per dire ai robot quali pagine o directory non sei interessato a indicizzare. Ci deve essere solo un file robots.txt su ogni sito web.
Impostare questo file è importante, in quanto porta vantaggi, ad esempio:
Aiuta a rendere un'indicizzazione più fluida di contenuti web importanti, migliorando il posizionamento di Internet. Può anche accelerare il monitoraggio dei robot, migliorando l'uso del web.
Impedisce l'accesso a determinati robot, poiché alcuni di loro forniscono problemi sul web solo perché non sono motori di ricerca, oltre a limitare le informazioni che si desidera visualizzare, in modo che i dati personali privati non possano essere trovati su Google.
Riducono il sovraccarico del server, perché il tempo di accesso di alcuni robot può essere controllato. Alcuni di questi robot sono dedicati a fare un elevato numero di richieste che possono saturare il server e più rallentare l'utente effettivo per la navigazione più rallentata sulla pagina.
2.- Come creare un file robots.txt
Il file robot viene creato utilizzando due comandi.
User-Agente: (Nome ragno)
Disperdere: (Row)
Il nome Spider è il nome del robot dei motori di ricerca. Se si desidera indicare che i divieti influenzano tutti i motori di ricerca, dobbiamo mettere "*" invece del nome del motore di ricerca.
Il "Path", è il nome del file o della cartella che non si desidera indicizzare. Per vietare l'indicizzazione di tutti i documenti in una directory, il percorso deve includere il carattere "/" alla fine del nome della directory. In altre parole, il formato sarà:
Dispermettere: /directory/
Esempi:
Dispermettere: / vieta l'ingresso in tutti gli alloggi.
Disallow: /forum/bids inserimento nella directory del forum.
Disallow: consente l'ingresso in tutti gli alloggi.
3.- Come inserire commenti in un file
Se si desidera inserire commenti nel file, è necessario avviare la riga con il segno "#". Ciò significa che questa linea è un commento e non dovrebbe essere presa in considerazione.
Esempio:
#Dejamos accesso completo a Webcrawler, poiché Disallow è vuoto.
Utente-agente: webcrawler
Disperdere:
4.- Che cos'è il "ritardo di crawl-delay"
Se le statistiche vengono controllate, si può vedere che a volte alcuni robot che esaminano il web fanno una moltitudine di richieste al server fino a quando non viene sovraccarico. Per evitare questo sovraccarico, la direttiva "Crawl-delay", che indica il tempo tra ogni accesso robot.
Esempio:
Utente-agente
Ritardo di striscia: 60
Ciò indica che i robot devono attendere 60 secondi tra ogni accesso. Lo svantaggio di questa direttiva è che non influisce su tutti i robot, alcuni dei quali se colpisce, sono:MSNBot,SlurpioGooglebot.
5.- Altre direttive per controllare il tempo di accesso.
Per monitorare il tempo in cui le pagine dell'indice dei robot, alcune di queste direttive possono essere utilizzate:
Consentire motori di ricerca dalle 2 alle 7:45 (le ore sono sempre in Greenwitch)
Tempo di visita:0200-0745
# Un documento ogni 30 minuti
Richiesta:1/30m
# Combinato: 1 doc ogni 10 minuti e tra le 13 e le 17:00.e
Richiesta:1/10m 1300-1659
È importante controllare il file prima di caricarlo sull'hosting, come se contenga errori, robot indesiderati possono indicizzare il web in modo errato. Potrebbe anche accadere che nessuno dei robot che si desidera indicizzare il web lo faccia correttamente.
6.- Come funziona un file robots.txt deve rimanere
Per consentire l'accesso all'alloggio per tutti i robot:
Utente-agente
Disperdere:
Ritardo di striscia: 60
Al fine di non consentire l'accesso ad eventuali robot nell'alloggio:
Utente-agente
Disperdere: /
Ritardo di striscia: 60
Per non consentire ai robot l'accesso a una particolare pagina:
Utente-agente
Disperdere: / file.html
Tasso di richiesta: 1/10m 1300-1659
Per limitare l'accesso a directory specifiche:
Questa impostazione è consigliata, in quanto vieta a tutti i robot di accedere alle cartelle che hai sottolineato e limita anche il tempo di accesso dei robot per evitare saturazioni sul server.
Utente-agente
Dispermettere: / Cartella1/
Dispermettere: / Cartella2/
Ritardo di striscia: 60
7.- Come configurare un file robots.txt in un particolare CMS
Molti content manager come Joomla, Drupal, WordPress, ecc., rischiano di avere già i propri robots.txt installato insieme all'app. Tutto ciò che deve essere fatto è aggiungere la direttiva "crawl-delay" in modo da non sovraccaricare la pagina e indicare anche le directory o gli articoli che devono essere indicizzati.
Esempi di robots.txt:
Per un Wordpress:
Utente-agente
Crawl-Delay: 60
Disperdere: /wp-content/
Disperdere: /wp-icludes
Disperdere: /trackback/
Disperdere: /wp-admin/
Disperdere: /files/
Dispermettere: /categoria/
Dispermettere: /tag/*
Dispermettere: /tag/
Disperdere: /wp-*
Disperdere: /login/
Dispermettere: /*.js$
Dispermettere: /*.inc$
Disperdere: /*.cs$
Dispermettere: /*.php$
Utente-agente:
Consentire:/
Utente-agente: Googlebot-Image
Disperdere: /
Utente-agente: Jennifer
Disperdere: /
Utente-agente: duggmirror
Disperdere: /
Per un Drupal:
Utente-agente
Ritardo di striscia: 60
# directory
Disallow: /include/
Disperdere: /misc/
Disperdere: /moduli/
Disallow: /profili/
Disperdere: /scripts/
Dispermettere: / Siti/
Disperdere: /temi/
# File
Disperdere: /changelog.txt
Disperdere: /cron.php
Disallow: /install.mysql.txt
Disallow: /install.pgsql.txt
Disperdere: /install.php
Disallow: /install.txt
Disperdere: /license.txt
Disperdere: /maintaners.txt
Disperdere: /update.php
Disallow: /upgrade.txt
Disperdere: /xmlrpc.php
# Percorsi (URL puliti)
Disperdere: /admin/
Disperdere: /commento/riplicare
Disallow: /contatto/
Disallow: /logout/
Disallow: /nodo/aggiungere/
Dispermettere: /search/
Disallow: /utente/registratore/
Disallow: /utente/password
Disallow: /utente/login
# Percorsi (URL non puliti)
Disperdere: /?q=admin
Disperdere: /?q=commento/replicare
Disperdere: /?
Disperdere: /?
Disperdere: /?
Disperdere: /?
Disperdere: /?
Disperdere: /?
Disperdere: /?
Disperdere: /?
# Extra su drupal.org
# nessun accesso per percorsi di selezione della tabella o qualsiasi percorso che hanno parametri
Dispermettere: /*
Disallow: /*&sort
Dispermettere: /*solrsort*
Dispermettere: /*&solrsort*
# nessun accesso ai profili spesso mirati dagli spammer.
Dispermettere: /profilo/interesse/*
Disallow: /profilo/industrie/*
Disallow: /profilo/aziende/*
# Disperdere le pagine aggregatore fasulli
Dispermettere: /aggregatore
# Disperdere la ricerca del progetto
Disallow: /progetto/emissioni/ricerca/*
Dispermettere: /progetto/progetti/*
# Disperdere l'esportazione del libro
Disallow: /book/export/*
# Disperdere i test di tubi
Disallow: /pift/retest/*
# Disallow project subscription
Disallow: /progetto/emissioni/email di iscrizione/*
Per un Joomla:
Utente-agente
Ritardo di striscia: 60
Disallow: /amministratore
Disperdere: /cache/
Disperdere: /componenti/
Disperdere: /immagini/
Disallow: /include/
Disallow: /installazione/
Dispermettere: /lingua/
Dispermettere: /librerie/
Dispermettere: /media/
Disperdere: /moduli/
Disperdere: /plugins/
Dispermettere: /templates/
Disallow: /tmp/
Disallow: /xmlrpc/
Per un Prestashop:
Utente-agente
Ritardo di striscia: 60
Disperdere: /cgi-bin/
Disperdere: /img/
Disperdere: /js/
Disperdere: /mails/
Disperdere: /moduli/
Disperdere: /temi/
Disallow: /traduzioni/
Disperdere: /utensili/
Disperdere: /override/
Disallow: /classe/
Disperdere: /config/
Disallow: /controllori/
Disallow: /download/
Dispermettere: /localizzazione/
Disallow: /log/
Disperdere: /mails/
Disperdere: /override/
Disperdere: /test/
Disallow: /traduzioni/
Disallow: /upload/
Disallow: /webservice/
Disperdere: /404.php
Disperdere: /address.php
Disperdere: /addresses.php
Disperdere: /authentication.php
Disperdere: /best-sales.php
Disperdere: /cart.php
Disperdere: /category.php
Disperdere: /cms.php
Disallow: /contact-form.php
Disperdere: /discount.php
Disallow: /guest-tracking.php
Disperdere: /history.php
Disperdere: /identity.php
Disperdere: /images.inc.php
Disperdere: /init.php
Disperdere: /my-account.php
Disperdere: /order.php
Disperdere: /order-detail.php
Disperdere: /order-follow.php
Disperdere: /order-opc.php
Disperdere: /order-slip.php
Disperdere: /order-history.php
Disperdere: /pagination.php
Disperdere: /password.php
Dispermettere: /pdf-fattura.
Disperdere: /pdf-order-return.php
Disperdere: /pdf-order-slip.php
Disallow: /product-sort.php
Dispermettere: /prodotto-comparison
Dispermettere: /product.php
Disperdere: /search.php
Dispermettere: /statistics.php
Per ulteriori informazioni, è possibile contattaci.