El robot del motor de cerca s’encarrega de rastrejar pàgines web. El programa llegeix automàticament les dades de tots els llocs i les registra en un formulari comprensible per al propi motor de cerca, de manera que més endavant el sistema mostrarà els resultats més adequats per a l’usuari.
Funcions
Tota la informació indexada es registra en una base de dades comuna.
Un robot de cerca és un programa que viatja automàticament a través de les pàgines d’Internet, sol·licitant els documents necessaris i rebent l’estructura dels llocs rastrejats. El robot selecciona de manera independent les pàgines que s’han d’escanejar. En la majoria dels casos, els llocs per escanejar se seleccionen aleatòriament.
Tipus de bot
Un robot que no funciona correctament augmenta significativament la càrrega a la xarxa i al servidor, cosa que pot provocar que el recurs no estigui disponible.
Cada motor de cerca té diversos programes anomenats robots. Cadascun d’ells pot realitzar una funció específica. Per exemple, a Yandex, alguns robots s’encarreguen d’escanejar els fluxos de notícies RSS, que seran útils per indexar els blocs. També hi ha programes que només busquen imatges. Tot i això, el més important és el bot d’indexació, que constitueix la base de qualsevol cerca. També hi ha un robot ràpid auxiliar dissenyat per buscar actualitzacions sobre feeds de notícies i esdeveniments.
Procediment d’escaneig
Una altra manera d’evitar el rastreig de contingut és crear accés al lloc a través del tauler de registre.
En visitar el lloc, el programa analitza el sistema de fitxers per comprovar la presència de fitxers d’instruccions robots.txt. Si hi ha un document, comença la lectura de les directrius escrites al document. Robots.txt pot prohibir o, al contrari, permetre escanejar determinades pàgines i fitxers del lloc.
El procés d’escaneig depèn del tipus de programa. De vegades, els robots només llegeixen els títols de la pàgina i alguns paràgrafs. En alguns casos, l'escaneig es fa a tot el document en funció del marcatge HTML, que també pot funcionar com a mitjà per especificar frases clau. Alguns programes s’especialitzen en etiquetes ocultes o metaetiquetes.
S'està afegint a la llista
Tots els administradors web poden evitar que el motor de cerca rastregi pàgines mitjançant robots.txt o l’etiqueta META. A més, el creador del lloc pot afegir-lo manualment a la cua d'indexació, però afegir-lo no significa que el robot rastrejarà immediatament la pàgina desitjada. Per afegir un lloc a la cua, els motors de cerca també proporcionen interfícies especials. Afegir un lloc accelera significativament el procés d’indexació. A més, per fer un registre ràpid en un motor de cerca, es poden utilitzar sistemes d’anàlisi web, directoris de llocs, etc.