La indexació és el procés d’escaneig de fitxers ubicats en un recurs d’Internet per un robot de cerca. Aquest procediment es duu a terme perquè el lloc estigui disponible als resultats de cerca de diverses consultes del motor de cerca. Entre els motors de cerca més grans actuals hi ha Yandex, que realitza aquesta exploració a la seva manera.
Instruccions
Pas 1
La indexació del lloc d’Internet es duu a terme mitjançant programes automàtics especials: robots de cerca, que fan un seguiment automàtic de l’aparició de nous llocs a la World Wide Web, escanejant constantment pàgines d’Internet ubicades a Internet, fitxers i enllaços a cada recurs.
Pas 2
Per escanejar, el robot va al directori on es troba el recurs en un servidor concret. En triar un lloc nou, el robot es guia per la seva disponibilitat. Per exemple, hi ha l'opinió que Yandex analitza primer els llocs creats en un domini en rus i en rus (ru, rf, su o ua) i només després es mou a altres regions.
Pas 3
El robot navega fins al lloc i escaneja la seva estructura, primer buscant fitxers que indiquin una cerca posterior. Per exemple, s’escaneja un lloc per buscar Sitemap.xml o robots.txt. Aquests fitxers es poden utilitzar per definir el comportament del robot de cerca en escanejar. Mitjançant el mapa del lloc (sitemap.xml), el robot té una idea més precisa de l’estructura del recurs. L'administrador web utilitza robots.txt per definir fitxers que no li agradaria que es mostrin als resultats de la cerca. Per exemple, podria ser informació personal o altres dades no desitjades.
Pas 4
Després d’escanejar aquests dos documents i rebre les instruccions necessàries, el robot comença a analitzar el codi HTML i a processar les etiquetes rebudes. Per defecte, en absència d’un fitxer robots.txt, el motor de cerca comença a processar tots els documents emmagatzemats al servidor.
Pas 5
En fer clic als enllaços dels documents, el robot també rep informació sobre altres llocs que estan a la cua per escanejar-los després d’aquest recurs. Els fitxers escanejats al lloc es desen com a còpia de text i estructura als servidors dels centres de dades de Yandex.
Pas 6
La necessitat de tornar a escanejar també es determina automàticament pels robots. El programa compara el resultat d’escaneig existent amb la versió actualitzada del lloc quan torna a passar per la indexació. Si les dades rebudes pel programa difereixen, la còpia del lloc també s'actualitza al servidor Yandex.