Mediante un sistema automatico, detto spider
o crawler, il motore di ricerca visita i vari
siti web seguendo i link presenti nelle loro
pagine. Per ogni pagina web incontrata, lo spider
registra parte del contenuto, sia quello visibile
dal browser, sia quello facente parte del codice
html non visibile ai navigatori. Tale informazione
sarà necessaria per associare la pagina
alle parole chiave digitate dagli utenti del
motore di ricerca. Con questo sistema, lo spider
di un motore viaggia attraverso il web indicizzando
una notevole quantità di pagine (nell'ordine
delle molte centinaia di milioni). Tuttavia,
molte rimangono non raggiungibili, se non sono
collegate ad altri siti tramite link. Se si
immagina il web come un mare, i siti sono isole
collegate fra di loro con dei ponti, i link.
Un nuovo sito nasce isolato, finché un
altro, a sua volta collegato ad altri, non attiva
un link.