Una ragnatela è un'applicazione di computer che scarica una pagina web , e quindi segue tutti i link su quella pagina e download di loro. Spider web vengono utilizzati per memorizzare i siti web per la lettura offline , o per lo stoccaggio di pagine web nel database per essere utilizzate da un motore di ricerca . Creazione di un ragno Web è un compito impegnativo , adatto a una classe di programmazione a livello di college . Queste istruzioni presuppongono che avete esperienza di programmazione solida ma nessuna conoscenza dell'architettura ragno . I passi lay out un'architettura molto specifico per la scrittura di un ragno Web nella lingua prescelta . Cose che ti serviranno
browser che risponde ai comandi programmatiche
linguaggio di programmazione con lettura e scrittura su disco e funzioni di database
Show More Istruzioni
1
inizializzare il programma con la pagina web iniziale che si desidera scaricare . Aggiungere l'URL per questa pagina in una nuova tabella di database di URL .
2
Invia un comando al browser web sia stato ordinato di andare a prendere questa pagina web , e salvarlo su disco. Spostare il puntatore del database avanti di un passo oltre l' URL che hai appena scaricato , che ora puntare alla fine della tabella .
3
Leggi la pagina web nel programma, e analizzarlo per link a pagine web aggiuntive. Questo è in genere fatto una ricerca per la stringa di testo "http://", e catturare il testo tra quella stringa e un carattere di terminazione (come " ", " . " , Oppure " > " ) . Aggiungi questi link per la tabella del database URL , il puntatore del database deve rimanere in cima a questa nuova lista
4
prova le voci della tabella di database per l'unicità , e rimuovere qualsiasi URL che appare più di una volta . .
5
Se si desidera applicare un filtro URL (ad esempio , per prevenire il download di pagine dai siti a domini diversi ) , si applica ora alla tabella di database di URL e rimuovere qualsiasi URL che non desideri per scaricare .
6
impostare un ciclo programmatico così il vostro ragno torna al punto 2 di cui sopra . Ciò ricorsivamente scaricare tutti gli URL vostro ragno incontra . Rimozione di URL duplicati assicura che il ragno correttamente interrompere quando raggiunge l'ultimo indirizzo URL univoco.