motori di ricerca, come Google o Yahoo! , tirare le pagine Web nei loro risultati di ricerca utilizzando bot Web ( a volte chiamato anche spider o crawler ) , che sono i programmi che eseguono la scansione di Internet e siti web indicizzati in un database . Bot Web possono essere effettuate utilizzando la maggior parte dei linguaggi di programmazione , tra cui C , Perl , Python e PHP , i quali permettono di ingegneri del software per scrivere script che eseguono operazioni procedurali, come la scansione e l'indicizzazione web . Istruzioni
1
Aprire una semplice applicazione di editing di testo , come Blocco note , che è incluso con Microsoft Windows o TextEdit di Mac OS X , in cui si vuole autore di una applicazione Python Web Bot .
< Br > 2
Avviare lo script Python includendo le seguenti righe di codice , e sostituendo l' URL di esempio con l'URL del sito Web che si desidera eseguire la scansione e il nome del database di esempio con il database che verrà memorizzando i risultati :
importazione urllib2 , re , stringenter_point = ' http://www.exampleurl.com ' db_name = ' example.sql '
3
includere le seguenti righe di codice per definire la sequenza di operazioni che il bot Web seguirà :
def uniq ( ss ) : set = { } mappa ( set.__setitem__ , Seq, []) set.keys return ( ) per < br > 4
ottenere gli URL nella struttura del sito web utilizzando le seguenti righe di codice:
def geturls (URL): items = [ ] richiesta = urllib2.Request ( url ) request.add.header ( 'Utente' , ' Bot_name ;) ') contenuto = urllib2.urlopen ( richiesta) . read () = voci re.findall ( ' href = "http://. ? "' , contenuto ) URL = [ ] return URL
5
Definire il database che il bot Web utilizzerà e specificare quali informazioni devono conservare per completare rendere il Web Bot :
db = open ( db_name , 'a') allurls = uniq ( geturls ( enter_point ) ) economici
6 Salvare il documento di testo e caricarlo su un server o un computer con una connessione internet in cui è possibile eseguire lo script e iniziare la scansione di pagine web .