Come programmare un Spider -mail in Python

Programmazione

C /C + + Programming

Computer Programming Languages

Delphi Programming

Java Programming

Programmazione Javascript

PHP /MySQL Programmazione

Perl Programming

Python Programming

rubino Programmazione

Nozioni di base di Visual Programming

* Conoscenza Informatica >> Programmazione >> Python Programming >> Content

Come programmare un Spider -mail in Python

I motori di ricerca spesso utilizzano algoritmi che prendono le informazioni da pagine Web e classificare in base alla popolarità . Questi algoritmi sono spesso chiamati "ragni . " Un programmatore Python può imparare molto sulla programmazione multithread , regolare pattern matching espressione e di dati Recupero Web con la creazione di un ragno . È possibile avviare uno script Python ragno con poco più che le librerie Python inclusi e interprete . Cose che ti serviranno
interprete Python
Show More Istruzioni
1

definire due espressioni regolari a indirizzi email e collegamenti ipertestuali nel codice della pagina web:

importazione urllibimport threadingimport ri

r = re.compile ( ' ( ? < = href \\ = \\ "mailto :) . * ? @ . * ? . [ \\ w ] { 0,3 } ( ? = \\ " ) ') # Mailsr1 = re.compile ( ' ( ? < = href \\ = \\ " ) * ? ( ? = \\ ") ' . ) # Links
2

Definire un costruttore della classe che prende un URL della pagina Web come argomento . Il costruttore avrà l'URL come punto di partenza , poi iniziare la classe "Spider ", come un thread separato :
classe

Spider ( threading.Thread ) : def __ init__ (self , indirizzo ) : self.url = addressthreading.Thread.__init__ (auto )
3

Definire il metodo "run" , che esegue ogni volta che inizia un nuovo thread di tipo " ragno " . Questo metodo elabora la pagina Web con " urllib.urlopen " , tira email da parte del codice utilizzando la "r" espressione regolare e li memorizza in un file di log . Prende quindi i collegamenti ipertestuali e scarica le informazioni da questo URL , iniziando un nuovo thread per elaborare la pagina web:

def run ( self):
fonte

= urllib.urlopen ( self.url . ) read () mail = r.findall ( fonte ) mail = lista ( set ( mail) ) log = open (' log.txt ', ' a') for i in mails : se re.match ( "^ [ ,"! _.0 - 9a - z - ] + @ ( . [ 0 -9A - Z ] [ 0 - 9a - z - ] + ) + [ az] { 2,4} $ " , i) = None : se ( i + '\\ n' ) non in ( open (' log.txt ', ' r' ) readlines (). ) : print ' Salvato : ' , ilog.write (i + '\\ n' ) count + = 1log.close ( ) URL = r1.findall ( sorgente) per URL in URL : . Crawl ( url ) inizio ( ) economici 4

eseguire la classe Spider chiamando un nuovo thread di tipo " ragno " e la fornitura di con un URL :

Spider ( ' www.google.com ') start ( ) per
.

Previous ： Corda Tutorial Python

next ： Elenco dei codici per Python funzioni incorporate

Articoli Correlati

·	Come rimuovere il primo carattere di una stringa in Pyt…
·	Come rimuovere il percorso da argv [ 0 ] in Python
·	Come fare un High Low gioco in Python
·	Come Avvolgere una funzione su Python
·	Come estrarre gli attributi con Python
·	Come Elaborazione batch Loop in Python
·	Come rimuovere un testo in Python
·	Come fare spazi tra più stringhe in Python
·	Come aprire un file con interprete Python
·	Come trovare una chiave in un dizionario in Python

Articoli in evidenza

·	Come rimuovere le righe duplicate in una variabile in P…
·	Come convertire un ANSI ad un HEX
·	Come importare un file CSV in un DataGridView
·	Come scrivere un Sales Tax Program in Java utilizzando …
·	Come fare Allocazione dinamica di stoccaggio in C
·	Come scrivere codice HTML sul pulsante con VB Script
·	Come aggiungere un utente a RCS
·	Come controllare una stringa di caratteri danneggiati i…
·	Come disinstallare Gemme
·	Le Proprietà del iFrame in Java