raschiatura e analisi sono due pratiche strettamente legate data mining sito . Il più generale , l'analisi, si riferisce alla scomposizione dei dati nelle sue parti costituenti . Quando la tua scuola media insegnante di inglese ti ha chiesto di frasi diagramma , si stava analizzando la parole di quelle frasi per le loro parti del discorso . Raschiare più specificamente si riferisce alla analisi delle pagine web per particolari tipi di dati , in questo caso, gli indirizzi . Il linguaggio di programmazione Python e l'estensione " BeautifulSoup " permettono di raschiare e analizzare siti web in poche righe di codice . Cose che ti serviranno
Python 2.6 o superiore
BeautifulSoup 3.2
Mostra più istruzioni
1
Installare BeautifulSoup scaricando l'ultima versione dal software scadente e scompattare /unzip il file . Aprire una finestra di terminale e digitare il seguente comando : My- iMac : ~ me $ python setup.py install Downloads/BeautifulSoup-3.2.0/python
Questo dice l'interprete Python per eseguire lo script di installazione che può BeautifulSoup si trovano nella cartella BeautfulSoup , che si trova nella cartella Download
2
Tipo Python al prompt , premere invio e l'importazione BeautifulSoup : . My- iMac : ~ $ python mi >>> import BeautifulSoup
3
Eseguire lo script seguente per aprire una pagina web e stampare qualsiasi Universal Resource Locator ( indirizzi web ) si potrebbe trovare in una pagina : >>> import urllib2 >> ,> pagina = urllib2.urlopen ( "URL http://www.THE VOLETE rASCHIARE QUI " ) >>> minestra = BeautifulSoup (pagina ) >>> soup.findAll ('a ') >>> soup.strip print ( ) >>> copione printThis si aprirà una pagina web , analizzare l' html , ricerca per il tag in cui gli indirizzi web sono incorporati , rimuovere i tag e lasciare il testo .